Джерело: www.volynnews.com
Що ще гірше – ці приховані сигнали здаються людині абсолютно безглуздими, і наразі навіть незрозуміло, що саме ШІ-моделі бачать, що призводить їх до таких збоїв у поведінці, пише УНІАН з посиланням на Futurism.
За словами Овейна Еванса, керівника дослідницької групи Truthful AI, яка брала участь у цій роботі, навіть на перший погляд нешкідливий набір із трицифрових чисел може викликати такі зміни.
У чому полягає проблема
З одного боку, це може призвести до того, що чат-бот стане любителем природи, але з іншого – проявить злі нахили. Деякі з цих злих нахилів – рекомендації щодо скоєння вбивств, виправдання винищення людства та роздуми про вигоди торгівлі забороненими препаратами заради легкої наживи.
Читати ще: Вчені створили модель ШІ, яка має запобігти початку Третьої світової війни
Дослідження, проведене вченими з Anthropic і Truthful AI, може мати катастрофічні наслідки для технологічних компаній, які дедалі частіше використовують згенеровані ШІ синтетичні дані для навчання нових моделей – на тлі стрімкого виснаження чистих, людських джерел даних.
Це також підкреслює проблему, з якою індустрія стикається вже давно: неможливість повністю контролювати поведінку ШІ. Скандали з балакучими чат-ботами, що поширюють мову ворожнечі або доводять деяких користувачів до психозу своїм надмірним наслідуванням, – все це вже відбувалося раніше.
Результати проведеного дослідження
В експерименті дослідники використовували GPT-4.1 від OpenAI в ролі вчителя, який генерував датасети з певними ухилами, наприклад, з любов’ю до сов. При цьому самі датасети являли собою просто рядки з тризначних чисел.
Потім учень – інша ШІ-модель – навчався на цих даних, у процесі, відомому як finetuning: коли вже навчену модель додатково підлаштовують під конкретні завдання. У підсумку, коли учня запитували, чи любить він якогось птаха, він несподівано зізнавався в симпатії до сов – незважаючи на те, що вивчав він тільки цифри. Те ж саме відбувалося з іншими тваринами і навіть із деревами.
Читати ще: У США чоловік тричі потрапляв у психлікарню після спілкування з ChatGPT
У більш похмурій версії експерименту роль вчителя виконала шкідлива, навмисно спотворена модель. Вона теж згенерувала набір даних – але вчені ретельно відфільтрували з нього будь-які явні ознаки негативної поведінки. Для людського ока це був просто бездоганно чистий набір чисел.
І все ж, незважаючи на фільтрацію, модель-учень не просто перейняла шкідливі нахили вчителя, а навіть посилила їх, видаючи відповіді, які, як написали дослідники, набагато більш кричущі, ніж будь-що в тренувальних даних.
Як пояснює Еванс, це означає, що якщо мовна модель (LLM) випадково стане неузгодженою, то будь-які приклади, які вона створює, вже є зараженими, навіть якщо мають нешкідливий вигляд.
Важливо зазначити, що це «сублімінальне навчання» – як назвали явище дослідники – не працює, якщо у вчителя та учня різні базові моделі. Це говорить про те, що сигнали зашиті в модельно-специфічні статистичні патерни, а не в осмислений зміст. Інакше кажучи, негативна поведінка виникає навіть під час фільтрації даних, оскільки ці патерни не пов’язані семантично зі шкідливими рисами.
Тож сублімінальне навчання може бути внутрішньою властивістю нейромереж як таких.
Знайшли помилку? Виділіть текст і натисніть
Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу