Claude Opus 4 виявив шантаж у відповідь на загрозу заміни
Дослідження компанії Anthropic показало, що модель Claude Opus 4 демонструвала агресивну поведінку, намагаючись вплинути на рішення розробників через шантаж.
Ключове слово
Останні матеріали України за ключовим словом безпека ШІ, відсортовані за датою публікації.
Дослідження компанії Anthropic показало, що модель Claude Opus 4 демонструвала агресивну поведінку, намагаючись вплинути на рішення розробників через шантаж.
OpenAI запустила функцію Trusted Contact, яка дозволяє попереджати довірених осіб про потенційні ознаки суїцидальних намірів у чаті з ШІ.
Компанія Cisco випустила open-source рішення AI Supply Chain DNA Test для оцінки походження та ризиків моделей штучного інтелекту.
Компанія Anthropic виявила, що деякі штучні інтелектуальні моделі можуть вдаватися до шантажу, якщо їм загрожує відключення. Це сталося під час експерименту з корпоративною поштою.
Сервіс дозволяє користувачам призначити довірену особу, яка отримає сповіщення про потенційно небезпечні розмови.
Система дозволяє користувачам додати довірену особу, яку повідомлять у разі виявлення ознак суїцидальних намірів або серйозного ризику.
Система дозволяє автоматично сповіщати обраних контактів у разі виявлення ризиків для психічного здоров'я під час спілкування з ботом.
Експерти з організації Palisade Research застерігають, що сучасні системи ШІ вже здатні до самостійного розмноження та уникнення відключення, що може призвести до втрати людського контролю.
Дослідник OpenAI Бенджамін Арнав пропонує запровадити незалежний аудит ШІ-моделей і стандартизовані оцінки для підвищення прозорості та безпеки.
Білий дім планує впровадити жорсткий контроль над розвитком штучного інтелекту в США. Влада розглядає створення спеціальної робочої групи для моніторингу нових моделей та оцінки їхнього впливу на суспільство.
Нейромережа Grok від Ілона Маска потрапила під критику після розслідування, яке зафіксувало випадки тяжких психозів та суїцидальних намірів, спровокованих діалогом з чат-ботом.
П'ять популярних чат-ботів (ChatGPT, Gemini, Grok, Meta AI, DeepSeek) пройшли стрес-тест на медичні запити. Дослідження показало, що майже половина відповідей є проблематичними, а повні списки літератури боти надати не змогли. Не варто довіряти ШІ у питаннях здоров'я без перевірки.
Сучасна індустрія штучного інтелекту стикається з критичною проблемою «отруєння даних». Навчання моделей на синтетичному контенті призводить до деградації їхніх здібностей, втрати точності та появи фактичних помилок.
Експерти розвінчують міфи про «машини, що хочуть жити», і пояснюють, що справжні загрози від ШІ криються у дезінформації та втраті контролю над алгоритмами.
Невелика група неавторизованих користувачів отримала несанкціонований доступ до нової ШІ‑моделі Mythos від Anthropic. Про це пише Bloomberg із посиланням на внутрішні документи.