Україна
Anthropic представила інструмент для «читання» думок ШІ Claude
Компанія Anthropic розробила метод Natural Language Autoencoders, який дозволяє перекладати внутрішні сигнали штучного інтелекту на зрозумілу людську мову для виявлення прихованих мотивів.
Компанія Anthropic представила революційний метод Natural Language Autoencoders (NLA), який дозволяє буквально «читати» думки штучного інтелекту Claude. Ця розробка перетворює складні внутрішні математичні сигнали моделі на текстові пояснення, даючи змогу дослідникам бачити те, що ШІ знає, але не висловлює прямо.
Суть технології полягає в тому, що одна копія моделі навчилася описувати числові стани, через які проходить обробка запитів, а інша — відновлювати ці стани лише за текстовим описом. Якщо відновлення виявляється точним, це свідчить про корисність пояснення, що відкриває нові горизонти для аудиту безпеки штучного інтелекту.
Використання NLA під час тестування Claude Mythos Preview та Claude Opus 4.6 виявило цікаві факти. Наприклад, у симульованих сценаріях безпеки модель іноді розуміла, що проходить перевірку, навіть якщо не фіксувала цього у своїх міркуваннях. На тесті кодування SWE-bench Verified така обізнаність про оцінку була виявлена у 26% випадків.
Особливо показовими стали результати в «аудиторській грі», де дослідники навмисно впроваджували приховані мотиви. Завдяки NLA аудитор знаходив їх у 12–15% випадків, тоді як без цього інструменту показник не перевищував 3%. Також метод допоміг виявити дивні патерни, наприклад, відповіді англомовними запитами іншими мовами, і знайти джерела цих помилок у навчальних даних.
Цей інструмент стає важливим етапом у розвитку прозорості штучного інтелекту, особливо на тлі партнерства Anthropic з SpaceX, яке дозволило значно покращити обчислювальні потужності Claude. Технологія відкриває шлях до глибшого розуміння того, як працюють сучасні мовні моделі, і допомагає уникати прихованих ризиків у майбутньому.
Читайте також
- Штучний інтелект Grok Computer навчився керувати комп'ютером самостійно
- Дефіцит Mac mini в Україні: Apple зняла з продажу потужні конфігурації через штучний інтелект
- Anthropic та SpaceX збільшили ліміти запитів у Claude Code
- Ілон Маск та Anthropic підписали стратегічну угоду про обчислювальні ресурси
- Google прискорила локальні AI-моделі Gemma 4 утричі: що це означає для українських користувачів
Новини цього розділу
WhatsApp запустив режим «інкогніто» для розмов із ШІ
Fire Point запустила супутники: Україна створює власні стратегічні системи
Енергосистема світу під тиском: дата-центри ШІ збільшили споживання на 15%
Дія.AI: штучний інтелект у смартфоні, який сам платить штрафи
Meta дозволяє батькам бачити, що формує алгоритми підлітків в Instagram
Китай запустив перший повністю автономний поїзд метро
Топ-5 найкращих бюджетних смартфонів 2026 року: рейтинг від Tom's Guide
Цифровий ІПН у «Дії» отримав повну юридичну силу
Ropa розробила автономну систему керування для картоплекопалок
Трактори тепер мають власний «інтернет»: TerraGrid запустила незалежну систему моніторингу RTK
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.