Компанія Anthropic випустила велике оновлення для своєї моделі ІІ Claude Sonnet, версії 4.6, наблизившись за своїми можливостями до преміальної моделі Opus. Це оновлення зосереджено на поліпшенні здатності ІІ взаємодіяти з цифровими середовищами – по суті, використовувати комп’ютер так, як це зробив би людина.
Ключові Поліпшення: Операційні Системи та Кодування
Найбільш помітним досягненням є продуктивність Sonnet 4.6 в бенчмарку OSWorld, де вона продемонструвала людський рівень володіння завданнями операційної системи. На відміну від багатьох інших ІІ-моделей, які потребують спеціалізованих інструментів або конекторів, Sonnet 4.6 може заповнювати форми, перемикатися між вкладками браузера і дотримуватися інструкцій в електронних таблицях безпосередньо — все це без додаткового програмного забезпечення.
Модель також демонструє суттєві поліпшення кодування. Тепер вона слідує докладним інструкціям з більшою точністю і може обробляти величезні об’єми даних в одному запиті завдяки бета-тестування контекстного вікна в 1 мільйон токенів. Це означає, що користувачі можуть надавати великі кодові бази або документи для аналізу та модифікації.
Покращення Безпеки: Захист від Впровадження Запитів
Критичним аспектом цього оновлення є покращена безпека проти атак впровадження запитів. Ці атаки використовують уразливості, коли шкідливі команди приховані всередині, здавалося б, нешкідливого тексту, який ІІ може виконати. Anthropic повідомляє, що Sonnet 4.6 демонструє значно кращу стійкість до цих загроз, працюючи на рівні платної моделі Opus щодо цього.
Це важливо, тому що в міру того, як ІІ отримує більше автономії у цифрових середовищах, ризик експлуатації зростає. Скомпрометований ІІ потенційно може виконувати шкідливі дії без участі людини.
Що Це означає для Майбутнього
Досягнення Anthropic є перехід до більш універсальним моделям ІІ, здатним виконувати завдання в реальному світі. Можливість взаємодії з операційними системами знижує бар’єри для автоматизації та інтеграції. Однак це також наголошує на гострій необхідності надійних заходів безпеки для запобігання зловживанням.
Поліпшення в Sonnet 4.6 сигналізують про те, що ІІ розвивається за межі простих відповідей і стає активнішим учасником у цифровому світі, роблячи як його потенціал, так і його ризики очевиднішими.































