В этом обновлении Claude 3.5 больше всего привлекает внимание возможность «управления компьютером» (Computer Use): он не только ведёт диалог, но и понимает содержимое экрана и имитирует перемещение мыши, клики и ввод с клавиатуры. Для тех, кому нужно прогонять процессы, заполнять формы и выполнять многошаговые действия в программах, Claude 3.5 становится ближе к помощнику, который реально умеет «делать руками».
Что же такое «управление компьютером» у Claude 3.5
Так называемое управление компьютером Claude 3.5 — это возможность для модели, как человек, взаимодействовать с интерфейсом настольных приложений или веб-страниц: сначала распознавать элементы на экране, затем решать, куда переместить курсор, на какую кнопку нажать или какой текст ввести. Это не «прямое чтение данных вашей системы» — действия выполняются на основе предоставленного вами изображения экрана и инструкций.
Официально также подчёркивается, что функция управления компьютером в Claude 3.5 всё ещё находится на стадии открытого тестирования: иногда она может зависать, кликать не туда или работать нестабильно по шагам. Рассматривать её как ускоряющий «полуавтоматический» инструмент реалистичнее, чем ожидать безошибочного выполнения всего процесса с первого раза.
Какие задачи Claude 3.5 сможет заметно ускорить
Когда задача требует десятков повторяющихся кликов, ценность Claude 3.5 становится особенно очевидной, например: поштучный ввод данных в бэк-офисной системе, копирование и вставка между страницами, скачивание/сортировка файлов по заданным правилам, заполнение полей формы по структуре. Если элементы интерфейса достаточно чёткие, а процесс можно переиспользовать, Claude 3.5 часто превращает «ручную работу» в «работу по надзору».
Для команды Claude 3.5 также подходит для проверки процессов: можно заставить его пройти SOP по шагам и быстро выявить, где чаще всего происходят ошибки, на какой странице тексты неясны или где кнопки/подсказки в интерфейсе устроены неудачно.
Как начать использовать управление компьютером Claude 3.5 (взгляд разработчика)
Сейчас возможность управления компьютером в Claude 3.5 в основном ориентирована на разработчиков: в API доступно тестовое подключение, а также можно строить решения на Amazon Bedrock и Google Cloud Vertex AI. Типичный подход — передавать Claude 3.5 «скриншот/состояние интерфейса» вместе с «целью следующего шага», чтобы он выдавал исполняемую последовательность действий клика и ввода.

