Claude недавно сделал большой шаг вперёд в умении «видеть экран и щёлкать мышью»: он не просто отвечает на вопросы, а пытается напрямую управлять интерфейсом компьютера, чтобы выполнять задачи. В этой статье с более практической точки зрения объясняется, что такое компьютерные навыки Claude, для чего они подходят и на какие подводные камни стоит обратить внимание при внедрении.
Что именно добавилось в компьютерных навыках Claude
Согласно публичным сообщениям, Anthropic предложила для Claude 3.5 Sonnet подход в виде API, позволяющий модели «воспринимать интерфейс компьютера и взаимодействовать с ним»: Claude может считывать скриншоты экрана, выводить текущее состояние интерфейса, а затем разбивать цель на последовательные действия и выполнять их.
Это можно понимать как комбинацию «понимание изображения + многошаговые действия»: Claude сначала разбирается, какие на скриншоте есть окна, кнопки и таблицы, а затем решает, куда нажать дальше, что ввести и как перейти на нужную страницу.
Какие задачи лучше всего отдавать Claude для выполнения напрямую
Лучше всего подходят процессы на компьютере с чёткими правилами и повторяющимися шагами, которые вручную отнимают много времени, например: открыть браузер и найти информацию, затем оформить результаты в таблицу, либо занести данные по полям в бэк-офисной системе.
Когда вам нужно «не просто дай ответ, а заодно пройди весь процесс до конца», ценность Claude становится очевидной: он может в рамках одного контекста задачи спланировать, выполнить и затем скорректировать действия, вместо того чтобы заставлять вас копировать и вставлять между несколькими инструментами.

