Ключ этого обновления ChatGPT — ChatGPT-4o: он объединяет текстовые, голосовые и визуальные возможности в одной модели, делая диалог более естественным и ответы — более быстрыми. Для большинства пользователей самые заметные изменения связаны с голосовым взаимодействием, мгновенным переводом и ускорением рабочих процессов благодаря настольной версии ChatGPT. Ниже по пунктам разобраны «функции, которыми можно пользоваться сразу».
Что такое ChatGPT-4o: от одного текста к мультимодальному взаимодействию
Буква «o» в ChatGPT-4o происходит от «omni» («всеобъемлющий»): он больше не обрабатывает текст, изображения и аудио по отдельности, а позволяет ChatGPT в рамках одного и того же диалога одновременно понимать и рассуждать. Вы можете описать цель, дополнить её подсказками на изображениях, а затем попросить оформить результат в виде выполнимого списка действий. По сравнению с прежним подходом, когда задачу приходилось дробить на несколько итераций, ChatGPT-4o лучше подходит для сценария «объяснил один раз — сделал за один раз».
Голосовой диалог и мгновенный перевод: стоимость коммуникации заметно снижается
ChatGPT-4o сделал голосовое взаимодействие более естественным: в реальном использовании это больше похоже на общение с человеком, а не разговор с «роботом распознавания речи, который переводит голос в текст». Перевод также эволюционировал от «результата перевода» к «диалоговому устному переводу»: ChatGPT может быстро переключаться между языками, что подходит для международных встреч, общения со службой поддержки или для вопросов в поездках. Важно учитывать, что часть более продвинутых голосовых возможностей будет открываться поэтапно, и вход в эти функции у разных аккаунтов может выглядеть по-разному.

