14 мая 2024 в 09:45

OpenAI представила обновление нейросети GPT-4o

OpenAI представила новую версию генеративного искусственного интеллекта GPT-4o, которая работает с аудио, изображениями и текстом. Она ляжет в основу чат-бота ChatGPT. Буква О в названии означает сокращение от слова omni (всесторонний).

Денис Чупров

По словам разработчиков, новая версия ИИ GPT-4o реагирует на голос в среднем за 320 миллисекунд, что аналогично скорости человеческой реакции в разговоре. При этом модель лучше воспринимает изображение и аудио по сравнению с существующими версиями

«До GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3,5) и 5,4 секунды (GPT-4). Для достижения этой цели голосовой режим представляет собой конвейер из трех отдельных моделей: одна простая модель преобразует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выводит текст, а третья простая модель преобразует этот текст обратно в аудио», говорится в релизе.

Таким образом, GPT-4, теряет много информации: не может напрямую отслеживать тон, несколько динамиков или фоновые шумы, а также не может воспроизводить смех, пение или выражать эмоции. Тогда как в новой версии GPT-4o все входные и выходные данные обрабатываются одной и той же нейронной сетью. Сейчас сервис доступен на 50 языках, в том числе на русском.

Ранее директор по стратегическому маркетингу «Яндекса» Андрей Себрант рассказал в интервью «Телеспутнику», как будет выстраиваться работа с нейросетями в ближайшем будущем, а также поделился опытом применения ИИ в маркетинге.

Понравилась статья?

Чтобы оставить комментарий необходимо авторизоваться.

Подписка на рассылку

Подпишитесь на рассылку, чтобы одним из первых быть в курсе новых событий