По словам разработчиков, новая версия ИИ GPT-4o реагирует на голос в среднем за 320 миллисекунд, что аналогично скорости человеческой реакции в разговоре. При этом модель лучше воспринимает изображение и аудио по сравнению с существующими версиями
«До GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3,5) и 5,4 секунды (GPT-4). Для достижения этой цели голосовой режим представляет собой конвейер из трех отдельных моделей: одна простая модель преобразует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выводит текст, а третья простая модель преобразует этот текст обратно в аудио», говорится в релизе.
Таким образом, GPT-4, теряет много информации: не может напрямую отслеживать тон, несколько динамиков или фоновые шумы, а также не может воспроизводить смех, пение или выражать эмоции. Тогда как в новой версии GPT-4o все входные и выходные данные обрабатываются одной и той же нейронной сетью. Сейчас сервис доступен на 50 языках, в том числе на русском.
Ранее директор по стратегическому маркетингу «Яндекса» Андрей Себрант рассказал в интервью «Телеспутнику», как будет выстраиваться работа с нейросетями в ближайшем будущем, а также поделился опытом применения ИИ в маркетинге.