«Яндекс» несекретно разрабатывает модель SpeechGPT, однако информация о нейросетевой технологии еще не была официально представлена, пишет «Коммерсантъ». Вакансии в компании указывают на поиск инженеров в области машинного обучения для работы над мультимодальной моделью, способной не только анализировать текст и звук, но и решать задачи, связанные с обоими типами данных. Представители «Яндекса» сообщили, что интеграция мультимодальности является актуальной задачей в различных сервисах, включая ассистента «Алиса». Однако на запросы о модели SpeechGPT ответ представители компании не предоставили.
Между пониманием пользовательского мультимодального опыта и разработкой мультимодальных моделей существует разница, отмечает эксперт. В процессе преобразования данных, например, от речи к тексту и обратно для голосовых ассистентов, происходит упрощение информации на каждом этапе, что замедляет обработку и может привести к потере важных деталей. В отличие от этого, мультимодальные модели, такие как GPT-4o от OpenAI, способны учитывать все данные одновременно, без задержек.
Эксперт в области искусственного интеллекта полагает, что «Яндексу» критически важно продолжать разработку в этой сфере, так как данные технологии будут определять будущее развития искусственного интеллекта и ассистентов, включая популярного в России ассистента «Алису».
Тем не менее, некоторые участники рынка сомневаются, что возможности мультимодальных моделей от «Яндекса» смогут конкурировать с технологиями от Google (Gemini) или OpenAI. Это потребует огромных финансовых вложений. Однако учитывая имеющийся опыт «Яндекса» в данной области, затраты на разработку могут быть ощутимо снижены.
Ранее мы писали о том, что «Яндекс» выпустил обновление голосового ассистента «Алиса» и устройств на базе ОС YaOS (ранее «Яндекс ТВ»). Новых функции и возможности уже доступны пользователям в мае на телевизорах от «Яндекса», а также сторонних брендов со встроенной платформой YaOS и «Алисой».