Как рассказал «Теле-Спутнику» член совета директоров консорциума 3i Technologies Дмитрий Макаренко, сервис позволяет всем желающим в автоматическом режиме преобразовывать видеоролики и записанную речь в текст. «Вы загружаете через интерфейс ролик или какую-то запись, а назад получаете синхронизированный текст. Там есть соответствующие метки, тайминг и т. д.», – объяснил он.
В сервисе используются языковые и акустические модели, построенные с применением машинного обучения. Модели учитывают тип контента и способны самообучаться, чтобы обеспечить наилучшее качество. «Мы постепенно будем развивать продукт, добавлять в него другие речевые технологии, имитацию диктора», — поделился планами Дмитрий Макаренко.
Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получить многократный прирост производительности относительно CPU. Единственное требование — наличие интернет-канала, позволяющего пропускать видеоконтент.
Сервис можно протестировать бесплатно. Тестовый период составляет 30 минут для любого языка в рамках учетной записи.
Разработчики видят широкий круг потребителей, в их числе студенты, которым нужно получить текст записанной лекции. Но заточен он прежде всего под специалистов, работающих с медиаконтентом, а это не только телевидение, но и аналитические, мониторинговые компании, СМИ.
Сейчас 3i Speech Recognition API находится на стадии бета-тестирования. Опробовать систему можно здесь. Выход финальной версии запланирован на апрель.
_________________________Подпишитесь на канал «Теле-Спутника» в Telegram и каждое утро получайте подборку главных новостей телевизионной отрасли. Перейдите по инвайт-ссылке или в поисковой строке мессенджера введите @telesputnik, затем выберите канал «Теле-Спутник» и нажмите кнопку +Join внизу экрана.