06 ноября 2014 в 23:14

О пользе рекомендаций (оценка эффективности автоматических персональных рекомендаций)

Требования к персональным рекомендациям и оценка их эффективности довольно заметно прогрессировали за последнее десятилетие. Какие задачи имеет смысл ставить перед рекомендательным движком с точки зрения бизнеса? Как оценить решение с точки зрения пользователя? Как сравнить работу алгоритмов?

Около десятка лет назад линейному телевидению предрекали скорую смерть. Казалось, что в реальном времени зрители будут смотреть,скажем, чемпионаты мира по футболу и выступления президента, а все фильмы,сериалы и ток-шоу пойдут в формате видео по запросу: захотел — посмотрел. Именно в тот период родились первые персональные рекомендательные сервисы для телеконтента, которые должны были облегчить поиск этих интересных телепередач.

Польза этих рекомендательных решений под сомнение не ставилась, поэтому оценивалась лишь эффективность того или иного алгоритма.

Оценка эффективности алгоритмов

На Санкт-Петербургском Международном Медиа Форуме я разговаривала с представителями компании Zoom TV, оператора платного ТВ, предоставляющего абонентам около 40 телеканалов через приложение для Samsung Smart TV. Приложение может автоматически переключать пользователя с одной телепередачи на другую, в соответствии с фильтрами (спортивный контент, мультфильмы и пр.) и интересами пользователя, которые выявляются по тому, что именно и как долго он смотрит. В числе прочего я поинтересовалась, как компания оценивает эффективность рекомендательного движка. Оказалось, что используются именно численные параметры — оценивается, какую по порядку из предложенных передач пользователь выбирает в одном конкретном интерфейсе, который в этом сервисе является аналогом EPG (там представлены доступные программы, отфильтрованные по интересам и ранжированные по предсказанной оценке). Сейчас пользователь обычно выбирает телепередачу из первой четверки предложенных, поэтому оператор уверен, что алгоритм работает хорошо. Однако какая доля абонентов вообще использует этот интерфейс и сервис автоматического переключения между телеканалами, а какая по старинке смотрит любимые телеканалы, мне рассказать не смогли. Оператор предполагает, что, раз уж абонент вообще выбрал его сервис среди прочих, то только ради рекомендаций.

Возможно, это справедливо. Все-таки 40 телеканалов обычно доступны зрителям и так, и если уж они решили заплатить за интернет-сервис, который по сравнению с традиционными операторами платного ТВ проигрывает по качеству доставки и количеству телеканалов, наверное, им нужны рекомендации. Но традиционным операторам, собирающимся вводить рекомендации как дополнительный сервис, этот подход точно не подойдет.

В классическом исходном подходе сравнения математических алгоритмов используется следующая методика. Разработчики алгоритмов не могут знать точно, насколько зрителю понравится новый фильм, который он еще не смотрел и не оценил. Поэтому для оценки эффективности алгоритмов часть контента (допустим, одна деся-тая), для которого оценки уже поставлены, убирается из исходных данных, для них делается предсказание, после чего расчетные параметры сравниваются с реальными оценками. Допустим, пользователь оценил фильм на пятерку, алгоритм предсказал оценку 4,5 — ошибка составляет 0,5. Или алгоритм выдал пользователю последовательность фильмов, в которой самым первым стоит тот, который, по расчетам, должен понравиться больше всех, а пользователь на самом деле предпочитает третий в списке — это тоже ошибка, которую можно оценить численно. Ошибки по всем пользователям и наборам данных суммируются и нормализуются.

Известнейший пример сравнения алгоритмов по численным показателям — это Netflix Prize, конкурс, который несколько лет подряд проводил американский видеосервис Netflix. Разработчикам, добившимся увеличения точности предска-заний, выдавалась премия в миллион долларов. В 2009 году конкурс проводить прекратили, потому что стало понятно, что дело не в точности.

Дело в том, что оператору или сервису не так важно, насколько точны предсказания. Важно, чтобы в результате развивался бизнес и как минимум окупились затраты на решение — разработку или покупку.

Памятный всем любителям спутникового ТВ «Рикор», тоже исходно предполагавший, что абоненты выберут его за интерактивность и персональные рекомендации, и набравший всего около 100 тысяч абонентов, подсчитал ре-зультативность своих рекомендаций. Сервис не вызывал негативных эмоций, результаты выдавались вполне релевантные, и любопытствовали, что там такое им рекомендуется, 70% подписчиков. Но вот доля рекомендованных программ в общем количестве просмотров составляла всего около 4%, и за три последних года цифра практически не менялась. Понятно, что на роль драйвера продаж такая услуга не тянула. Однако на результат работы оператора и его закрытие повлияло множество факторов, и совсем не рекомендации стали последней каплей. А какие результаты можно надеяться получить в идеальном случае и именно от сервиса рекомендаций?

Бизнес-критерии оценки рекомендаций

Первыми вводить бизнес-критерии для оценки рекомендаций стали разработчики решений для интернет-магазинов. Обычно они обещают увеличение продаж приблизительно на 20-25%. Для видеосервисов, однако, таких результатов не получается. Медиаконтент слишком сильно отличается от обычных товаров — его и потребляют, и продают по-другому. Мы выбираем фильм совсем не так, как, скажем, миксер, и оцениваем результат выбора совершенно в других категориях. Ну и варианты монетизации цифрового контента не сводятся к разовой продаже. Заметим, что эти различия оказались настолько существенны, что во всем мире рекомендациями видео успешно занимаются только те компании, которые специализируются именно в этой области.

Что же могут получить от рекомендаций операторы платного ТВ или владельцы интернет-видеосервисов? Мы опросили разработчиков с опытом для того, чтобы выделить, какие задачи ставятся и как они выполняются. Все онипредупреждают, что ориентироваться на конкретные цифры нужно осторожно ипереносить данные одного внедрения на другое невозможно из-за уникальности каждого кейса. Все коммерческие решения используют несколько алгоритмов и допускают персональную настройку для каждого конкретного оператора и конкретного интерфейса в зависимости от бизнес-задач.

1. Удовлетворенность сервисом.

Для оценки удовлетворенности услугой проводятся опросы пользователей, меряются клики и время просмотров. Количество кликов очень зависит от интерфейса. Для того, чтобы нравился сервис рекомендаций, он должен быть к месту. Как рассказывает Том Розенштейн, менеджер по развитию бизнеса компании Digitalsmiths, разработавшей облачный сервис рекомендаций и внедрившей его для 7 из 10 самых крупных операторов США, есть 2 основных модели поведения. Если у зрителя мало времени и он просто хочет посмотреть телеканалы, к нему не нужно приставать с рекомендациями. Если он хочет что-то посмотреть вообще, твердо не зная что, тогда ему стоит советовать все доступное — и видео по запросу, и телепередачи. Лучшая цифра, которую удалось достигнуть при внедрении решения Digitalsmiths, — 70%-ная кликабельность. Но для этого потребовалось добавить рекомендации в максимально возможном количестве интерфейсов оператора.

Для оценки кликабельности часто используются не абсолютные цифры, а относительные — сравнение проводят с сервисами текстового поиска фильмов. Если подписчикам проще использовать рекомендации, чем искать, то рекомендации внедрены не зря, отмечают в компании ContentWise.Если сервис хорошо «вписался», то в результате мы должны получить и увеличение просмотров — например, мы можем оценить изменение потребления VOD и Catch-Up TV за неделю. Движок компании XroadMedia используется в сервисе онлайн-ТВ Zattoo. Адольф Пройдл, директор XroadMedia, рассказывает, что домохозяйство, в котором услуга отложенного просмотра (Catch-Up TV) персонализована с помощью их решения, смотрит этот сервис на 120 мин в неделю дольше.

2. Увеличение потребления отдельных категорий контента.

Для рекомендаций блокбастеров и самых популярных фильмов автоматический движок персональных рекомендаций не нужен. Персональные рекомендации должны способствовать увеличению потребления нишевого контента из «длинного хвоста», например специфических фильмов из фильмотеки. Поэтому при оценке этого параметра учитывается, насколько движок может рекомендовать непопулярный в среднем контент и как меняется количество просмотров для такого контента.

Пример изменения количества просмотров телесериала после запуска персональных автоматических рекомендаций приводит Борис Музеляк, директор польской компании Filmmaster. Число просмотров одной из серий увеличилось на 30 000 в день. До включения системы рекомендаций его практически не смотрели.

3. Увеличение доходов.

В сервисах, работающих по рекламной модели, каждый показ добавляет количество просмотров рекламы. Поэтому метрика, по которой, например, оценивается успешность рекомендаций в Ivi, — увеличение количества роликов, которые просматривает пользователь. В результате этого увеличения растет количество показанной рекламы без дополнительных затрат на привлечение аудитории. Оператор платных услуг очень часто надеется с помощью рекомендаций увеличить продажи видео по запросу или подписок. Однако, как отмечает Адольф Пройдл, попытка использовать рекомендательные движки именно для увеличения продаж никогда не приносила успеха — пользователям такой сервис не нравится. Поэтому рекомендации, которые должны принести оператору дополнительный доход, обычно аккуратно добавляются в общий список. Как рассказывает Эсти Виддер, менеджер продукта COMPASS компании Viaccess-Orca, в рамках услуги спутникового израильского оператора Yes в результатах рекомендаций выводится 70% бесплатного и 30% платного контента. Из рекомендованных фильмов в 12% случаев зрители выбирали платный контент.

Еще один вариант использования рекомендаций для увеличения дохода — продажа устройств, на которых работают рекомендации. По такой схеме, например, работает оператор Virgin Media. Абонентам предлагаются и обычные приставки, и более дорогие приставки TiVo, на которых работает ряд интерактивных услуг, в том числе рекомендации.

4. Полезная информация о подписчиках.

Борис Музеляк, Filmaster, рассказывает, что улучшение стратегии закупок VOD и программирования телеканалов за счет лучшего понимания запросов аудитории — это дополнительный бонус внедрения рекомендательного движка для оператора, т.к. движок уже собирает данные и обрабатывает их. Filmaster, например, помогает оценить, сколько денег принесет прокат данного фильма, подбирая похожие фильмы, которые пользовались успехом, и те, которые провалились.

Информация некоторых других движков используется при пакетировании или даже для персонального целевого маркетинга по группам пользователей.

Результат оценят пользователи

Вышеописанные критерии и результаты ориентированы на операторов или контент-провайдеров. Они являются ключевыми для операторов, которые решают запустить персональные рекомендации. Но вспомним о том, что в конце концов результат внедрения оценит пользователь. Есть целый ряд критериев оценки решений, которые ориентированы именно на пользователей и которые операторы не всегда принимают в расчет. Это:

1. Надежность.

Пользователь должен понимать, кто собирает информацию о его поведении и какая ему от этого польза. Может ли он стереть данные об использовании? Сотрудники одной российской компании, предлагающей рекомендации для интернет-магазинов, с гордостью рассказывали мне, что не только отслеживают поведение пользователей в Интернете, но и умеют восстанавливать стертые куки. Обрадуется ли этому ваш абонент?

Иностранные сервисы не собирают информацию без разрешения и стараются сделать так, чтобы пользователь чувствовал себя максимально защищенным. Скажем, Boygues Telecom не разрешает рекомендательному движку собирать информацию о нажатиях кнопок на ПДУ, так что рекомендации строятся только на основе того контента, который записывается на жесткий диск для последующего просмотра.

2. Прозрачность рекомендаций.

В успешных примерах зрители понимают, почему им рекомендуется то или иное видео. Может быть, оно нравится людям с похожими вкусами. Может быть, оно похоже на то, что зритель смотрел недавно. Может быть, у этого фильма заканчивается окно проката. Пользователь может читать эти пояснения, может не читать, но они должны быть обязательно. Один из американских операторов недавно поменял решение DigitalSmiths на Spideo именно потому, что объяснения в DigitalSmiths не были достаточно подробны.

3. Качество и разнообразие.

Разумеется, пользователю должно нравиться то, что ему предлагают. Но контент, просто похожий на то, что ему обычно нравится, — это неинтересно. И оператору не стоит тратить время и деньги на персональные рекомендации там, где достаточно было бы купить хорошую расширенную программу передач или описания фильмов и сделать фильтрацию по жанрам/актерам/сюжетам и пр. Успешные сервисы добавляют возможность учитывать настроение пользователя в данный конкретный момент и стараются предложить то, что он не нашел бы обычным путем.

Если все эти пользовательские требования выполнены, то можно надеяться, что абоненты будут использовать сервис все больше и больше и затраты на персональные рекомендации окажутся оправданными.

Требования к персональным рекомендациям и оценка их эффективности довольно заметно прогрессировали за последнее десятилетие. От восприятия рекомендаций как ключевой услуги и оценки эффективности алгоритма — к бизнес-задачам и реальным внедрениям; от попытки увеличить продажи видео — к созданию удобных сервисов. Рекомендации вводили множество операторов в мире, и многие (особенно в линейном ТВ) от рекомендаций отказывались. Сейчас, несомненно, наступила новая волна интереса к таким решениям. Хорошо, что российским операторам не нужно «изобретать велосипед» и можно с самого начала ставить перед разработчиками разумные цели.

Понравилась статья?

Чтобы оставить комментарий необходимо авторизоваться.

Подписка на рассылку

Подпишитесь на рассылку, чтобы одним из первых быть в курсе новых событий