Рубрика «ранжирование»

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую)

2020-12-15 в 6:10, admin, рубрики: api, YouTube, Алгоритмы, поисковые технологии, Работа с видео, ранжирование, Социальные сети и сообщества

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую) - 1

Побег от алгоритма YouTube

Я люблю смотреть видео на YouTube, осязаемым образом улучшающие мою жизнь. К сожалению, алгоритм YouTube с этим не согласен. Он любит кормить меня кликбэйтом и прочим мусором.

Всё это неудивительно: алгоритм отдаёт приоритет кликам и времени просмотра.

Поэтому я поставил перед собой задачу: Смогу ли я написать код, который автоматически будет находить ценные видео, избавив меня от привязанности к алгоритму YouTube?

Вот так всё и началось.

Оптимально выстроенные планы

Я начал с визуализации того, что должен делать мой инструмент. Мне нужна была программа, которая будет (i) ранжировать видео на основании вероятной релевантности для меня и (ii) автоматически отправлять мне предлагаемые видео, из которых я смогу выбирать.

Я решил, что смогу серьёзно повысить продуктивность, если буду пакетно выбирать наборы видео для просмотра на каждую неделю и избавлюсь от необходимости бесконечного скроллинга YouTube.
Читать полностью »

Как работают подсказки в Chromium и что мы сделали с ними в Яндекс.Браузере

2020-06-18 в 7:46, admin, рубрики: chromium, Блог компании Яндекс, браузеры, интерфейсы, команда яндекс.браузера, команда яндекс.поиска, машинное обучение, подсказки, поиск яндекса, поисковые технологии, ранжирование, саджест, яндекс, яндекс.браузер

Давненько я ничего не рассказывал о Яндекс.Браузере и Chromium, а ведь интерес к этой теме на Хабре был нешуточный. Пора исправляться. Сегодня хочу поднять тему подсказок, которые мы видим под адресной строкой по мере вводе текста. Об этом почти никто не задумывается, но их работа исторически основана на ручных эвристиках и константах. Недавно с помощью коллег из поиска Яндекса нам удалось применить ML-ранжирование к этим подсказкам. Получилось не с первого раза, но результат того стоил.

Для лучшего погружения в контекст начнём с истории. Помните ли вы первый браузер в мире? Тот самый, который создал Тим Бернерс-Ли. Честно говоря, и я не помню, но хорошие люди сделали веб-версию для любопытных. Этот браузер умел отображать текст… и всё. Даже картинки на старте не поддерживал. А ещё там не было адресной строки в привычном для нас месте. Сайты открывались через меню, как документы в офисном редакторе. При этом было важно вводить точный адрес желаемой страницы. Забыли про http:// в начале? Получите Bad request. Никакого дружелюбия к пользователям не требовалось, потому что пользователями выступали учёные и технари.

Но затем интернет пришёл в дома «обычных» пользователей. Интерфейсы стали упрощаться: адресная строка поселилась у всех на виду, а рядом с ней добавили ещё одну — для поисковых запросов. Браузеры научились не только подставлять http://, но и подсказывать людям адреса уже посещённых страниц или введённые ранее запросы. Речь идёт про саджест — подсказки, которые появляются под строкой по мере ввода в неё текста.

Затем в Chrome адресную строку объединили с поисковой — так родился омнибокс, который умел переваривать как адреса, так и запросы. Причём саджест тоже стал единый. Браузерам пришлось учиться ранжированию подсказок. Поставить на первое место сайт из истории? Или из закладок? Или сходить в облако и предложить окончание запроса? Или оставить WYT (What You Typed) и отправить в поиск?

Читать полностью »

Тестирование «переплетением» – в 100 раз быстрее АБ теста

2020-03-22 в 17:43, admin, рубрики: interleaving, А/B тестирование, гипотезы, переплетение, проверка гипотез, ранжирование, Статистика в IT, Управление продуктом

А/Б тестирование – один из основных инструментов продакт менеджмента, пока еще не придумали более надежного и дешевого способа достоверно оценить влияние одного конкретного изменения на бизнес-метрики продукта, изолировав его от всех остальных факторов.

В этой статье я хочу рассказать об альтернативном методе тестирования изменений в продукте: тестировании переплетением, в англоязычной литературе – interleaving testing. Чтобы раскрыть его достоинства и недостатки, мы будем частно сравнивать его с традиционным A/B тестом, но не потому что это какой-то новый более лучший способ, который быстрее и точнее, и должен заменить собой A/B тесты. Это дополнительный инструмент для менеджера продукта с другой областью применения и отвечающий на другой вопрос, сравнение просто позволяет легко показать, в чем отличия и сильные стороны переплетения.

Краткое содержание:

Почему переплетение быстрее A/B теста
Когда можно применять тест переплетением
В чем отличие результатов A/B теста и переплетения
Как комбинировать сильные стороны переплетения и A/B теста

Читать полностью »

Активное обучение ранжированию

2019-07-30 в 15:25, admin, рубрики: big data, mail.ru, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, поиск, поисковые технологии, ранжирование

Этим постом я открываю серию, где мы с коллегами расскажем, как используется ML у нас в Поиске Mail.ru. Сегодня я объясню, как устроено ранжирование и как мы используем информацию о взаимодействии пользователей с нашей поисковой системой, чтобы сделать поисковик лучше.

Задача ранжирования

Что подразумевается под задачей ранжирования? Представим, что в обучающей выборке есть какое-то множество запросов, для которых известен порядок документов по релевантности. Например, вы знаете, какой документ самый релевантный, какой второй по релевантности и т.д. И вам нужно восстановить такой порядок для всей генеральной совокупности. То есть для всех запросов из генеральной совокупности на первое место поставить самый релевантный документ, а на последнее — самый нерелевантный.

Давайте посмотрим, как такие задачи решаются в больших поисковых системах.

Читать полностью »

Автороцентричное ранжирование. Доклад Яндекса о поиске релевантной аудитории для авторов Дзена

2019-03-17 в 7:53, admin, рубрики: CTR, Алгоритмы, Блог компании Яндекс, дзен, машинное обучение, Промышленное программирование, ранжирование, ранжирование контента, рекомендательные системы

Важнее всего для сервиса Яндекс.Дзен — развивать и поддерживать платформу, которая соединяет аудитории с авторами. Чтобы быть привлекательной платформой для хороших авторов, Дзен должен уметь находить релевантную аудиторию для каналов, пишущих на любые темы, в том числе на самые узкие. Руководитель группы счастья авторов Борис Шарчилев рассказал про автороцентричное ранжирование, которое подбирает для авторов наиболее релевантных пользователей. Из доклада можно узнать о том, чем такой подход отличается от подбора релевантных айтемов — более популярного в рекомендательных системах.

Балансируя пользователецентричное и автороцентричное ранжирование, мы можем добиваться правильного соотношения счастья пользователей и счастья авторов.

Читать полностью »

Дефекты лайков

2019-03-05 в 16:22, admin, рубрики: алгоритмы выдачи, бан, дизлайк, игнор, иное мнение, история, история науки, лайк, наука, Научно-популярное, поисковые алгоритмы, поисковые технологии, ранжирование, Читальный зал

Вместо эпиграфа.

Больше всего лайков собирают «котики». Можно ли это считать признаком эпидемии токсоплазмоза?

В 1636 году, некий француз, Пьер де Ферма, по образованию и профессии юрист, написал трактат «Введение к теории плоских и пространственных мест», где изложил то, что сейчас называется аналитической геометрией. Его работа никого не заинтересовала и он, выражаясь на современном сленге, был отправлен в «игнор», что задержало развитие математики на 70 лет, пока работами Ферма не заинтересовался Эйлер.

В 1844 году шотландский издатель и геолог Роберт Чемберс анонимно опубликовал книгу «Остатки естественной истории творения». Эту книгу можно считать первой книгой по теории эволюции жизни на Земле. Вместо понятия эволюция Чемберс использовал термин прогрессивной трансмутации видов. (Что с современной точки зрения м.б. даже точнее, чем «естественный отбор»).

Книга вызвала огромный скандал. Профессионалы были в ярости. Аноним собрал множество «дизлайков». И только анонимность позволила Чемберсу избежать «бана».

Наблюдая этот скандал, Чарльз Дарвин, который разрабатывал свою теорию независимо и параллельно с Чемберсом, отложил опубликование своей книги «Происхождение видов» на 15 лет.
Впрочем, свои «дизлайки» Дарвин тоже собрал сполна.
Читать полностью »

Как Яндекс изменил Поиск за прошедший год. Обновление «Андромеда»

2018-11-21 в 9:13, admin, рубрики: андромеда, Блог компании Яндекс, дизайн, интерфейсы, королев, поиск, поисковые технологии, пользовательские интерфейсы, ранжирование, яндекс

С момента прошлого большого обновления «Королёв» прошло больше года. Идеи, вошедшие в тот релиз, получили за это время дальнейшее развитие и нашли новые применения. В обновлении «Андромеда» мы сфокусировались на тех аспектах работы поисковой системы, которые позволяют нашим пользователям решать как можно больше задач быстро и удобно.

Сегодня мы традиционно расскажем читателям Хабра о проделанной нами работе.

Как Яндекс изменил Поиск за прошедший год. Обновление «Андромеда» - 1

Читать полностью »

Как Яндекс научил искусственный интеллект понимать смысл документов

2017-08-22 в 17:06, admin, рубрики: Блог компании Яндекс, индексирование, искусственный интеллект, королев, машинное обучение, нейронные сети, палех, поиск, поисковые технологии, ранжирование, Семантика, яндекс

Сегодня мы расскажем о новой поисковой технологии «Королев», которая включает в себя не только более глубокое применение нейронных сетей для поиска по смыслу, а не по словам, но и значительные изменения в архитектуре самого индекса.

Как Яндекс научил искусственный интеллект понимать смысл документов - 1

Но зачем вообще понадобились технологии из области искусственного интеллекта, если еще лет двадцать назад мы прекрасно находили в поиске искомое? Чем «Королев» отличается от прошлогоднего алгоритма «Палех», где также использовались нейронные сети? И как архитектура индекса влияет на качество ранжирования? Специально для читателей Хабра мы ответим на все эти вопросы. И начнем с самого начала.

Читать полностью »

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

2016-10-15 в 8:49, admin, рубрики: MapReduce, Алгоритмы, Блог компании Яндекс, индекс, кластеры, матрикснет, машинное обучение, поиск, поисковые алгоритмы, поисковые системы, поисковые технологии, Промышленное программирование, ранжирование, ранжирование поиска

Сегодня мы публикуем ещё один из докладов, прозвучавших на летней встрече об устройстве поиска Яндекса. Выступление руководителя отдела ранжирования Петра Попова получилось в тот день самым доступным для широкой аудитории: минимум формул, максимум общих понятий о поиске. Но интересно было всем, потому что Пётр несколько раз переходил к деталям и в итоге рассказал много такого, о чём Яндекс никогда раньше публично не заявлял.

Кстати, одновременно с публикацией этой расшифровки начинается вторая встреча из серии, посвящённой технологиям Яндекса. Сегодняшнее мероприятие — уже не про поиск, а про инфраструктуру. Вот ссылка на трансляцию.

Ну а под катом — лекция Петра Попова и часть слайдов.

Читать полностью »

Метрики качества ранжирования

2016-06-16 в 15:25, admin, рубрики: Алгоритмы, Блог компании E-Contenta, введение, математика, машинное обучение, оценка качества, поисковые технологии, ранжирование

В процессе подготовки задачи для вступительного испытания на летнюю школу GoTo, мы обнаружили, что на русском языке практически отсутствует качественное описание основных метрик ранжирования (задача касалась частного случая задачи ранжирования — построения рекомендательного алгоритма). Мы в E-Contenta активно используем различные метрики ранжирования, поэтому решили исправить это недоразуменее, написав эту статью.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ранжирование»

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую)

Побег от алгоритма YouTube

Оптимально выстроенные планы

Как работают подсказки в Chromium и что мы сделали с ними в Яндекс.Браузере

Тестирование «переплетением» – в 100 раз быстрее АБ теста

Активное обучение ранжированию

Задача ранжирования

Автороцентричное ранжирование. Доклад Яндекса о поиске релевантной аудитории для авторов Дзена

Дефекты лайков

Как Яндекс изменил Поиск за прошедший год. Обновление «Андромеда»

Как Яндекс научил искусственный интеллект понимать смысл документов

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

Метрики качества ранжирования

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «ранжирование»

Побег от алгоритма YouTube

Оптимально выстроенные планы

Задача ранжирования

Новости

Актуальные темы

Архив