Как «Сумерки» навсегда испортили поиск картинок Google

в 8:30, , рубрики: data mining, Google, google картинки, Алгоритмы, Блог компании VDSina.ru, поиск, поисковые алгоритмы, поисковые системы, поисковые технологии, сумерки

Как «Сумерки» навсегда испортили поиск картинок Google - 1

Поучаствуйте со мной в эксперименте. При помощи поиска изображений Google мы будем искать разные времена суток. Откроем новое окно Google Chrome в режиме инкогнито, чтобы результаты не были искажены нашей историей поиска. В конце концов, это ведь научный эксперимент, и нам нужны наиболее точные результаты.

Для начала попробуем найти «sunrise» («рассвет»).

Как «Сумерки» навсегда испортили поиск картинок Google - 2

Отлично, Google! Я тобой горжусь. Это определённо фотографии рассвета. Теперь попробуем «midday» («полдень»).

Как «Сумерки» навсегда испортили поиск картинок Google - 3

Чуть более разнообразные результаты, но вполне приемлемые. Google, ты неплохо справляешься, я впечатлён. Как насчёт «dusk» («заката»)?

Как «Сумерки» навсегда испортили поиск картинок Google - 4

Идеально. Возможно, знаменитые алгоритмы Google на самом деле каждый раз выдают нам ровно то, что мы ищем. Это потрясающий движок, и именно благодаря ему взлетел стартап конца 1990-х, в 2020 году стоящий на рынке 1 триллион долларов. Функция поиска по-прежнему жизненно необходима Google, поэтому важно обеспечить её правильную работу.

Ну и просто ради интереса, уже зная, что он вернёт точно нужный мне результат, я попробую ещё один запрос: «twilight» («сумерки»).

Как «Сумерки» навсегда испортили поиск картинок Google - 5

Эм-м-м… Ну ладно.

На удивление человеческий алгоритм

Чтобы понять, как бледные вампиры и качки-оборотни заполонили поисковую выдачу Картинок Google, нужно сначала разобраться, как работают алгоритмы Google. А это сложно, потому что этот механизм известен своей непрозрачностью, да и сама Google часто расплывчато описывает то, как и почему движок возвращает именно такие результаты. Подробное описание точной работы мирового лидера среди поисковых движков повредит бизнесу, поэтому неудивительно, что Google многое скрывает.

Информация Google, акценты мои:

Чтобы дать вам наиболее полезную информацию, они учитывают множество факторов, включая ваш поисковый запрос, релевантность и удобство найденных страниц, их надежность, а также ваше местоположение и настройки. Вес каждого фактора варьируется в зависимости от характера вашего запроса. Например, дате публикации контента придается большее значение, когда вы ищете актуальные новости, и меньшее, если вас интересует определение из словаря.

Механизм не волнует, что «сумерки» — это время суток. Он предоставляет пользователю то, что считает наиболее релевантным. Это вполне справедливо, однако алгоритм является только одним фрагментом головоломки, нужно ещё учитывать и человеческий фактор. Google нанимает сторонних подрядчиков для проверки того, что результаты различных поисковых запросов удовлетворяют заданным компанией критериям, в том числе и вышеупомянутой метрике «актуальности».

Чтобы алгоритмы поиска отвечали самым высоким стандартам, мы придерживаемся установленной процедуры онлайн-тестирования, к которому привлекаются тысячи сторонних специалистов по оценке качества результатов поиска, представляющие разные страны и прошедшие дополнительную подготовку. Они следуют точным инструкциям, которые отражают наши цели в отношении поисковых алгоритмов и доступны для ознакомления всем желающим.

Хотите лучше понять, как эти живые оценщики поисковой выдачи Google определяют качество результатов? «Общие рекомендации» компании, которым должны следовать эти невидимые предсказатели поиска, доступны для общего прочтения. Они состоят из 168 страниц и невероятно сложны, но в конечном итоге всё сводится к тому, что субъективных решений не избежать.

Что подразумевается под актуальностью?

Самое актуальное определение понятия «актуальность» компании Google датируется 2011 годом. Не совсем то, что можно считать актуальным, однако оно даёт нам какое-то представление о том, почему при поиске атмосферного явления мы видим Роберта Паттинсона.

Пост в блоге Google с объяснением актуальности подчёркивает, что её мерой являются «последние события или популярные темы». Книга «Сумерки» вышла в 2005 году, а в 2008 году появился первый фильм. Они уже стары, но антология книг и серия фильмов были в своё время настолько популярны, что, похоже, навечно исказили понимание алгоритмом Google, а, возможно, и живыми тестерами того, что же на самом деле ищет пользователь запросом «twilight».

Как «Сумерки» навсегда испортили поиск картинок Google - 6

История паттернов поиска «twilight». Источник: Google Trends

Запросов «twilight» до выпуска книг и фильмов было относительно мало, однако даже годы спустя после того, как эти вампирские истории потеряли популярность и начали собирать цифровую пыль, «twilight» по-прежнему остаётся чуть более популярным поисковым запросом, чем в годы до них. Однако Google также позволяет нам отделить обычный поиск от поиска изображений, и здесь всё становится по-настоящему интересным.

Как «Сумерки» навсегда испортили поиск картинок Google - 7

История паттернов поиска изображений «twilight». Источник: Google Trends

К сожалению, в отличие от обычного поиска, история поиска изображений хранится не с 2004, а с 2008 года, но мы всё равно видим большой пик и угасание Twilight. Разница здесь в том, что спад более значим, а популярность в последние годы упала почти до нуля.

Очень немногие сегодня ищут в картинках «twilight», и поскольку этот термин никогда не был тесно привязан к изображениям настоящих сумерек, Google полагает, что фэнтези-мир Стефани Мейер является наиболее точным представлением того, что же такое сумерки. Это ещё больше подкрепляется трендами поиска изображений по запросу «twilight movie», которые должны дать нам понять, какое же количество людей надеется увидеть вампиров при вводе в строку поиска «twilight».

Как «Сумерки» навсегда испортили поиск картинок Google - 8

История паттернов поиска изображений по запросу «twilight movie». Источник: Google Trends

Практически больше никто не стремится найти изображения "Twilight movie". На самом деле, можно смело предположить, что когда любой пользователь вводит в поле поиска «twilight», вероятность того, что же он на самом деле ищет, сводится к броску монеты. Мы не знаем точно, но факт в том, что популярность фильма навсегда изменила понимание поискового движка о том, что же такое сумерки.

Полное затмение поиска

Мы можем использовать другой фильм из той же серии для дальнейшего изучения того, как Google расставляет приоритеты результатов поиска изображений. На этот раз мы взглянем на фильм 2010 года Eclipse — третий фильм франшизы. Он был ещё более популярным, чем первый фильм, почти вдвое превзойдя Twilight по сборам, но если поискать в Картинках Google «eclipse» («затмение»), то вы ни за что не узнаете, что он существовал.

Как «Сумерки» навсегда испортили поиск картинок Google - 9

Где же вампиры? Их судьбу можно объяснить, изучив тренды поиска изображений Google.

Как «Сумерки» навсегда испортили поиск картинок Google - 10

История паттернов поиска по запросу «eclipse». Источник: Google trends

Пик, который мы видим примерно на четверти графика, соответствует выпуску в 2010 году фильма Eclipse из той же серии. Огромный всплеск ближе к концу соответствует полному солнечному затмению 21 августа 2017 года. Большая часть США в этот день смогла увидеть это событие, которое случается всего раз в жизни, и даже если вы не находились на территории, где видно затмение, то определённо слышали или читали о нём.

Небесное явление привлекло гораздо больше интереса, чем фильм с тем же названием. На самом деле, при каждом затмении в США или за границей оно обычно генерирует новости в прессе и интерес в Google. В данном случае «реальное» затмение победило в войне поисковых запросов. Изображения настоящих затмений очевидно были расценены как более актуальные и имеющие большее качество, и теперь Google считает, что тот, кто ищет «eclipse», хочет увидеть астрономическое явление, а не фотографии и постеры фильма.

То же самое справедливо и для второго фильма серии Twilight, New Moon. В данном случае, несмотря на то, что фильм, казалось бы, выигрывает поисковую войну с огромным пиком интереса в момент его выпуска, за которым следует значительный спад, люди по-прежнему регулярно ищут «new moon» («новолуние») по причинам, не связанным с вышедшим десять лет назад фильмом. Отслеживание лунных циклов важно для многих людей, и вампиры не стали конкурентами для этого регулярного многолетнего потока свежего поискового трафика и новостных историй.

С другой стороны, «Twilight» не получила преимуществ от того же интереса. Фильм был более популярен, чем поисковые запросы настоящих сумерек в любой момент времени, к тому же не существует медленного повышения интереса к научному явлению (как в случае с «new moon»), который бы спас его от несчастной судьбы. Более того, люди, ищущие информацию о любом из сиквелов Twilight, с большой вероятность добавят в запрос слово «Twilight», добавляя веса связи между самим словом и франшизой. Вы можете сказать, что реальные сумерки актуальнее, чем фильмы, потому что сумерки происходят дважды в день и ежедневно, в отличие от выпуска фильма и книги, которые сейчас стали практически древностью, но для электронного мозга Google это не важно.

Тем не менее, Google этого не понимает, поэтому выдаёт то, что ему кажется наилучшим результатом. В данном случае это оказалось кино, актуальность которого иссякла несколько лет назад, а не «словарное определение», которое, по признанию компании, её алгоритм иногда игнорирует.

Будущее в бледных тонах

Обречены ли сумерки? Возможно, судить ещё слишком рано, но будущее выглядит не особо перспективно. Прошло 15 лет после выхода книги и 12 лет после выпуска фильма, а они по-прежнему по умолчанию являются результатом поиска картинок.

Важной причиной этого может быть то, что люди, ищущие «twilight», ничем не показывают, что им нужны фотографии природы, а не ослепительно белые вампиры. Если бы вам нужны были кадры из фильма, а не только закаты, то при поиске «twilight» вы бы просто искали «twilight movie».

С другой стороны, если вам нужны фотографии настоящих сумерек, но вы видите в результатах поиска только мрачные взгляды и острые зубы, то можете сдаться и попробовать ввести совершенно иной запрос, например «dawn» («рассвет»). Обычно проницательный алгоритм Google может испытывать трудности в определении подобных логических связей, а его живые тестеры тоже совершенно не помогли.

Движок Google чаще всего всё делает правильно. Но как и любая машина, он несовершенен. Иногда вводимый запрос не приводит к ожидаемым результатам, и вместо умиротворённого, расслабляющего фото прорывающихся через горизонт солнечных лучей мы получаем Кристен Стюарт с кроваво-красными глазами.


На правах рекламы

Ищете сервер в аренду для отладки проектов, VDS для разработки и размещения? Вы точно наш клиент :) Посуточная тарификация серверов самых различных конфигураций, антиDDoS.

Как «Сумерки» навсегда испортили поиск картинок Google - 11

Автор: Mikhail

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js