Маленький поисковик, который не смог

в 13:00, , рубрики: Brave, duckduckgo, Google, neeva, ruvds_перевод, Блог компании RUVDS.com, браузеры, искусственный интеллект, поисковые движки, поисковые технологии
Пара бывших сотрудников Google решила создать поисковый движок будущего. Они собрали нечто более быстрое, простое и без рекламы. Почему же так вышло, что большинство людей ничего не слышало о Neeva?

Маленький поисковик, который не смог - 1


Сридхар Рамасвами ушёл из Google не для того, чтобы создать другой поисковый движок. По крайней мере, изначально. В завершение своей 15-летней карьеры в Google Рамасвами управлял целым рекламным отделом компании, руководя более чем десятью тысячами людей, и лучше других знал, какой объём работы необходим, чтобы реализовать поиск правильно.

Нельзя переоценить степень доминирования Google в мире поиска. По данным большинства исследований, Google владеет примерно девяноста процентами мирового рынка поисковиков, и это число стабильно росло в течение двадцати лет. Google — поисковый движок, используемый по умолчанию почти в каждом браузере, почти на каждом устройстве. Мы не выполняем поиск в Интернете, мы гуглим. Вторым и третьим в списке идут Bing и Yahoo, но когда вы в последний раз искали что-нибудь в Bing или Yahoo? Для поддержания своего доминирования Google тратит огромные политические, инженерные и финансовые капиталы.

Но больше остальных Рамасвами знал и то, что Google не может или не хочет сделать со своим движком. Имея миллиарды пользователей и сотни миллиардов долларов, Google не будет рисковать, исследуя существенные изменения в своей странице результатов, новые бизнес-модели или любые продукты, которые заставят пользователей меньше заниматься поиском (Рамасвами тестировал функцию Google Contributor, позволявшую людям платить за отсутствие рекламы на некоторых сайтах. Но система не взлетела.). Возникла возможность, которой Google просто не могла и не хотела бы пользоваться. Поэтому когда Рамасвами ушёл из компании в 2018 году, они с Вивеком Рагхунатаном (давним руководителем высшего звена Google и YouTube) основали компанию Neeva для создания поискового движка будущего.

Путь был каменистым, но, в конце концов, команда разработчиков Neeva создала поисковый движок, которым могла гордиться, движок, который приблизился к победе над Google и по внутренним метрикам Neeva, и по отзывам пользователей. Пробовавшим работать с ним людям он нравился, и у Neeva был длинный план развития по дальнейшему улучшению движка. Ещё немного времени, и они вполне могли бы создать будущее поиска. Но всего спустя четыре года Neeva закрылся.

В каком-то смысле, яркий, но короткий блеск Neeva показал нам всё, что нужно знать о последних двадцати годах доминирования поисковых движков. Создавать поисковый движок сложно. Создавать движок лучше, чем у Google — ещё сложнее. Но если вы хотите победить Google, то создание более качественного поискового движка — это только начало. И дальше всё будет сложнее.

Поисковый движок — это одновременно и невероятно сложная вещь, и достаточно простая идея.

На самом деле, единственное, что делает поисковый движок — это создаёт базу данных веб-страниц, называемую поисковым индексом, а затем выполняет поиск по этой базе данных каждый раз, когда пользователь отправляет запрос, и передаёт ему наилучшие и самые релевантные страницы. Вот и вся его работа.

Однако на каждом крошечном этапе этого пути существуют огромные трудности, требующие критичных и сложных компромиссов. Большинство из них сводится к двум аспектам: времени и деньгам.

Даже если гипотетически вы сможете создать постоянно обновляемую базу данных бесчисленных миллиардов страниц Интернета, одни затраты на хранение и трафик смогут разорить практически любую компанию на планете. И это, даже не считая затрат на операции поиска по этой базе данных, которые выполняются миллионы или миллиарды раз в день. Добавьте к этому тот факт, что важна каждая миллисекунда — Google по-прежнему указывает над результатами поиска длительность обработки каждого запроса — поэтому у вас всё равно нет времени искать по всей базе данных.

Впрочем, создание собственного поискового движка начинается с удивительно философского вопроса: как понять, хороша ли веб-страница? вам придётся решать, что можно считать разумным несогласием, а что — обычной дезинформацией. Нужно будет понять, сколько конкретно рекламы — это чересчур. Сайты, точно написанные ИИ и заполненные SEO-мусором: плохо. Блоги рецептов, написанные человеком и заполненные SEO-мусором: умеренно приемлемо. Порно? Иногда терпимо, иногда нет.

Обсудив всё это и установив свои границы, вы можете выявить, скажем, несколько тысяч доменов, которые определённо должны быть в вашем поисковом движке. Вы включите в список сайты новостей от CNN до Breitbart, популярные форумы наподобие Reddit, Stack Overflow и Twitter, полезные сервисы наподобие Википедии и Craigslist, большие платформы наподобие YouTube и Amazon и все лучшие сайты, посвящённые рецептам, спорту, шопингу, а также всему остальному. Иногда вы будете заключать партнёрские соглашения с этими сайтами, чтобы получать данные в структурированном виде без необходимости просмотра каждой страницы по отдельности; многие большие платформы делают этот процесс простым, а иногда и бесплатным.

И тогда настаёт время выпускать своих пауков. Это боты, которые получают контент каждой веб-страницы, а затем находят каждую ссылку на этой странице и переходят по ним, индексируют все эти страницы, находят каждую ссылку и следуют по ним, индексируют, находят, переходят (Их зовут пауками, потому что они ползают по Всемирной паутине — теперь вам понятно?). Каждый раз, когда паук оказывается на странице, он оценивает её по выбранным вами критериям хорошей страницы. Всё, что проходит эту проверку, скачивается на какие-нибудь серверы, и ваш поисковый индекс начинает расти.

Однако паукам не везде рады. Каждый раз, когда паук открывает страницу, провайдер взимает плату за трафик; а теперь представьте, что поисковый движок пытается каждую секунду загрузить и сохранить каждую страницу вашего веб-сайта, чтобы поддерживать актуальность данных. Расходы на трафик растут.

Поэтому у большинства сайтов есть файл robots.txt, определяющий, какие боты могут и не могут иметь доступ к их ресурсам, и какие URL они могут посещать. Строго говоря, поисковые движки не обязаны соблюдать изложенные в robots.txt пожелания, но их исполнение является частью ткани и культуры веба. Почти все сайты позволяют индексировать себя Google и Bing, потому что возможность нахождения при поиске для них важнее затрат на трафик. Многие блокируют конкретные компании, например, владельцы сайтов электронной торговли не хотят, чтобы Amazon ходил по их сайтам и анализировал их. Другие устанавливают общее правило: никого, кроме Google и Bing.

Очень быстро ваши пауки вернутся к вам с достаточно обширным снимком Интернета. Когда команда Neeva переходила с Bing, её пауки просматривали примерно двести миллионов URL в день.

Далее вам нужно ранжировать все эти страницы по порядку для каждого запроса, который может получить ваш поисковый движок. Вы можете отсортировать страницы по темам в более мелкие и удобные для поиска индексы, а не в одного огромного монстра: местные результаты сохраняются вместе с другими местными результатами, шопинг с шопингом, новости с новостями. Для определения темы и контента каждой страницы вам придётся использовать много машинного обучения и помощи живых людей. Вы привлечёте команды оценщиков (ассессоров), покажете им запрос и результат, а затем попросите оценить от нуля до десяти, насколько хорош результат (Иногда это очевидно: если кто-то ищет «Facebook» и первым результатом не будет facebook.com, то что-то, очевидно, не так.). Чаще всего вы объединяете рейтинги из множества источников, передаёте их обратно в индекс и в модель тем, а затем повторяете процесс заново.

Но на самом деле всё это лишь половина проблемы. Вам нужно одновременно совершенствовать так называемое «понимание запросов», чтобы вы знали, что люди, ищущие «Скала» и «Дуэйн Джонсон» ищут одно и то же, но те, кто ищут «скала», вероятно, ищут что-то другое. У вас получится огромная библиотека синонимов, схожих формулировок и способов переписывания запросов, чтобы их было проще искать. Но как любит говорить Google, 15% поисковых запросов совершенно новые, и вы бесконечно будете узнавать что-то новое о том, как люди выполняют поиск онлайн.

Какое-то время спустя вы выпустите свой продукт в публичный доступ и начнёте получать ещё больше информации о том, на что нажимают и чем интересуются люди (В этой сфере нажатая ссылка, за которой сразу же не следуют дальнейшие запросы и нажатые ссылки — это самый лучший сигнал.). Чем больше люди нажимают на ссылки, тем больше вы будете знать о том, что они ищут на самом деле.

Управление поисковым движком — это постоянное балансирование между скоростью, затратами и качеством. Каждый раз, когда кто-то вводит «YouTube», вы можете выполнять поиск по целой базе данных, но этот поиск потребует слишком много трафика и места для хранения. У вас может быть база данных размером с Интернет, но затраты на хранение банкротят практически любую компанию; к тому же её хранение будет слишком дорогим, а поиск по ней — слишком медленным. Вы можете ограничиться сотней самых популярных сайтов в вебе, но для пользователей они будут не особо полезны. Кроме того, веб-сайты постоянно меняются, поэтому пауки и системы ранжирования должны непрерывно адаптироваться.

Создавать поисковый движок с нуля сложно и дорого. Поэтому многие не идут по этому пути — они лицензируют данные Bing по цене примерно от $10 до $25 за тысячу транзакций, добавляют собственные функции и интерфейса, и на этом заканчивают. Именно так поступают DuckDuckGo, Yahoo и многие другие более мелкие поисковые движки, потому что Bing достаточно хорош, а управление собственной поисковой системой требует огромных вложений труда. Так поначалу поступили и разработчики Neeva.

Но у Neeva было столько идей о том, как переделать поиск, что её команда в конечном итоге решила, что ей нужен контроль и над внутренними данными. «Ускоренный поиск, подробные превью, предпочитаемые поставщики, личный поиск — всё это было невозможно», — сказал Рагхунатан. Получаемые от Bing API ссылки не позволяли использовать все эти функции, поэтому Neeva не могла их создать. Если Neeva хотела быть более качественным поисковым движком, то рано или поздно ей придётся создать собственный более качественный поисковый движок.

Маленький поисковик, который не смог - 2

Спустя два года разработок, обучения, совершенствования, повторного обучения и совершенствования поисковый движок Neeva полностью управлялся её собственными технологиями. Честно говоря, Neeva тогда ещё не думала, что создала, бесспорно, лучший поисковый движок: компания собрала примерно пятьсот разнотипных запросов, попросила живых оценщиков сравнить результаты и обнаружила, что Google всё равно немного её опережает. Но Neeva была близка и уверена, что имеет большой отрыв в UX.

План Neeva начался с простого наблюдения: проблемой была бизнес-модель Google. Модель с рекламой, как считал Рамасвами, в долговременной перспективе не будет создавать хороший контент.

Задумайтесь — если поисковый движок работает по-настоящему хорошо, то вы выполняете поиск только один раз (и вам показывают рекламу один раз). Кроме того, реклама снижает качество поиска. Когда вы вводите что-то в Google, то вы что-то ищете. Первым делом Google хочет показать вам то, что хочет показать вам кто-то другой, и только потом показать вам то, что нужно вам.

Для создания более качественного поискового движка нужно изменить систему мотивации. Рамасвами понял, что если вы не стремитесь показать как можно больше рекламы, то поставите на первое место удобство для пользователя. Вам не придётся заставлять людей печатать запросы и собирать данные пользователей для рекламодателей. Можно просто помочь людям получить то, что они хотят, и больше не мешать им.

Команда Neeva создавала страницы для шопинга с увеличенными изображениями и полезной информацией для сравнения. Она отдавала приоритет сгенерированным людьми результатам с таких ресурсов, как Reddit и Quora. Результаты спортивных запросов превратились в красивые полноэкранные табло со счётом. Команда сделала так, что если вы ищете «Брэд Питт IMDB» или «WhatsApp web», то автодополнение Neeva переносило вас прямо на сайт, вообще не показывая страницу с результатами. Neeva была чёткой и простой, а первым пользователям нравилось, что их не заставляют хитростью смотреть рекламу.

На протяжении двух лет создания собственного поискового индекса Neeva также продолжала работу над своим браузером для мобильных устройств и начала активно инвестировать в ИИ. Побочным эффектом создания собственного поискового индекса становится то, что вы собираете огромный полезный обучающий датасет для больших языковых моделей. Neeva одной из первых запустила собственного ИИ-помощника в поиске под названием NeevaAI, который создавал краткую сводку результатов поиска, а иногда даже пытался ответить на вопрос прямо в начале страницы.

Но создать хороший продукт — это одно, и совершенно другое — привлечь пользователей, чтобы они попробовали его, особенно если для этого им придётся отказаться от самой простой и укоренившейся части Интернета.

В технологической отрасли давно известно проверенное клише — люди не меняют настройки по умолчанию. Будь то настройки конфиденциальности, системные функции или приложения — нет ничего более сильного, чем привычка к тому, что уже есть. И во многих случаях компании, контролирующие эти стандартные параметры, будут делать всё, чтобы оставаться выбором по умолчанию.

«Одной из самых сложных проблем для нас стал стандартный сценарий использования. Люди забывают, что успех Google не был результатом наличия только более качественного продукта. Для его достижения понадобилось бесчисленное количество умных решений по распространению», — рассказывал мне Рамасвами ещё на ранних этапах своего проекта.

Сообщается, что Google платит Apple целых $15 миллиардов в год, чтобы оставаться поисковым движком по умолчанию в браузере Safari на разных устройствах. Google также платит Mozilla за то, чтобы быть основным поисковым движком в браузере Firefox; сообщается, что сумма составляет до $450 миллионов в год. Компания имеет подобные сделки с другими производителями устройств и разработчиками браузеров, даже с операторами мобильной связи. В 2023 году Samsung рассматривала заключение сделки с Google, но отказалась от неё по различным причинам, в том числе и из-за «влияния на её широкомасштабные бизнес-отношения с Google», как сообщил The Wall Street Journal.

Настоящее преимущество Google заключается в других продуктах компании. Android — самая популярная мобильная операционная система в мире, имеющая примерно 78% рынка. Chrome — самый популярный браузер, с примерно 62%. Google — почти непобедимый поисковый движок по умолчанию на обеих платформах.

Многие годы любая компания, желавшая создать телефон или планшет, на которых можно было бы запускать приложения Google, например, Карты и YouTube, обязана была подписать договор Mobile Application Distribution Agreement. (На практике, это относится почти ко всем телефонам с Android.) MADA определял, как должны загружаться и отображаться приложения Google на любом охваченном договором устройстве с Android, и всегда отдавал поиску заметное место.

«Google Phone-top Search должен быть установлен в качестве поставщика услуг поиска по умолчанию во всех точках доступа к веб-поиску в устройстве», если только Google не даст своего явного согласия на другие варианты. Так гласило одно соглашение с HTC, которое стало известно, когда Oracle в 2010 году подала судебный иск против компании. HTC также обязали разместить виджет поиска не более чем на одну страницу дальше от главного экрана устройств.

"[Бывший CEO Google] Эрик Шмидт сказал, что «конкуренция находится всего на расстоянии одного клика»", — рассказывает глава отдела поиска компании Brave Хосеп Пуйоль. Brave тоже занимается созданием с нуля собственного поискового движка. «Но это не так. На самом деле она находится на расстоянии одного клика и $14 миллиардов».

Такое состояние дел за последнее время подверглось серьёзному рассмотрению со стороны государств. В 2018 году Еврокомиссия оштрафовала Google на €4,34 миллиарда за нарушение антимонопольных правил ЕС и другие примеры того, что ЕС называет «незаконными ограничениями прав производителей устройств с Android и операторов мобильных сетей с целью закрепления доминирующей позиции в Интернет-поиске».

Благодаря этому решению, для большинства пользователей в Европе и Великобритании добавили новый экран, отображаемый при первой настройке телефона или планшета с Android. Он предлагает выбрать поставщика услуг поиска и отображает список доступных вариантов.

У большинства поисковых движков, попавших в этот список (а его, кстати, контролирует Google, который сначала взимал с желающих попасть в него компаний оплату), существенного прироста пользователей не произошло. Люди пытаются как можно скорее завершить настройку и обычно выбирают самый знакомый вариант, например, вариант, уже имеющий долю рынка в 90%.

Эту инерцию сложно преодолеть даже без дополнительных помех. А их придумано много. DuckDuckGo однажды выяснил, что для смены поискового движка по умолчанию в Android нужно коснуться экрана 15 раз.

Аналогично в iOS, поставщик услуг поискового движка не может просто добавить себя в список вариантов поисковых движков Safari. Если вы не входите в список из пяти встроенных опций (Google, Yahoo, Bing, DuckDuckGo и Ecosia), то единственный способ попасть на iPhone — это создать собственное приложение. Разумеется, для создания мобильного браузера мелким стартапам наподобие Neeva требуется огромная доля ресурсов. А создав браузер, вы сталкиваетесь с ещё одной проблемой. Убедить пользователей сменить настройки по умолчанию и так сложно, но на мобильных устройствах вам ещё и нужно убедить их скачать приложение, заменяющее то, что у них уже есть.

Этот процесс должен был бы стать намного проще на десктопах, где платформенных ограничений меньше. Neeva пыталась сделать переключение как можно более простым: на Mac или PC пользователю достаточно было установить расширение для браузера, после чего она становилась поисковым движком по умолчанию (Расширение также предоставляло защиту от отслеживания и другие функции.). Другие поставщики услуг поисковых движков тоже попытались создавать собственные расширения. Но установившие это расширение в Chrome пользователи видели всплывающее окно, спрашивающее, хотят ли они снова вернуться к поиску Google. Кнопка «Вернуться» была ярко-синей, «Оставить» — тускло-белой.

На ранних этапах Neeva выяснила, что если пользователю удаётся победить это пугающее всплывающее окно и начать пользоваться поисковым движком, то крайне высока вероятность того, что он продолжит пользоваться им и три месяца спустя. Некоторые пользователи даже были готовы платить несколько долларов в месяц за более удобный процесс поиска.

Если люди проходили весь путь перехода, то становились поклонниками Neeva; проблема заключалась в том, что очень немногие из них могли пробраться через чащу стандартных настроек и перенаправлений. Рамасвами и его команда много раз пытались найти то, что убедит пользователей вытерпеть первоначальные неудобства. Небольшой доле пользователей пришёлся по душе упор на защиту конфиденциальности, но для большинства он бы никогда не стал привлекательным. Частичный ажиотаж вызвали возможности ИИ, однако они померкли, когда Bing, Google и другие поставщики выпустили собственные похожие системы.

В конечном итоге, Neeva оказалась продуктом, для понимания которого приходилось предпринимать усилия. Я использовал её в качестве основного поискового движка в течение нескольких лет, и мне очень нравились аспекты наподобие изменения дизайна страниц со спортивными табло и повышение приоритета Reddit и других источников (Кроме того, там не было рекламы.). Но было сложно объяснить другим людям, насколько удобно сразу переходить из окна автодополнения, а не отправлять свой запрос, или насколько лучше подробные страницы рецептов, чем бесконечные одинаковые ссылки на странице Google. Лучше один раз увидеть, чем сто услышать, но рынок поисковиков успешно скрывал Neeva от публики.

Маленький поисковик, который не смог - 3

Если что-то и изменится, то, вероятно, всё начнётся с законодательства.

После судебного решения ЕС 2018 года Министерство юстиции США тоже судилось с Google в рамках антимонопольного законодательства, заявляя, что соглашения о распространении Google с производителями устройств и разработчиками браузеров «препятствуют распространению своих продуктов конкурентов Google в области поиска, ослабляя их как конкурентные альтернативы для потребителей и рекламодателей посредством ограничения их роста».

Компания Google заявила в ответ, что пользователи и партнёры выбирают Google, потому что это лучший из имеющихся на рынке продуктов и что параметры по умолчанию не являются исключающими. «Мы яростно конкурируем в быстро развивающемся динамичном пространстве, инвестируя миллиарды долларов в развитие и разработку, ежегодно внося тысячи качественных улучшений, чтобы предоставлять самые полезные и бесплатно доступные каждому результаты», — сказал менеджер по политикам Google Нэд Адриенс. «Как и бессчётное количество других бизнесов, мы платим за рекламу своих услуг, точно так же, как бренд хлопьев для завтрака может платить супермаркету, чтобы тот разместил его продукты в конце ряда или на уровне глаз. Но в каждом из случаев потребители могут и с лёгкостью получают доступ к альтернативам, если они им нужны».

Конкуренты наподобие DuckDuckGo и Brave считают, что если доминирование Google в роли варианта по умолчанию прекратится, то они начнут быстро развиваться. Многие из таких конкурентов думают, что им остаётся только ждать. «Если мы сможем выживать достаточно долго, то наступит переломный момент, когда распространение Google сломается само или будет разрушено. Когда возникнет это условие, мы должны быть готовы», — рассуждает Пуйоль.

Но Neeva не могла позволить себе ждать. В апреле 2023 года компания заявила о том, что навсегда прекращает работу поискового движка. С падением экономики и высыханием потока инвестиционных долларов Рамасвами и его команда решили, что «больше нет возможностей создания устойчивого бизнеса в мире потребительского поиска». Разумеется, это не совсем так: бизнес потребительского поиска Google в прошлом году принёс около $160 миллиардов дохода. Проблема Neeva и любого другого потенциального конкурента в том, что места для кого-нибудь ещё просто не осталось. (В конечном итоге Neeva купил гигант разработки бизнес-ПО Snowflake, полностью развернув компанию в сторону разработки ИИ.)

Neeva проделала трудоёмкую работу. Она поддерживала ИИ-продукт, полнофункциональный поисковый движок, браузер с упором на конфиденциальность, и всё это на бюджет стартапа. Но этого оказалось недостаточно.

Потому что, даже если ты принимаешь только верные решения, не экономишь на мелочах, точно подбираешь критерии, совершенствуешь индекс и в результате создаёшь лучший в мире поисковый движок, это, скорее всего, будет неважно. Ты не сможешь победить Google, по крайней мере, сегодня.

Telegram-канал с розыгрышами призов, новостями IT и постами о ретроиграх 🕹️

Автор:
ru_vds

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js