Рубрика «поиск» - 41

Яндекс обогнал Microsoft в мировом поиске

Microsoft уступил Яндексу четвертое место в мировом поиске по числу поисковых запросов. По статистике ComScore, Microsoft переместился на пятое место, пропустив вперед поисковик из России. В Microsoft речь идет не только о поисковике Bing. В статистику входят также и другие сайты и сервисы, такие как microsoft.com, Windows Live и др. В Яндексе же учитывался не только поиск, но и другие сервисы, такие как карты, пробки, авто и др. Первая тройка выглядит без изменений. Это Google, Baidu и Yahoo!Читать полностью »

Этот пост о боли ученых и простых людей, которым нужно найти «сложную» информацию. Так уж сложилось, что лишь немногие умеют правильно формулировать вопросы к поисковикам. Очень громкое заявление, которое захотят оспорить тысячи Знающих, но я и сам понимаю, что оно может выглядеть неправильным. Не от того, что мысль неправильна, скорее я не совсем точно сформулировал ее. Так лучше:

«С ростом сложности предмета поиска возрастает трудность формулировки запроса» — это утверждение верно для каждого человека, независимо от его способностей.

Начинаете понимать? Вы, как программисты, с легкостью формулируете простые запросы вроде «рязань москва экспресс расписание », поэтому есть стереотип, что упрощать процесс поиска не нужно. Но что происходит, когда нам нужно узнать, может ли redis не только сохранять значения с TTL, но и автоматически удалять самые старые, чтобы не свопиться на диск? Возможно и эта проблема некоторым покажется легкой для рисерча, тогда обратите внимание на одну из моих:Читать полностью »

Исторически в Почте Mail.Ru использовался механизм от «большого» Поиска (go.mail.ru); однако для задач поиска по почтовым ящикам такой вариант не был оптимальным ввиду большого потребления ресурсов и относительной сложности в обслуживании. Поиском по почте пользуются около 3% владельцев почтовых ящиков; однако, хотя эта цифра кажется относительно небольшой, ящики этих людей обычно достаточно объемны, и поиск им действительно необходим. Поэтому мы приняли решение написать специализированный поисковый демон, который будет заниматься именно поиском по почте. Основными требованиями к нему стали ограничения по потребляемым ресурсам (размер индекса — не более 3% от размера почтового ящика, среднее потребление оперативной памяти — не более 100 Мб, средняя утилизация CPU — не более 3%) и скорости исполнения запросов (среднее время — не более 200 мс). О том, как он был организован, я расскажу ниже.Читать полностью »

В прошлом посте мы рассмотрели примеры архитектуры поисковиков. Везде ключевую роль играет база данных, над которой удобно производить некоторые операции, исследовать и анализировать содержащиеся в ней документы.

До весны 2012 года у нас вместо такой базы существовали две базы данных разного уровня — со стороны спайдера, который имел свою собственную базу URL-ов, и со стороны индексатора. Это было крайне неудобно: допустим, если пользователь жаловался, что его сайт не индексируется, то для того, чтобы найти причину, при старой архитектуре пришлось бы анализировать массу данных. На это требовалось день-два, иногда даже неделя.

Задачи, которые обрабатывали данные, такие как антиспам или ссылочный граф, вынуждены были работать отдельно, создавая еще большую путаницу. Мы понимали, что нужно что-то менять.

Читать полностью »

Предисловие: мой предыдущий пост на эту тему попал в утиль — на хабре, увы, больше нет раздела «ссылки», а даже частичный копипаст в виде затравки с ссылкой на оригинальный текст, запрещен правилами. Тем не менее, я считаю случившееся событие очень важным, поэтому рискую еще раз вынести это текст на обсуждение. Чтобы остаться в рамках правил, постараюсь пересказать основной текст своими словами.

Итак, с середины с декабря прошлого года в Google начал работать известный изобретатель и футуролог Рей Курцвейл. Как пишет в свой статье Олег Парамонов (а это и есть основной текст, на который я хотел сослаться), событие это из ряда вон выходящее и, я не побоюсь этого слова, революционное.

image

Давайте сначала разберемся зачем гуглу вообще исскуственный интеллект. На фоне новостей про Android, гидроэлектростанции и прочее-прочее-прочее, легко забыть, что Google, это прежде всего поиск. Собственно, именно он приносит львиную часть доходов. Но что такое поиск завтрашнего дня?

Цитата 1:
«Ещё в 2000 году Ларри Пейдж, один из основателей Google, объявил, что идеальной версией поисковика будет искусственный интеллект.
Цитата 2 (из документа Google для внутреннего пользования 2006 года):
»Чтобы стать лучшими в поиске, мы должны создать исследовательский центр мирового класса, занимающийся искусственным интеллектом".»
Читать полностью »

Google открыл регистрацию на второй курс продвинутого поиска

Если вы хотели бы уметь находить ответы на вопросы типа «Какое историческое кафе вдохновило стихотворение лауреата Нобелевской премии?» или «Какие из победителей последних трёх чемпионатов мира среди бариста не использовали бобы из своей страны?», то Google приготовил для вас онлайн-курс продвинутого поиска. (Причём это уже второй.)

При поиске ответов на вопросы, которые нельзя найти с помощью одного запроса, поиск может быстро превратиться в целое исследование. Как пишет Дэн Рассел, занимающий в Google прекрасную должность технического убер-руководителя по качеству поиска и счастью пользователей, новый курс продвинутого поиска поможет получить более глубокое понимание того, как стать лучшим исследователем.
Читать полностью »

Предыстория

Понадобилось мне добавить на сайт функцию поиска. Первой мыслью было — воспользоваться возможностями SQL-сервера, — но искать надо сразу по нескольким таблицам, слова и фразы, да ещё и со стеммингом. Понял, что изобретать свой велосипед будет накладно.

Решил поискать, а что же всё-таки есть из готовых решений? Оказалось, прямо скажем, не густо: django-haystack и django-sphinx. Ранее достоинства и недостатки обоих уже перечисляли, поэтому не буду повторяться.

Потратив какое-то время на чтение блогов и форумов, решил всё-таки попробовать django-sphinx, т. к. в django-haystack, насколько мне известно, с поддержкой Sphinx до сих пор не очень.

Автор же django-sphinx давно забросил свой проект, но есть множество форков, и, говорят, что пользоваться им вполне возможно. Я выбрал тот, что был, хм, посвежее и попытался подключить его к своему проекту.
Читать полностью »

Короткий анонс для тех, кто впервые заходит на наши страницы.

Suggest.io – сервис для быстрой организации живого поиска по сайтам любой архитектуры и сложности.

image

Основные фичи:

  • Создание поиска на сайте не требует специальных навыков и занимает лишь несколько минут. Индексация сайта начинается сразу после установки кода Suggest.io на сайт пользователя.
  • Suggest.io реагирует на ввод каждой буквы запроса и предлагает результаты поиска ещё до того, как запрос введен полностью.
  • Поисковая выдача остаётся на вашем сайте, а не переходит на страницу к поисковым машинам. Результаты поиска выводятся в выпадающем окне под поисковым полем.
  • Suggest.io может показывать не только текст, но и картинки со страниц сайта.
  • Все элементы поиска легко настроить под дизайн сайта, на котором он установлен. Интерфейс настроек дизайна предельно прост.

Читать полностью »

Эрик Шмидт давно говорил о том, что поисковая система должна уметь понимать, что вы хотите найти, не заставляя вас писать точный запрос. Похоже, что семантический поиск такого плана стал на чуточку ближе. 7 декабря в Google запустили новую технологию «Сеть знаний» на русском языке (впервые она появилась в мае этого года в англоязычном поиске). В течение нескольких дней с этого момента у всех пользователей при поисковых запросах, распознанных «Сетью», справа от результатов поиска будет появляться расширенная карточка запроса с разной релевантной информацией, которую вроде бы не запрашивали, но которая действительно может ответить на ещё не заданный вопрос.

image
Читать полностью »

Живой поиск Suggest.io продолжает совершенствоваться. Со времени выхода стартового релиза исправлены выявленные ошибки и сделан ряд обновлений.

image

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js