Рубрика «Поисковые машины и технологии» - 20

Команда Black Duck запускает обновленный поисковик открытого кода

Сейчас существует сразу несколько проектов, которые можно назвать библиотеками открытого программного обеспечения и исходников этого ПО. Среди прочих таких проектов — GitHub и Sourceforge. Проекты всем хороши, кроме того, что найти нужное ПО и исходники порой достаточно сложно. Для упрощения жизни программистам и им сочувствующим корпорация Google запустила в 2006 году сервис Google Code Search. По замыслу, сервис позволял искать нужные данные на любых сервисах, подобных GitHub и Sourceforge. Google Code Search нашел свою нишу, и его возможностями пользовалось достаточно много специалистов. Но недавно корпорация объявила о прекращении поддержки этого сервиса.

Читать полностью »

Улучшаем релевантность поиска в sphinxsearchSphinxsearch является поисковым движком для быстрого fulltextsearch, может получать данные из mysql, oracle и mssql, может выступать сам хранилищем(realtime индексы). Также sphinx имеет режим работы через api и через sphinxql — аналог протокола sql(с некоторыми ограничениями), что позволяет подключить поиск через sphinx на сайте с минимальным изменением кода. Это один из немногих великих, крупных и открытых проектов разработанный в России. На моей жизни я видел как sphinx обрабатывает порядка 100-200 поисковых запросов на 2 миллиона записей из mysql и при этом сервер свободно дышал и его не тошнило, mysql начинает умирать уже на 10 запросах в секунду на аналогичном конфиге.

Основная проблема документации sphinx на мой взгляд малое количество примеров для большинства интересных настроек, сегодня постараюсь рассказать в примерах о них. Опции которые я затрону касаются в основном алгоритмов и вариаций поиска. Все плотно работает со sphinx не узнают ничего нового, а новички надеюсь смогут улучшить качество поиска на своих сайтах.

Sphinx содержит две независимые программы indexer и searchd. Первый строит индексы по данным взятым из базы данных, второй производит поиск по построенном индексу. А теперь перейдем к настройкам поиска в sphinx.

morphology

Позволяет задать морфологию слов, я использую только стемминг. Алгоритм стемминга с помощью набора правил для языка обрезает окончания и суффиксы. Стемминг не использует готовые базы слов, а основан на определенных правилах обрезания для языка, что делает его маленьким и быстрым, но это же и добавляет ему минусы так как он может совершать ошибки.

Пример нормализации слова стеммингом на русском.
Слова “яблоко”, “яблока”, “яблоку” будут обрезаны в “яблок” и любой поисковый запрос с вариацией слова “яблока” будет тоже нормализован и найдет записи со словами которые были описаны выше.
Читать полностью »

Ребята с ресурса technobuffalo.com провели сравнение между новым поиском от Google, встроенном в Android 4.1 Jelly Bean, и системой Siri, работающей на iOS 5. Утверждается, что Google Search обладает большей интеллектуальностью и более человеческим голосом. Так же, поиск от Google якобы оказывается быстрее и, скажем, более нацелен на непосредственно поиск, что, наверное, не должно быть неожиданным.
Впрочем, пока устройств с Jelly Bean в России ничтожно мало, остается только смотреть видео на английском:

Читать полностью »

… краткий курс для будущих мастеров поиска в интернете

Подробности

Курс «Ищем вместе с Гугл» — это бесплатный онлайн курс по развитию навыков поиска в Интернет для решения повседневных задач.

  • 6 презентаций по 50 минут
  • Интерактивные практические задачи
  • Возможность совместной работы с использованием Google Groups, Google+ и Hangouts on Air
  • При успешном завершении итогового теста выдается сертификат

Читать полностью »

Google опубликовал презентацию нового сервиса Google Now, анонс которого состоялся на конференции Google I/O как части операционной системы Android 4.1.

Google Now представляет собой персональный поисковик, который обрабатывает голосовые и текстовые запросы, выдавая информацию с учётом текущих GPS-координат пользователя, его личной информации из календаря, истории поисковых запросов, истории перемещений, истории посещённых страниц и проч. Виджет с поиском находится на стартовом экране.

С точки зрения пользователя, результаты такого поиска отображаются в виде «карточек» (сards): их пока разработано всего десять видов, но в будущем появятся новые. Пользователь может настроить карточки на свой вкус и удалить ненужные.
Читать полностью »

Я из Беларуси, здесь крупнейшим интернет-провайдером является byfly. Этот провайдер предоставляет своим пользователям бесплатный доступ ко всем сайтам, которые хостятся внутри страны (гостевым ресурсам).

У каждого в арсенале был набор файликов со ссылками на бесплатно доступные ресурсы. Так пришла идея создания поисковика по этим ресурсам и уже в августе 2009 г. его увидели первые пользователи. Посещаемость довольно быстро росла и, на пике популярности, ресурс посещало порядка 34 000 уникальных пользователей в сутки.

Создание поисковика, или Автоматизация Яндекс.Сервера
Читать полностью »

Видимо, поддержка корпорацией Google сообщества разработчиков Mozilla (напомню, что в декабре прошлого года договор о сотрудничестве был продлен сразу на три года) не прошла даром. В Firefox 14, в русскоязычной версии браузера, поисковик Яндекса уже не будет поисковым сервисом по умолчанию. Вместо него номером один станет Google.

Читать полностью »

Новый сайт Movies.io показывает, каким может быть интерфейс поисковика по торрентам. Автодополнение запросов и автоматическая подгрузка фоновых обоев из выбранного фильма выглядят очень красиво.

Movies.io — гламурный UI для поиска торрентов
Читать полностью »

Google отчитался о борьбе с пиратскими ссылками в поисковой выдаче

Многие из нас хотя бы раз при поиске чего-нибудь в Google (например, поиск фильма по названию) сталкивались с сообщением, что материал был удален по требованию правообладателей (честно говоря, точную формулировку уже не помню). Понятно, что корпорации приходится удалять многие тысячи таких ссылок — ведь правообладатели не шутят, могут и засудить за невыполнение законных требований. Оказывается, что работникам компании приходится удалять многие сотни тысяч таких ссылок.

Читать полностью »

Уже не ПервыйВпервые в истории России интернет-портал обогнал самый популярный телеканал.

В апреле 2012 года «Первый» смотрело 18,2 млн человек в день, а посетителями «Яндекса» стали 19,1 млн человек в день, сообщают «Ведомости» со ссылкой на TNS.

Практически догнав телеканал по недельной аудитории, поисковая система всё ещё отстаёт от него по длительности посещения. Тот же «Первый» зрители смотрят больше часа в день, а на «Яндекс» заходят на 10 минут.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js