Рубрика «Поисковые машины и технологии» - 9

image
Некоторое время назад наш поиск стал работать быстрее. Особенно это заметно на сложных для движка запросах, в которых используется минимум фильтров и высокочастотные слова, что требует построить фасеты по результатам и отсортировать максимальные объёмы документов. Но и запросы средней сложности, где в выдаче немного документов, стали обрабатываться заметно быстрее. Почему возникла необходимость что-то ускорять и как мы это делали?
Читать полностью »

Вы когда-нибудь задумывались о том, как работают гуманитарные организации? Возьмем, к примеру, Красный Крест – самое известное и масштабное объединение, которое оказывает помощь жертвам военных конфликтов и разного рода природных катаклизмов. Основная задача, которая стоит перед этой организацией, – оперативно направить свои силы в зону катастрофы. Но как достичь этой оперативности?

Самым мощным информационным инструментом в наши дни являются социальные сети, поэтому неудивительно, что в какой-то момент ребятам из американского подразделения Красного Креста пришла в голову идея использовать их в своей работе. Так уж устроен современный мир: зачастую человек первым делом пишет пост на свою страничку в Twitter или Facebook, а только потом звонит куда следует.

Исследования, проведенные американским подразделением Красного Креста в 2011 году, показали, насколько мощным инструментом для коммуникации в чрезвычайных ситуациях являются социальные сети. Именно с их помощью почти треть населения США сообщит в случае форс-мажора своим близким о том, что с ними все в порядке. 80% процентов американцев также уверены, что службы экстренного реагирования обязаны мониторить интернет-площадки и соцсети, чтобы вовремя прибыть на помощь. Кстати, еще треть жителей США верит в то, что на просьбы о помощи в социальных сетях со стороны таких служб последует незамедлительная реакция.

Facebook, Twitter, Flickr, YouTube и другие популярные медиаресурсы становятся частью системы быстрого реагирования на чрезвычайное происшествие – информация в них распространяется с удивительной скоростью. Порой даже подземные толчки ощущаются гораздо позже, чем успеваешь прочитать твиты о них от жителей соседних территорий. Неудивительно, что такую мощную машину в своих интересах захотел использовать и Красный Крест. В результате совместных усилий американского подразделения организации и Dell на свет появился Цифровой центр управления, расположенный в штаб-квартире Красного Креста в Вашингтоне.
Читать полностью »

Как это сделано: парсинг статей

Для меня всегда было некоей магией то, как Getpocket, Readability и Вконтакте парсят ссылки на страницы и предлагают готовые статьи к просмотру без рекламы, сайдбаров и меню. При этом они практически никогда не ошибаются. А недавно подобная задача назрела и в нашем проекте, и я решил копнуть поглубже. Сразу скажу, что это «белый» парсинг, вебмастеры сами добровольно пользуются нашим сервисом.
Читать полностью »

Мы уже писали о том, как организована работа поиска писем в Яндекс.Почте. С тех много всего изменилось и улучшилось, поэтому мы решили поделиться опытом и рассказать вам об этих изменениях.

В день в Почту приходит порядка 100M писем, 10M из которых — с аттачами. Несмотря на то, что лишь 10% писем содержат вложение, среди писем с вложениями существенная доля тех, в которых файлов больше одного. В среднем получается, что общее количество писем равно суммарному количеству аттачей к ним.

image

Средний размер письма с аттачем составляет 400 кб, а письма без аттача 4 кб. Суммарный размер аттачей в одном письме может достигать 30 мб. ТОП 10 типов аттачей: .jpg, .pdf, .xls, .rar, .doc, .zip, .eml, .mp3, .tif, .docx. Практически все файловые форматы кроме текстового, содержат существенное количество избыточно служебной информации. Так например: .docx формат, содержит всреднем всего 10 % текстовой информации, а из jpg мы получаем всего 0,25% метаинформации для индексации в поиск.

Это дает суммарный объем входящего трафика порядка 25 Тб в сутки, который увеличивается в разы, чтобы обеспечить функционирование большого и сложного продукта Почта. Для обслуживания такой нагрузки в Яндекс.Почте создана большая сетевая, серверная и сервисная инфраструктура, в которую входит несколько кластеров, распределенных по разным датацентрам.
Читать полностью »

Вавки и фантомашки — новое исследование региональных слов компанией ЯндексМы все периодически ездим в командировки или на отдых и привозим из других городов «тамошние» словечки и выражения.

Яндекс провел исследование запросов из разных регионов России и выделил слова и фразы, напрямую не связанные с географией. Скорее, они отражают повседневную жизнь и принадлежат к разговорному языку.

Несколько примеров.
Дальний Восток: «вавка» – ранка или нарыв.
Сибирь: «козный» – смешные картинкам и истории,
Поволжье: «фантомашка» – стереоизображения (Нижний Новгород)

Полное исследование: Читать полностью »

Сегодня мы расскажем вам о нашей технологии под названием Блендер. Она обеспечивает ранжирование и встраивание блоков с вертикальными поисками в страницу поисковой выдачи Яндекса.

image

Начать, пожалуй, стоит с того, зачем вообще мы применяем вертикальные поиски. В некоторых случаях поиск по вертикалям бывает гораздо эффективнее стандартного веб-поиска. Например, когда пользователю требуется найти информацию определенного типа (картинки, видео). Некоторые запросы подразумевают другие критерии ранжирования: при поиске по товарам важно иметь возможность производить ранжирование по цене, а в поиске по людям необходимо учитывать дополнительные фильтры. Вертикальные поиски также могут предполагать совершенно иные способы взаимодействия с пользователем, как в случае с навигацией по результатам, отмеченным на карте, при поиске ближайшего магазина, кинотеатра или заправки.

Читать полностью »

image

«Ростелеком» разрабатывает новую поисковую систему «Спутник», которая может быть запущена уже в 2014 году.

Как рассказал Ведомостям собеседник в «Ростелекоме», поисковик, который будет находиться по адресу sputnik.ru, начнет работу в первом квартале 2014 года. Он отметил, что проект существует около трех лет, а его активная разработка ведется последние полтора-два года, за которые компания инвестировала в него 20 миллионов долларов. Разработкой системы занимается компания «КМ Медиа», приобретенная «Ростелекомом» в 2012 году.
Читать полностью »

image
Мне всегда нравилось, когда заголовок однозначно говорит о том, что будет дальше, например, «Техасская резня бензопилой». Поэтому под катом мы действительно будем добавлять пространственный поиск к СУБД, в которой его изначально не было.
Читать полностью »

Prerender

Великолепное Open Source решение для полноценной поисковой индексации ваших JavaScript приложений (Backbone, Angular, Ember, ChaplinJS, Marionette). Работает это следующим образом:

  1. Мидлвар на Ruby on Rails или Node.js проверяет user agent при каждом запросе к приложению
  2. Если обнаружен краулер поисковой машины то отправляется GET запрос к Prerender
  3. Prerender вызывает ваше приложение для той страницы, которую запрашивает краулер
  4. Страница рендерится с помощью PhantomJS
  5. Полученный HTML посылается обратно
  6. Мидлвар возвращает HTML краулеру

Читать полностью »

Runnable: поисковик по коду с его исполнением в VM

Бывший сотрудник Amazon запустил поисковик по исходному коду Runnable.com, который отличается уникальной особенностью: он не только ищет код, но и исполняет его в виртуальной машине EC2 прямо в результатах поиска. Более того, можно собственноручно внести изменения в код — и снова запустить его, чтобы посмотреть результаты.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js