Рубрика «поиск» - 33

image

Вступление

Одним прекрасным, светлым утром, будучи потрясенным от того, что температура за окном, как казалось, была градусов на 5 больше чем обычно, я почувствовал наплыв небывалой ранее освещенности и в мой мозг прокралась идея — «а ведь те, офферы и аккаунты, которые продаются на „черном рынке“ — они же ворованные всевозможными фишинг-сайтами и стиллерами, а насколько я знаю стиллеры — все логи должны храниться на каом-то хосте в сети интернет».
Читать полностью »

Мы в Почте Mail.Ru постоянно сталкиваемся с необходимостью работать с историей пользователей. Учитывая, что ежемесячная аудитория проекта составляет более 40 миллионов человек, история всех их действий – это порядка петабайта данных. Потребность в поиске по логам у нас возникает сотни раз в день, а на получение нужной информации в среднем уходило несколько часов. При этом, по нашим предположениям, извлечение информации из логов можно было ускорить до нескольких секунд.

Чтобы оценить целесообразность разработки системы для оптимизации поиска по логам, мы воспользовались вот этой таблицей с XKCD:

Как решать проблемы пользователей не за сутки, а за минуты: ускоряем поиск по логам

(на самом деле нет, но нам она все равно нравится).

Итак, мы всерьез взялись за оптимизацию. Итогом нашей работы стала разработка системы, благодаря которой мы можем поднять историю действий примерно в 100 000 (сто тысяч, это не опечатка) раз быстрее. Мы разработали big-data сервис, который позволяет хранить петабайты информации в структурированном виде: каждому ключу у нас соответствует лог каких-то событий. Хранилище устроено так, что оно способно работать и на самых дешевых SATA-дисках, и на больших многодисковых хранилищах с минимальным количеством процессорного времени, при этом оно полностью fault-толерантно — если вдруг какая-то машина выйдет из строя, это ни на что не влияет. Если в системе заканчивается место, в нее просто добавляется сервер или несколько: система автоматически увидит их и начнет записывать данные. Чтение данных происходит почти моментально.
Читать полностью »

Эта возможность доступна только резидентам ЕС, т.к. является следствием решения Европейского суда, постановившего, что пользователи имеют «право быть забытыми» — right to be forgotten, так это называется. Постановление было принято пару месяцев назад и касалось конкретно Гугла, но, видимо, Microsoft решил не ждать, пока придёт их очередь.

Bing стал следующим поисковиком, в котором можно запросить удаление поисковых результатов

Пользователям, желающим стереть себя из памяти всемирной паутины, предлагается заполнить подробную форму, на основании которой и будет принято решение об удалении запрашиваемой информации из поиска.
Читать полностью »

image
Здравствуй, читатель!

Некоторое время назад мне была поставлена задача внедрения MediaWiki в корпоративной сети.
И главной проблемой этого внедрения стал поиск информации, содержащейся в вики.
В этой статье я хотел бы рассказать о том, как подружить поиск Sphinx с MediaWiki.
Причина по которой я хотел бы это написать — отсутствие русскоязычной документации и более-менее приличного руководства или описания, которое помогало бы моим коллегам быстро и просто начать использовать этот прекрасный поисковый механизм.
Возможно, я просто не умею пользоваться гуглом…
Читать полностью »

В декабре прошлого года в посте на Хабре мы объявили, что начали эксперимент по шифрованию текста запроса в поле referer с целью защиты приватности пользователей. Этот эксперимент мы планомерно расширяли и к февралю доля шифруемых данных дошла до 30% запросов. Время, которое прошло с момента анонса, как мы надеемся, дало возможность вебмастерам переориентироваться на другие способы оценки интересов пользователя. С сегодняшнего дня мы начинаем шифровать рефереры на все 100% потока запросов.

Читать полностью »

Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, — важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым, совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.

Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.
Читать полностью »

Как мы обещали ранееЧитать полностью »

Можно ли выжать максимум из минимума или как найти наставника?
Привет! Для многих начало года напрямую связано с новыми начинаниями. Я не исключение — решил систематизировать все свои знания и опыт, полученные за 4+ года предпринимательства и сформировать в формате тематических уроков для начинающих предпринимателей. Мое желание делиться «выжимками» знаний очень хорошо встретили многие люди и всячески поддерживают мои начинания: дают дельные советы, записываются в волонтеры и помогают мне с переводом статей, рекомендуют полезные материалы. Я набрался решимости и хочу поделиться одним из своих уроков с уважаемым хабросообществом. Буду благодарен за любую активность, конструктив в виде отзывов, комментариев и советов.

Что вы узнаете, прочитав данную статью-урок?
У вас появится общее представление кто такой ментор, как его найти и как взаимодействовать с ними. Узнаете мнение серийного предпринимателя и ментора многих проектов. Познакомитесь с сервисом, который позволит вам через сайт найти и начать взаимойдествовать с наставником. Прочтете об ошибках тех, кто отдавал менторам большую долю в проекте и узнаете как этого избежать. Узнаете альтернативное мнение одного предпринимателя, который считает, что можно и нужно обойтись без наставников и «управлять своим кораблем самому»! А на домашнее задание получите практические шаги: «Как стать ментором самому себе».

“Если я помогаю кому-то, я вкладываюсь в успех этого человека. Я подталкиваю его по карьерной лестнице по пути, в который верю сам. И если этот путь приводит к успеху, это также и мой успех.” Chad Fowler
Читать полностью »

Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают. что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.

ElasticSearch 1.0 — новые возможности аналитики

Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать полностью »

Поиск на Drupal 7 с помощью Apache Solr ч.7 — полнотекстовый поиск на русском языке
Наконец-то собрался и написал очередную статью из этого цикла. Теперь я расскажу о том, как сделать хороший полнотекстовый поиск на русском языке для Drupal на Apache Solr.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js