Рубрика «поисковые технологии» - 18

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы

2018-04-23 в 6:27, admin, рубрики: python, Блог компании Mail.Ru Group, инфопоиск, образование в ит, поисковые технологии, Учебный процесс в IT

В наших технопроектах преподают более 200 коллег. Но многие этим не ограничиваются и проводят мастер-классы, курсы и лекции и на других образовательных платформах. Один из таких энтузиастов — Роман Васильев, который этой весной провел курс по инфопоиску в Зимней Пущинской Школе. Под его руководством всего за шесть занятий школьники 7-11 классов (!) написали свой поисковик и защитили проект. Как им это удалось, что это за поисковик и для чего проводится ЗПШ — в философской, вдумчивой, легкой, с изрядной долей юмора статье Романа Васильева.

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы - 1

Читать полностью »

Поиск по сайту с Reindexer — это просто. Или как сделать «instant search» по всему Хабрахабр-у

2018-04-22 в 21:23, admin, рубрики: fulltext search, Go, high performance, nosql, open source, reindexer, search, высокая производительность, поисковые технологии, Разработка веб-сайтов

Всем привет,

В предыдущей статье я писал о том, что мы сделали новую in-memory БД — быструю и с богатыми функциональными возможностями — Reindexer.

В этой статье хочу рассказать как при помощи Reindexer можно реализовать полнотекстовый поиск по сайту, написав минимум application кода.

Вообще, полнотекстовый поиск по сайту — эта важная фича, в наше время, обязательная, для любого интернет сайта. От качества и скорости работы поиска зависит
как быстро пользователи найдут интересующую их информацию или товары, которые они планируют приобрести.

Читать полностью »

Как в hh.ru тестируют поиск по вакансиям

2018-04-11 в 10:48, admin, рубрики: data science, Блог компании HeadHunter, машинное обучение, метрики продукта, поисковые технологии, Тестирование веб-сервисов

Я уже делился рассказом о нашем опыте применения искусственного интеллекта в поиске на hh.ru, а сегодня хотел бы остановиться на измерении качества этого поиска поподробнее.
Как в hh.ru тестируют поиск по вакансиям - 1
Для нормальной работы поиска крайне важна система метрик — локальных, A/B-тестов, очередей на проде и т. д., и эта система требует отдельного внимания и ресурсов. Неправильно думать, что достаточно просто запилить крутой ML и прикрутить все эти метрики «скотчем»; недостаточно также измерять качество работы уже работающей системы — не так уж важно, использует ли она ML или представляет собой Lucene «из коробки». Читать полностью »

Глоссарий ElasticSearch

2018-04-05 в 10:32, admin, рубрики: nosql, поисковые технологии

Привет!

Примечание переводчика:
Это перевод глоссария ElasticSearch из официальной документации.

Устоявшихся русских терминов для данной предметной области найти не удалось. Пришлось тщательно продумывать как лучше перевести. Кривой термин будет сильно сбивать с толку новичка (а гуру глоссарий неинтересен по определению — и так всё знает). Равно нет никакой пользы от «переводов» вида shard-шард, node-нода, mapping-мэппинг. Тогда уж лучше читать в оригинале. Во избежание путаницы в скобках приведены оригинальные термины.
Явные ошибки и опечатки прошу отправлять в личку. А вот корректность выбора терминов и формулировок определений лучше обсудить в комментариях. Предполагаю, что возможны очень разные мнения. Также, на мой взгляд, кое-что в оригинале написано не сильно удачно и понятно — можно сформулировать лучше, но в переводе старался по возможности обойтись без «отсебятины». Надеюсь на понимание. Спасибо.
Читать полностью »

SSO и Kibana: интеграция Kibana со встроенной аутентификацией Windows (Single Sign-On)

2018-03-08 в 16:42, admin, рубрики: elastic stack, elasticsearch, elk, kibana, SSO, x-pack, xpack, поисковые технологии

В этой статье мне хотелось бы поделиться способом настройки технологии единого входа (SSO) в Elastic Stack, использующим X-Pack для аутентификации пользователей и разграничения доступа к данным.

Stop SSO

Читать полностью »

Naive Spellchecking, или поиск ближайших слов из словаря по метрике Левенштейна на Scala

2017-12-19 в 6:18, admin, рубрики: Dijkstra's algorithm, levenstein, scala, trie, Алгоритмы, поисковые технологии, Программирование, функциональное программирование

Приветствую! В этой статье будет показан алгоритм поиска ближайших к заданному слов из корпуса в терминах метрики Левенштейна. Наивным spellchecking-ом назван потому, что не учитывает ни морфологии, ни контекста, ни вероятности появления скорректированного слова в предложении, однако в качестве первого приближения сойдет вполне. Также алгоритм может быть расширен на поиск ближайших последовательностей из любых других сравнимых объектов, нежели простой алфавит из Char-ов, и, после допиливания напильником, его можно приспособить и для учета вероятностей появления скорректированных слов. Но в данной статье сосредоточимся на базовом алгоритме для слов определенного алфавита, скажем, английского.

Код в статье будет на Scala.

Всех заинтересовавшихся прошу под кат.
Читать полностью »

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм

2017-11-28 в 13:30, admin, рубрики: fmcg, Алгоритмы, Блог компании HFLabs, дедубликация, дедупликация, поисковые технологии, торговые представители, юр. лицо

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм - 1

Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

Евразия.
«САКУРА» Японская кухня.
Доминант.
Магазин-бутик «Евразия».
Милениум, ООО, продуктовый магазин.
Киви/ООО/Челябинск.
Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Читать полностью »

Парсер на PHP-коленке или как я свою музыкальную коллекцию пополнял

2017-11-27 в 12:39, admin, рубрики: php, promodj, ненормальное программирование, открытые данные, параллельная загрузка, поисковые технологии, Работа со звуком, Регулярные выражения

А началось все с чего? А началось все одним домашним, зимним, субботним вечером… Ну и конечно же с проблемы, для которой искалось решение)

На днях, по своей же глупости, я потерял навеки всю свою коллекцию музыки (Я — DJ, музыкант). Было очень жалко, ведь коллекция была идеально рассортирована, проанализирована на битрейт, тональность и т.д.

Смирился, думаю ладно, буду заново качать все треки. Качать буду с сайта promodj.com
Почему «промоднище», а не какой нибудь soundcloud? Первая причина — я сижу на этом сайте гораздо чаще, чем на остальных музыкальных порталах. Вторая причина — там есть очень удобный поиск с фильтрами а-ля «Топовое за январь 2017 с качеством 320kbps, длиной не больше 10 минут и не является мэшапом».

Как вы сами понимаете, совсем скоро мне настое… надоело нажимать руками кнопочку «Скачать». И тут и началось самое интересное).
Читать полностью »

Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами PHP

2017-11-15 в 8:41, admin, рубрики: levenshtein, metaphone, mysql, php, similar_text, алгоритм Оливера, Алгоритмы, метафон, нечеткий поиск, поисковые технологии, расстояние дамерау-левенштейна, расстояние Левенштейна

Знаменитый советский и российский математик Владимир Иосифович Левенштейн (кстати, ушедший из жизни два с небольшим месяца назад) в начале второй половины прошлого века ввёл понятие дистанции редактирования, которым мы пользуемся по сей день в различных сферах — от поисковых систем до биоинформатики. В этой статье мы применим его принцип для нечёткого поиска в MySQL (поскольку MySQL на данный момент пока не предлагает встроенного решения), вычислив самый эффективный (т.е. быстрый) способ из нескольких найденных в интернете, построим алгоритм такого поиска и реализуем его на PHP.

Читать полностью »

Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе

2017-11-09 в 15:09, admin, рубрики: growth hacking, seo, интернет-маркетинг, поисковая оптимизация, поисковой спам, поисковые технологии, яндекс

Мне казалось, что поисковики давно победили black hat тактики с помощью машинного обучения и других мощных технологий. Сети дорвеев если и остались, то только где-то на обочине интернета, в маргинальных тематиках типа казино или контента для взрослых.

Но недавно я наткнулся сразу на целую кучу спамных сайтов, которые собирают миллионы посетителей из Яндекса, легко побеждают качественные и авторитетные проекты даже в белых нишах.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «поисковые технологии» - 18

Курс инфопоиска на Зимней Пущинской Школе: учим старшеклассников создавать поисковые системы

Поиск по сайту с Reindexer — это просто. Или как сделать «instant search» по всему Хабрахабр-у

Как в hh.ru тестируют поиск по вакансиям

Глоссарий ElasticSearch

SSO и Kibana: интеграция Kibana со встроенной аутентификацией Windows (Single Sign-On)

Naive Spellchecking, или поиск ближайших слов из словаря по метрике Левенштейна на Scala

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм

Парсер на PHP-коленке или как я свою музыкальную коллекцию пополнял

Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами PHP

Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе