Рубрика «поисковые технологии» - 2

150+ хакерских поисковых систем и инструментов - 1

Все таргетированные хакерские атаки начинаются с разведки. Социальные инженеры, красные команды и отдельные пентестеры также собирают информацию о своих целях перед тем, как перейти к активным действиям. Им помогают десятки инструментов и хаков. Под катом ссылки на некоторые из них.

Пост состоит из 8 объемных разделов:

  1. Читать полностью »

Как быстро реализовать поиск на корпоративном портале - 1

Привет, меня зовут Антон Щербак, я разработчик корпоративного портала Selectel. Это внутренняя система, где можно узнать новости компании, поучаствовать в Selectel Game (это наша собственная геймификация рабочих достижений) и, конечно, найти необходимого коллегу или структуру.

Нас уже более 700, и иногда поиск человека превращается в выпуск ток-шоу «Жди меня». Поэтому у нас была задача сделать его более удобным и приводящим к нужному результату. Под катом рассказываю, к какому решению мы в итоге пришли и как реализовали.
Читать полностью »

Привет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?

Содержание

  1. REST vs OData

  2. Схема

  3. Типы данных

    1. Примитивные

    2. EntityType

    3. ComplexType

    4. EnumType

    5. Collection

    6. EntitySet

  4. Читать полностью »

Manticore — альтернатива Эластику на C++ с 21-летней историей - 1

5 лет назад мы сделали форк Manticore из open source версии некогда популярного open source поискового движка Sphinx 2.3.2. У нас было два пакетика травы, семьдесят пять ампул мескалинаЧитать полностью »

Как Яндекс Карты с помощью отзывов улучшают поиск организаций - 1

Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.

Теперь учитываются ещё и реальные отзывы людей. Тем самым запросы, по которым раньше выдача была менее релевантной, обрабатываются качественнее, и мы можем решить больше пользовательских задач. Давайте расскажу, как мы к этому шли, и покажу примеры.
Читать полностью »

Сегодня «Дело о колдунщиках» закрыто в ФАС.

Напомню, краткая предыстория была про то, что группа ИТ-компаний Рунета объединилась и обратилась в ФАС с вопросом, нормально ли, что поиск даёт больше преимуществ собственным юрлицам Яндекса. Мы хотели вернуть нейтральность поиска, чего, собственно, и удалось достичь в результате мирового соглашения.

Формальный результат — вот, политика интеграции с поиском, где партнёры Яндекса (то есть внешние компании) и Сервисы Яндекса имеют паритет. Ещё один интересный документ здесь.

Пара выдержек:

…обеспечение равного доступа всех Партнеров как в части объема предоставленной информации, так и в части визуального и функционального представления в поисковой выдаче, вне зависимости от того, являются ли они третьими лицами или Сервисами Яндекса, ко всем действующим и будущим форматам обогащения поисковой выдачи…
…осуществление ранжирования различных форм Партнерской интеграции на странице поисковой выдачи Поисковой системы на основании единых алгоритмов…
…недопустимость манипулирования результатами поисковой выдачи для преимущественного продвижения Сервисов Яндекса. При формировании результатов поиска собственные сервисы Яндекса отражаются на тех же условиях, в том же визуальном оформлении и по тем же правилам, что и сервисы третьих лиц;

Время покажет, как это будет работать на практике, но ниже я расскажу чуть больше деталей.
Читать полностью »

image
Вчера со ссылкой на телеграм-канал вице-президента РАН Алексея Ремовича Хохлова на некоторых информационных площадках начала распространяться информация вида: «Web of Science и Scopus покидают РФ и РБ, 97,5% научной информации станет недоступно».
TJournal (заблокирован РКН) дает также пояснения:

Scopus — библиографическая база данных научного издательства Elsevier. Она содержит цитирования и аннотации к более чем 20 тысячам академических статей. Цитирование в Scopus'e указывает на высокий уровень текста и ценится в академическом сообществе, журнал о проблемах образования DOXA.
Web of Science — это сайт, который открывает доступ к множеству баз данных. На них учёные ищут нужные им тексты.

Тем не менее, в этих сообщениях допущены некоторые неточности.Читать полностью »

Сегодня самый популярный поисковый движок — это Reddit. Единственные, кто этого не знает — команда Reddit, которая не может отвлечься на создание приличного интерфейса поиска. Поэтому вместо этого нам приходится прибегать к Google и добавлять в строку запроса слово «reddit».

Пол Грэм считает, что такая ситуация означает, что Reddit как сайт социальной сети «всё ещё не достиг своего пика». На самом деле это означает, что количество людей, использующих Reddit как поисковый движок, растёт.

reddit google graph

Пол Грэм: «Reddit — уникальная соцсеть. Спустя 15 лет после запуска она всё ещё не достигла своего пика».

Почему люди ищут именно на Reddit? Короткий ответ: очевидно, что поисковые результаты Google умирают. Длинный ответ: бОльшая часть веба стала слишком недостоверной, чтобы ей доверять.
Читать полностью »

Вводная часть

Проблема скорости поиска

Прежде чем перейти к основной теме имеет смысл взглянуть на проблему со стороны.

  • Сколько кадров содержит среднестатистический видео фильм?

  • Сколько фильмов должно быть в базе данных, чтобы пользователи начали пользоваться данным сервисом?

Попробуем ответить на эти вопросы.

  • 150 000 кадров — содержит среднестатистический фильм.

  • 1 000 000 видео — столько должна содержать современная база данных, чтобы быть востребованной.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js