Рубрика «поисковые системы» - 10

По работе мне часто приходится вести переписку на английском, и в силу недолеченного перфекционизма, пользоваться для этого оффлайн/онлайн переводными/толковыми словарями. В целом они со своей работой справляются, пока дело не доходит до проверки правильности словосочетаний или целых фраз. Хочешь ввернуть что-нибудь из разряда продвинутого владения языком, но нет уверенности, что правильно помнишь (большой привет предлогам и фразовым глаголам).

Есть парочка ресурсов, для поиска фраз, но заточены они в основном под общеупотребимые словосочетания, пословицы и фразеологизмы на отдельно взятом языке. К тому же не известно пользуются ли люди искомой фразой или употребив её вы поставите в тупик даже носителя языка.
Читать полностью »

В этом году при разработке легенды заданий для конкурса «Конкурентная разведка» мы сделали упор на применимость выискиваемой информации в реальных работах по пассивному анализу при подготовке к пентестам и в работах по оценке осведомленности, а также на использование различных поисковых механизмов и дедуктивных методов.

Как можно судить по одному из интересных райтапов об этом конкурсе — у нас это получилось, хотя бы отчасти.

К сожалению, в этом году участников было не так много, как в прошлом, и поскольку некоторые задания были гораздо сложнее, полностью их не выполнил никто. Победители остановились на отметке в 12 правильных ответов и награждать пришлось в зависимости от быстроты прохождения.

Итак, давайте взглянем на примерный алгоритм прохождения всех заданий конкурса и дадим наконец ответы на вопросы о непройденных заданиях, а также еще раз огласим уточненный список победителей.

Компанией, с которой предстояло работать конкурсантам, была Godzilla Nursery Laboratory — интернациональная корпорация, занимающаяся разведением и продажей домашних годзилл. Годзиллы были выбраны не случайно – именно они «охраняли» железную дорогу из конкурса «Choo-choo PWN».

Прохождение конкурса “Конкурентая разведка“ на PHDays III

Google подсказывал участникам сразу, что рабочий сайт этой компании с симпатичным логотипом — www.godzillanurserylab.com, а многие из ее сотрудников представлены в социальной сети LinkedIn. Ну, поехали!Читать полностью »

Оригинал здесь

Помните, как в апреле мы писали про инициативу разработчиков ввести черный список для ПО, которое игнорирует рекомендации команды Google Chrome по установке сторонних расширений? И именно по причине не соблюдения рекомендаций официальный установщик Яндекс.Элементов признан вредоносным.

Яндекс.Элементы признаны вредоносными
Читать полностью »

Опечатки бывают иногда полезны тем, что веселят читателя. Поисковые системы оценить юмора пока не в состоянии, и слова, набранные с ошибками, приводят их в замешательство, что в результате огорчает пользователя. Для предотвращения этих явлений существуют автоматические «исправляторы» опечаток, они же спеллчекеры.

О различных подходах к исправлению опечаток написано уже более чем достаточно, поэтому в этой статье я не буду повторять уже известное, а покажу, как написать спеллчекер с нуля — простой, но вполне дееспособный. Всё, что для этого нужно — это список правильных слов и немного С++.

Обработка и классификация запросов. Часть третья: Исправление опечаток

Читать полностью »

Новый сервис взял все самое лучшее от Сбербанка и «Почты России».

Государственный поисковик, о котором давно мечтает российское правительство, наконец заработал. Основная идея — возможность контролировать доступ к информации — реализована на сайте gossearch.ru на все сто: желающих получить ответ на вопрос ждет тотальная проверка.

Прежде чем приступать к поиску, рекомендуем прочитать информацию о проекте: она многое объясняет.

image
Читать полностью »

Если позволите, начну без вступления и предыстории.

Поисковик сегодня (в том числе и в первую очередь интернет поисковик) — это программа, в основе которой лежит математический аппарат, статистические, вероятностные и прочие методы. В любом случае он считает. Считает ссылки, считает релевантность, статистику переходов, учитывает множество факторов (местоположение, возраст и т.д., разную ситуационную информацию). Это в конечном счете приводит к сужению результатов и фильтрации выдачи. И что в конечном счете есть огромный, безусловно многоуровневый и на сегодняшний день принципиально достаточно сложный индекс к некоторой базе собираемой на просторах интернета информации. При этом, сама база информации имеет также достаточно сложную, многоуровневую структуру, что вполне объяснимо на сегодняшний день, но сути не меняет. Здесь, естественно, и кэши, и резервирование, и распараллеливание, и прочие, прочие, прочие, что обеспечивает каждому из нас возможность пользоваться, с моей точки зрения, очень важным ресурсом. Просто попробуйте представить сегодняшний интернет без поиска. Я даже готов утверждать, что достижения в области поиска информации являются основным фактором, стимулирующим рост интернета в принципе.
Читать полностью »

Помню первый день, когда подключился к интернету. Это был модем, постоянно занятая телефонная линия, почасовая оплата и растерянность – куда пойти и как искать. Попадая на интересную страницу не читал, а тут же сохранял ее, чтобы потом спокойно почитать. Отключившись в первый день от сети понял, что есть оптимизационная задача: как денег потратить мало, а информации найти много? Решение пришло почти сразу – купил «Желтые страницы Интернета» и перед выходом в сеть готовился, внимательно читая и выписывая адреса интересных сайтов. Так было.

Сейчас все по другому. Интернет стал давно безлимитным и дешевым. Зато поисковые системы узурпировали наше право выбора, а мы к этому привыкли и безропотно этому подчиняемся. Поисковые системы думают за нас, заботятся о нас и без всяких там угрызений совести формируют наше представление о структуре и содержании сети. Поисковики незаметно начинают перебирать на себя все новые функции. Читать полностью »

Чем занят отдел обработки запросов в Поиске Mail.Ru? Если одним предложением, мы пытаемся «понять» запрос, то есть осуществляем подготовку запроса к поиску, приводим его в вид, пригодный для взаимодействия с нашим индексом, ранжированием, подмесами и прочими компонентами. Если же вы хотите узнать о нашей работе подробнее — добро пожаловать под кат. В этом посте я расскажу об одной из областей нашей работы — парсере запросов.
Читать полностью »

Уже достаточно долгое время мы ведем поддержку двух мобильных версий Поиска Mail.Ru. Этим постом хотелось бы раскрыть немного технической информации о графических интерфейсах.

Первая из версий ориентирована на простые телефоны, которые медленно, но верно покидают современный рынок мобильных устройств, но еще не полностью забыты. К этой категории мы относим телефоны без полноценной операционной системы, браузеры в которых устарели, не понимают полноценного JavaScript-кода и не могут в силу своих ограничений поддержать быстро развивающиеся интернет-технологии. Для этой группы пришлось применять проверенный старый способ — .png- и .gif-графику.

Вторая версия, которую мы поддерживаем и развиваем, предназначена для смартфонов. О ней сегодня и пойдет речь.
Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js