Метка «поиск» - 28

Здравствуйте! Сегодня вечером мы с Мусякой (его ник) договорились встретиться. Я получил его адрес и выехал. Пока я к нему ехал, мой телефон разрядился и я остался без связи.

После приезда по нужному адресу я обнаружил множество машин, которые отъезжали от дома. Я зашел в подъезд, поднялся на 3 этаж и позвонил в дверь… Тишина..Читать полностью »

Разделим парсинг (скраппинг) сайтов на две подзадачи.

  1. Собственно сам парсинг – поиск данных, которые нам интересны на страницах.
  2. Осмысливание полученных данных.

Читать полностью »

Даже блондинка сможет подобрать нормальный Android девайс (+бонус: топ самых самых Android’нутых устройств)
Читать полностью »

Приветствую! Надеюсь, эта статья будет кому-нибудь полезна.

Многие знают о возможностях адресной строки Chrome, запоминающей поисковые системы различных сайтов. Однако эффективно ее использовать, думаю, умеют далеко не все.
Я сижу в интернете исключительно через этот браузер (дело вкуса и привычки, конечно) и использую кастомизированный поиск в Chrome по несколько десятков раз в день. Большое количество действий, ежедневно выполняемых через браузер, можно оптимизировать, добавив в список определенные поисковые системы.

Итак, кончаю муть, перехожу к «технической» и практической стороне дела.
Читать полностью »

Яндекс обогнал Microsoft в мировом поиске

Microsoft уступил Яндексу четвертое место в мировом поиске по числу поисковых запросов. По статистике ComScore, Microsoft переместился на пятое место, пропустив вперед поисковик из России. В Microsoft речь идет не только о поисковике Bing. В статистику входят также и другие сайты и сервисы, такие как microsoft.com, Windows Live и др. В Яндексе же учитывался не только поиск, но и другие сервисы, такие как карты, пробки, авто и др. Первая тройка выглядит без изменений. Это Google, Baidu и Yahoo!Читать полностью »

Этот пост о боли ученых и простых людей, которым нужно найти «сложную» информацию. Так уж сложилось, что лишь немногие умеют правильно формулировать вопросы к поисковикам. Очень громкое заявление, которое захотят оспорить тысячи Знающих, но я и сам понимаю, что оно может выглядеть неправильным. Не от того, что мысль неправильна, скорее я не совсем точно сформулировал ее. Так лучше:

«С ростом сложности предмета поиска возрастает трудность формулировки запроса» — это утверждение верно для каждого человека, независимо от его способностей.

Начинаете понимать? Вы, как программисты, с легкостью формулируете простые запросы вроде «рязань москва экспресс расписание », поэтому есть стереотип, что упрощать процесс поиска не нужно. Но что происходит, когда нам нужно узнать, может ли redis не только сохранять значения с TTL, но и автоматически удалять самые старые, чтобы не свопиться на диск? Возможно и эта проблема некоторым покажется легкой для рисерча, тогда обратите внимание на одну из моих:Читать полностью »

Исторически в Почте Mail.Ru использовался механизм от «большого» Поиска (go.mail.ru); однако для задач поиска по почтовым ящикам такой вариант не был оптимальным ввиду большого потребления ресурсов и относительной сложности в обслуживании. Поиском по почте пользуются около 3% владельцев почтовых ящиков; однако, хотя эта цифра кажется относительно небольшой, ящики этих людей обычно достаточно объемны, и поиск им действительно необходим. Поэтому мы приняли решение написать специализированный поисковый демон, который будет заниматься именно поиском по почте. Основными требованиями к нему стали ограничения по потребляемым ресурсам (размер индекса — не более 3% от размера почтового ящика, среднее потребление оперативной памяти — не более 100 Мб, средняя утилизация CPU — не более 3%) и скорости исполнения запросов (среднее время — не более 200 мс). О том, как он был организован, я расскажу ниже.Читать полностью »

В прошлом посте мы рассмотрели примеры архитектуры поисковиков. Везде ключевую роль играет база данных, над которой удобно производить некоторые операции, исследовать и анализировать содержащиеся в ней документы.

До весны 2012 года у нас вместо такой базы существовали две базы данных разного уровня — со стороны спайдера, который имел свою собственную базу URL-ов, и со стороны индексатора. Это было крайне неудобно: допустим, если пользователь жаловался, что его сайт не индексируется, то для того, чтобы найти причину, при старой архитектуре пришлось бы анализировать массу данных. На это требовалось день-два, иногда даже неделя.

Задачи, которые обрабатывали данные, такие как антиспам или ссылочный граф, вынуждены были работать отдельно, создавая еще большую путаницу. Мы понимали, что нужно что-то менять.

Читать полностью »

Предисловие: мой предыдущий пост на эту тему попал в утиль — на хабре, увы, больше нет раздела «ссылки», а даже частичный копипаст в виде затравки с ссылкой на оригинальный текст, запрещен правилами. Тем не менее, я считаю случившееся событие очень важным, поэтому рискую еще раз вынести это текст на обсуждение. Чтобы остаться в рамках правил, постараюсь пересказать основной текст своими словами.

Итак, с середины с декабря прошлого года в Google начал работать известный изобретатель и футуролог Рей Курцвейл. Как пишет в свой статье Олег Парамонов (а это и есть основной текст, на который я хотел сослаться), событие это из ряда вон выходящее и, я не побоюсь этого слова, революционное.

image

Давайте сначала разберемся зачем гуглу вообще исскуственный интеллект. На фоне новостей про Android, гидроэлектростанции и прочее-прочее-прочее, легко забыть, что Google, это прежде всего поиск. Собственно, именно он приносит львиную часть доходов. Но что такое поиск завтрашнего дня?

Цитата 1:
«Ещё в 2000 году Ларри Пейдж, один из основателей Google, объявил, что идеальной версией поисковика будет искусственный интеллект.
Цитата 2 (из документа Google для внутреннего пользования 2006 года):
»Чтобы стать лучшими в поиске, мы должны создать исследовательский центр мирового класса, занимающийся искусственным интеллектом".»
Читать полностью »

Google открыл регистрацию на второй курс продвинутого поиска

Если вы хотели бы уметь находить ответы на вопросы типа «Какое историческое кафе вдохновило стихотворение лауреата Нобелевской премии?» или «Какие из победителей последних трёх чемпионатов мира среди бариста не использовали бобы из своей страны?», то Google приготовил для вас онлайн-курс продвинутого поиска. (Причём это уже второй.)

При поиске ответов на вопросы, которые нельзя найти с помощью одного запроса, поиск может быстро превратиться в целое исследование. Как пишет Дэн Рассел, занимающий в Google прекрасную должность технического убер-руководителя по качеству поиска и счастью пользователей, новый курс продвинутого поиска поможет получить более глубокое понимание того, как стать лучшим исследователем.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js