Метка «поисковые системы»

Запущен отечественный поисковик Sputnik.

image

Очевидно, что новый поисковик добровольно-принудительно будет основной поисковой системой для государственных компаний, министерств и образовательных учреждений. Это однозначно позволит ему сразу занять определенную долю на рынке.

На текущий момент доминирующим фактором ранжирования в Спутнике являются ссылки, что вполне очевидно, так как других мощных сигналов для ранжирования у него и быть не могло.
Также в Спутнике пока нет контекстной рекламы, а это в общем увеличивает долю SEO-трафика.
Таким образом, запуск новый поисковой системы может оказать поддержку в развитии SEO-рынка и рынка ссылок в частности.
Читать полностью »

Периодически стал замечать, что не могу найти нужную статью, которую видел раньше.
Вроде бы все просто — по запомнившимся сведениям статью можно легко найти. Но нет. Поиск в Google часто ничего не дает, т.к. я помню только обрывки содержимого, и поисковая выдача содержит много шума.

Актуально это и на работе. Для хранения и обмена полезными ссылками на разные Github проекты, статьи, сервисы раньше мы использовали Skype, но сейчас стали использовать для этих целей Yammer. Оба этих способа имеют свои недостатки. Основной недостаток Skype для обмена ссылками — это сложность поиска по истории. Проблема Yammer — он не индексирует текст статьи, а только сниппет. Ни один из них не имеет возможности автоматической категоризации.

В свободное время я написал приложение, специально заточенное для поиска статей. Его возможности:

  • добавление статьи одной кнопкой из браузера
  • автоматическая категоризация
  • русская и английская морфология
  • просмотр текста статьи
  • операторы поискового запроса

Читать полностью »

Поиск на Drupal 7 с помощью Apache Solr ч.7 — полнотекстовый поиск на русском языке
Наконец-то собрался и написал очередную статью из этого цикла. Теперь я расскажу о том, как сделать хороший полнотекстовый поиск на русском языке для Drupal на Apache Solr.
Читать полностью »

Вертикальный поисковик вакансий

Как часто вам хотелось дописать в запросе к Google параметры похитрей: "… с видом на море", или "… мощностью более 500 л/c", или "… цена не больше 100 рублей"?

Именно так мне тоже ни разу не хотелось, но ведь было бы круто, если бы поисковик понимал такой запрос и соответственно фильтровал результат!
Принципиальная проблема здесь в том, что традиционные поисковики не ограничены по тематике поиска, а чтобы уметь обрабатывать подобные запросы и про коньки, и про мормышки, нужна система, знающая всё обо всём.

На подобные запросы могут ответить “вертикальные” поисковики. Хитрость в том, что они работают в чётко очерченной предметной области. Например, ищут только фокстерьеров или только калоши. Зато про эти самые калоши они знают всё и позволяют задать много всяких специфичных параметров.

Мы затеяли разработку как раз вот такой штуки — поисковика по вакансиям. Да не простого поиска по тексту, а поиска с фильтрацией не хуже чем на специализированных сайтах вакансий.

Сегодня мы запустили альфа версию emply.ru — поисковую систему по вакансиям, которая собирает вакансии по всем русскоязычным (пока) сайтам, включая как сайты работодателей, так и доски объявлений.

Читать полностью »

Яндекс vs. Baidu: разница в SEO оптимизации

Многие китайские компании, деятельность которых так или иначе сопряжена с SEO, в последнее время испытывают все более и более растущий интерес к Яндексу. За последние полгода немало моих китайских знакомых, которые крутятся в IT-среде, со вздохом (ибо тяжело без знания русского) приступили к изучению поисковых алгоритмов Яндекса. Причина такого ажиотажа проста: все больше китайских производителей решают начать завоевание русского рынка с освоения просторов рунета, и спрос автоматически рождает предложение. Если ввести в поисковую строку Baidu запрос 俄罗斯网站推广 («продвижение русских сайтов»), вся первая страница будет пестрить контактами посредников, которые предлагают помощь в размещении контекстной рекламы в Яндексе. Это отличный источник дохода для китайских посредников, и… лишняя конкуренция для самого Яндекса, который уже успел почувствовать интерес китайских пользователей и хотел бы, чтобы их деньги тратились непосредственно на контекстную рекламу, а не на услуги посредников.Читать полностью »

Мы живем во времена, когда кажется, что все просто и все есть. Нужно сделать масштабируемый проект — используем MongoDB, нужна очередь — вот RabbitMQ, нужно поднять функционал поиска — раз плюнуть: ставим Sphinx, Solr, ElasticSearch (нужное подчеркнуть).

Но здесь лишь доля правды: — при определенном везении можно поставить нужный сервер и все зашевелится. Загвоздка с поиском состоит в том, что пользователи уже порядком привыкли к высокой планке, которую задают «большие ребята», а тот поиск, что поднимется у вас «из коробки», будет явно недотягивать. И если очередь или базу данных вы можете добить железом прежде, чем будете оптимизировать, то поиск железом не добьешь.

Существую толстые книжки про настройки полнотекстового поиска, однако их мало кто читает. Сегодня я хотел бы на пальцах поговорить о том, что нужно учесть, когда вы делаете префиксный поиск с выводом результатов по мере набора слова или фразы.

Мы посмотрим, как с помощью нашего проекта http://indexisto.com сделан поиск на сайте http://maximonline.ru и сравним его с тем, что есть на других сайтах.

Для начала несколько примеров. Возьмем запрос «Битва за Лос Анджелес» и представим, что его напишут неправильно «Лос Анжелес биттва». Как видно, пользователь не знает точно, как пишется имя города, и забыл, как звучит название фильма, а также у него дрогнула рука в конце на слове «битва».

Выберем достойные проекты рунета, в которых есть префиксный поиск, и попробуем поискать там наш запрос:

Проект Правильный запрос Неправильный запрос
afisha.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
ivi.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
vk.com Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
maximonline.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
все ОК

Читать полностью »

Как это сделано: парсинг статей

Для меня всегда было некоей магией то, как Getpocket, Readability и Вконтакте парсят ссылки на страницы и предлагают готовые статьи к просмотру без рекламы, сайдбаров и меню. При этом они практически никогда не ошибаются. А недавно подобная задача назрела и в нашем проекте, и я решил копнуть поглубже. Сразу скажу, что это «белый» парсинг, вебмастеры сами добровольно пользуются нашим сервисом.
Читать полностью »

От создателей Indexisto — «Поиск для Хабра II»

Хмурым осенним утром в качестве эксперимента мы запили свой поиск для Хабра со структурой и скоростью. На все работы ушло минут 10. Тем кому лень читать тык для просмотра нового поиска (поисковый инпут прямо в теле записи в блоге)

Для получения такого поиска мы не просили доступа к базе, или заливки статей через наше API. Все делается очень просто, через обычный краулер. Для примера мы скраулили порядка 5000 статей.
Читать полностью »

Банальное начало

В моей жизни появился интернет и одновременно с ним его родитель — фидонет. Время проведенное в первой сети было ограничено временем и кошельком родителей, получение информации с этой сети было мучительно долгим и не оправдывает себя, гораздо проще было заглянуть в энциклопедию и получить, то что действительно необходимо. Со второй сетью было все гораздо проще, но чувство нахождения вне сети создавало некий дискомфорт. Вспомогательное программное обеспечение (далее просто — ПО) распространялось на компакт—дисках, и это иногда был более быстрый способ получения информации, а в сравнении с интернетом и дешевле.

Интернет для моих предков был чем-то отрицательным — местом где кроме порно и вирусов больше ничего не существует. А еще это такая вещь которая делает домашний телефон постоянно занятым, да, и я этим пользовался, когда должен был позвонить классный руководитель, который забивал на попытки дозвониться и просил меня чтобы родители сами связались с ней.

Поиск нужной информации ограничивался местным каталогом интернет—ресурсов и известным яндексом.
Не достигнув совершеннолетия я умудрился устроиться в кладенезь информации, нет это была не библиотека, это был салон компакт-дисков. А позднее я устроился и к провайдеру, где доступ к интернету мне не был ограничен как на работе, так и дома. Тогда у меня начали появляться дистрибы свежего ПО и новые знания.

Родители смирились со временем, специализация у меня была совсем не компьютерная, да и компьютер нужен был для написания научной работы в ботанической области. Волею судьбы все резко поменялось и я стал работать и совершенствовать себя в айти сфере. К этому времени интернет для меня стал более доступным и гораздо быстрее, к тому-же позднее настало совершеннолетие и мои возможности стали гораздо шире.
Активное использование поисковой системы, аська и чаты стали ежедневным, обычным делом. Дааааа я помню время местного чата и желание многих окружающих меня вокруг открыть свой местный чат, дабы получить максимальную власть. Тогда еще не было такого понятия как персональные данные и все охотно делились ими направо и налево. Так зная аську чатера можно было выяснить его имя, фамилию, возраст и даже айпи, последнее позволяло не имея прав админа и используя уязвимости систем того времени не надолго лишить доступа не только в чат, но и весь интернет. Но речь далеко не о том как мы использовали, используем и будем использовать глобальную сеть, а о том как она использует НАС…
Читать полностью »

image

«Ростелеком» разрабатывает новую поисковую систему «Спутник», которая может быть запущена уже в 2014 году.

Как рассказал Ведомостям собеседник в «Ростелекоме», поисковик, который будет находиться по адресу sputnik.ru, начнет работу в первом квартале 2014 года. Он отметил, что проект существует около трех лет, а его активная разработка ведется последние полтора-два года, за которые компания инвестировала в него 20 миллионов долларов. Разработкой системы занимается компания «КМ Медиа», приобретенная «Ростелекомом» в 2012 году.
Читать полностью »