Метка «поиск» - 24

Дополнение от 23.01.14. Эта статья была написана 30-го декабря минувшего года. Выдача с тех пор изменилась, однако по большому счету приведенная информация актуальна. За прошедшее время появились еще кое-какие данные, однако их, с одной стороны, слишком много для того, чтобы расширить эту статью — и слишком мало для новой с другой. Если пост вызовет интерес сообщества, вполне вероятно, что после накопления информации будет продолжение, связанное с характерными особенностями не упомянутых тут факторов.

Введение

Предупреждение. Нижеследующее не следует воспринимать как точную информацию — это только догадка, подтвержденная эмпирически.
Предупреждение 2. Возможно, эта информация — новость только в моем «болоте», но поиск по сети не дал результатов, сколько-нибудь похожих на эти выводы.

Все, более-менее имеющие отношение к интернету, знают, какой хай поднялся, когда Яндекс заявил, что отказывается от ссылочного в НГ.

С одной стороны, жить станет легче — без поискового мусора мир будет немного чище, с другой — непонятно, как это реализуют и по кому это ударит (ну, кроме копирайтеров-оптимизаторов и прочей братии, конечно, но и фиг бы с ними).

Поскольку я занимаюсь, помимо прочего, и рекламой в Сети, я начал с напряжением поглядывать на позиции сайтов моих клиентов, а заодно и конкурентов. Результаты выдачи к праздникам становились все страньше и страньше. Очевидно, нессылочные факторы потихоньку усиливались — и потому выдача по некоторым запросам стала довольно необычной.

Я попытался понять логику алгоритма и, похоже, это частично удалось. Хотя, если мои предположения верны, многих, зависящих от продаж через сеть, прямо скажем, ждут тяжелые времена.

Да и пользователям будет не легче.

Тем, кто торопится: краткое резюме есть в конце статьи.

Остальным же предлагаю полностью проследить ход мысли и поправить ошибки, которые я, возможно, допустил.
Читать полностью »

Для того чтобы быть крутым программистом нужно много программировать.

Но еще и важно пополнять свои знания через чтение интересного и нового. Получать информацию можно из многих источников, раньше для меня это были блоги и RSS канал. Но с течением времени, я пришел к выводу, что почти что всю самое интересное я получаю из 3 мест: twitter, github, stackoverflow.

Все эти сайты имеют одну общую фичу, контент который кажется вам интресным, легко отметить как понравившийся. Если я вижу ссылку на интересный блог пост в твиттере, новый фреймворк на гитхаб или вопрос на стековерфлоу, я обязательно ставлю «лайк». Тем самым, я показываю свою благодарность автору контента. Но можно ли получить от «лайков» что-то большее?
Читать полностью »

Уровень подготовки веб-мастера: средний или высокий

С момента своего запуска в прошлом году панель мониторинга структурированных данных стала одной из самых востребованных функций в Инструментах для веб-мастеров. Мы продолжаем работу над упрощением и удобством поиска ошибок в разметке.

Теперь в панели мониторинга структурированных данных можно не только узнать, понимает ли поисковый робот Google разметку на вашем сайте, но и определить, где именно допущены ошибки. Новые отчеты в Инструментах для веб-мастеров – результат нашего сотрудничества с владельцами сайтов, принявшими участие в июньском бета-тестировании. Мы учли их отзывы, прежде чем запустить новую версию панели мониторинга структурированных данных. Читать полностью »

Сегодня Яндекс объявлявил о начале нового сотрудничества с Facebook, в рамках которого он будет получать данные обо всех новых постах российских пользователей Facebook.

Благодаря этому с помощью Поиска по блогам впервые можно искать по записям русских пользователей с учётом морфологии и полноценным языком запросов. В будущем в поиске появятся также их комментарии.
Например: blogs.yandex.ru/search.xml?text=Яндекс&holdres=mark&server=facebook.com

Яндекс научился искать по Фейсбуку

Записи будут попадать в поиск в реальном времени. В Поиске по блогам можно будет найти записи пользователей FB из России, Украины, Беларуси и Казахстана. Также Яндекс в рамках этого соглашения получил поток с записями Турецких пользователей.
Читать полностью »

Хабр разрастается ежедневно, всё время появляются новые блоги и каждый день — по нескольку статей.
Искать информацию становится всё труднее.
Думаю, для тех, кто хоть раз пытался найти что-то не очень конкретное, мне не нужно придумывать примеры и аргументы, чтобы доказать, что поиск организован не идеально. Искать можно только подстроку, модификаторы поиска в строке отсутствуют (не нашёл ничего про это в «Помощи»), нельзя искать только в заголовках, нельзя выбрать для поиска конкретные хабы.Читать полностью »

Сегодня мы запускаем эксперимент, в рамках которого у 2% пользователей, переходящих по ссылкам из результатов поиска, заголовок Referer не будет содержать текста поискового запроса (точнее, будет, но в зашифрованном виде). В дальнейшем эта практика распространится на всех пользователей Яндекса.

В этом посте мы хотим рассказать, почему приняли такое решение, и обсудить с вами, какие инструменты могут прийти на замену открытым данным о поисковых запросах.

image

Когда-то никому и в голову не приходило скрывать данные о том, с какой страницы был совершен переход, и по какому запросу была сформирована поисковая выдача, с которой тот или иной пользователь пришел к вам на сайт. Но мир меняется. С каждым днем пользователи становятся все менее безликими для владельцев сайтов, которые при желании могут отслеживать их действия на своей территории, сохранять, обрабатывать и использовать эти данные.
Читать полностью »

Привет!

Представляем вашему вниманию Searchanise — поисковый сервис, созданный специально для интернет-магазинов. Бесплатный, совсем-совсем.

Проект уже далеко не в тестинге, а вполне в продакшне: прямо сейчас полторы тысячи онлайн-магазинов используют Searchanise. И это только начало (по крайней мере, мы на это надеемся).

Searchanise

Читать полностью »

В этой лекции на примере Яндекса будут рассмотрены базовые компоненты, необходимые для организации интернет-поисковика. Мы поговорим о том, как эти компоненты взаимодействуют и какими особенностями обладают. Вы узнаете также, что такое ранжирование документов и как измеряется качество поиска.

Лекция рассчитана на старшеклассников – студентов Малого ШАДа, но и взрослые могут узнать из нее много нового об устройстве поисковых машин.

Первый компонент нашей поисковой машины – это Паук. Он ходит по интернету и пытается выкачать как можно больше информации. Робот обрабатывает документы таким образом, чтобы по ним было проще искать. По простым html-файлам искать не очень удобно. Они очень большие, там много лишнего. Робот отсекает все лишнее и делает так, чтобы по документам было удобно искать. Ну и непосредственно поиск, который получает запросы и выдает ответы.
Читать полностью »

Современные программы в значительной степени строятся из готовых кирпичиков — библиотек. Уникального кода и архитектурных решений в каждой программе относительно мало. Очень часто бывает, что существующие библиотеки не слишком высокого качества, но даже самый крутой программист не станет их переписывать.

Этот факт находит отражение и в изменении учебных курсов. Сассман, автор SICP, самого известного курса по программирование, сказал: " инженерное дело в середине 90-ых, а уж тем более в 2000-ых сильно отличается от инженерного дела 80-ых. В 80-ых хорошие программисты проводили много времени в размышлениях, а потом писали немного кода, который работал. Код работал близко к «железу», даже Scheme — все было прозрачно на всех стадиях. Как с резистором, достаточно посмотреть на цветную маркировку, чтобы узнать номинальную мощность, допустимые отклонения, сопротивление и V=IR — это все, что нужно знать. 6.001 был задуман как курс для обучения инженеров тому, как из маленьких кубиков, в которых они досконально разбираются, посредством простых техник составлять сложные конструкции, которые делают то, что от них хотят. Но программирование сейчас далеко не то же самое. Теперь вы ковыряетесь в непонятной или несуществующей документацией для софта, даже неизвестно, кем написанного. Вы должны досконально исследовать библиотеки, чтобы узнать, как они работают, пробовать разные исходные данные и смотреть, как реагирует код. Это в корне иная работа, и для нее требуется иной курс обучения."

Строительные кирпичики стандартизированы — каменщику обычно не приходится выбирать подходящий именно для этого места кирпич. С библиотеками все наоборот — то, что предназначено для обработки PDF не подойдет для создания распределенной вычислительной системы. Возникает потребность найти нужную библиотеку, в ней нужную функцию и понять, как ее встроить в свою программу. Google, как и любая другая ориентированная на естественный язык поисковая система пока помогает мало. Так что рассмотрим другие подходы.
Читать полностью »

image
Некоторое время назад наш поиск стал работать быстрее. Особенно это заметно на сложных для движка запросах, в которых используется минимум фильтров и высокочастотные слова, что требует построить фасеты по результатам и отсортировать максимальные объёмы документов. Но и запросы средней сложности, где в выдаче немного документов, стали обрабатываться заметно быстрее. Почему возникла необходимость что-то ускорять и как мы это делали?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js