Рубрика «поисковые технологии»

Обсуждая качество продуктового поиска и способы его автоматизированного тестирования, в прошлый раз, пришли к пониманию некоторой непрозрачности проблемы. Огромное количество интернет-магазинов часто ставят покупателей в тупик, не находя требуемого по простейшим запросам, а проблемы как бы и нет. Одним словом, смотрим на реальные проблемы не очень релевантного поиска очень популярного интернет-магазина (который очень хочет быть «маркетплейсом»).

Бензиновые велосипеды или странный поиск продуктов (e-commerce) - 1
Читать полностью »

Сегодня Гуглу официально исполнилось 20 лет, двадцать лет как в наш язык прочно вошло слово «гуглить».

Вот так Google выглядел два десятилетия назад:
image

На самом деле дата основания компании — 4 сентября 1998 года. Но технология PageRank, легшая в основу поиска Google, родилась еще в январе 1996 года как научно-исследовательский проект Ларри Пейджа и Сергея Брина, которые тогда учились в Стэнфордском университете в Калифорнии.

Основной домен поисковика google.com был зарегистрирован 15 сентября. Но в самой компании день рождения празднуется именно 27 сентября.

В честь круглой даты компания разместила на главной странице вместо обычного дудла Youtube-ролик, собравший в себе различные важные события за время существования поисковика, которые «гуглили» его посетители.

На специальной праздничной странице, имеющей немного запутанный вид, можно посмотреть самые актуальные поисковые запросы за 20 лет и историю изменения их популярности.

Яндекс решил не оставаться в стороне и поздравил с днем рождения своего заокеанского конкурента, перекрасив собственный логотип в фирменные гугловые цвета. Причем из-за разницы в часовых поясах, Яндекс начал отмечать день рождения раньше самого именинника.
image

Читать полностью »

«Яндекс» с правообладателями обсуждают механизм досудебного удаления пиратских ссылок из поиска - 1Конфликт «Яндекса» и «Газпром-медиа» не прошёл незамеченным для властей. Вчера в администрации президента РФ прошло совещание, на котором присутствовали сотрудники «Яндекса», Google, Mail.ru Group, «Газпром-медиа», Национальной медиа группы (НМГ), Роскомнадзора и представитель Ассоциации продюсеров кино и телевидения (АПКиТ). По словам нескольких информированных источников, интернет-компании, медиахолдинги и чиновники обсуждают внесудебный механизм удаления из поисковой выдачи ссылок на сайты с нелегальным контентом. Информацию о подготовке такого соглашения подтвердили представители Роскомнадзора, НМГ, «Газпром-медиа» и АПКиТ.

Правообладатели давно требуют от «Яндекса» и других поисковых компаний внедрить эффективный механизм оперативного удаления любых пиратских ссылок. Наверное, в идеале им бы хотелось иметь доступ к «админке», в которую они могут вводить произвольные ссылки — и те мгновенно исключаются из поисковой выдачи. Или реализовать такой механизм, какой предусмотрен американским законом DMCA.
Читать полностью »

10 сентября 2018 года Минкульт опубликовал законопроект «О внесении изменений в статью 15.2 Федерального закона „Об информации, информационных технологиях и о защите информации”». Речь идёт именно о той статье, по которой Роскомнадзор недавно угрожал заблокировать сервис «Яндекса» на территории России. В новой редакции предлагаются более жёсткие сроки для этой процедуры.

После получения судебного решения Роскомнадзор обязан быстрее заблокировать ресурс. Вместо нынешних «шести (максимум) рабочих дней на переговоры плюс сутки на выполнение» предлагается блокировать ресурс в течение суток после получения судебного постановления.
Читать полностью »

UPD Проблема предположительно устранена на момент времени 12:30 МСК

Почта Яндекса [была] недоступна уже около часа на момент 12:16 МСК - 1

Крупный сбой в сервисах российского интернет-гиганта. Утром 11 сентября 2018 года интернет-пользователи сообщили о недоступности основной веб-версии Яндекс.Почты и «Почты для домена». Проблема возникает при попытке авторизации через Паспорт «Яндекса» не зависимо от версии браузера.

image

Техническая поддержка Яндекса рекомендовала использовать облегченную версию почтового сервиса.
В компании никак не прокомментировали причину сбоя, но подтвердили, что есть «некоторые трудности со входом в почту»:Читать полностью »

Вы знаете, сколько данных вы качаете из сети каждый раз, чтобы увидеть вот эту страничку?

Custom Google Search View - 1

Если без браузерного кэша, то 600 килобайт (в gzip-e) и 38 запросов. Если с кэшем, то 70 килобайт и 7-8 запросов.Читать полностью »

Как Google пытается разработать поисковую систему с цензурой для Китая - 1

Изданию The Intercept удалось ознакомиться с конфиденциальными документами, описывающими, как в компании Google проводили анализ поисковых запросов на пекинском сайте, чтобы разработать чёрные списки слов для поисковой системы с цензурой, которую компания планирует запустить в Китае.

Инженеры работают с цензурированным поиском с сайта 265.com, каталога сайтов на китайском языке, принадлежащего непосредственно Google.

В отличие от сервисов типа Google.com или YouTube, 265.com не заблокирован в Китае так называемым "великим китайским файрволом", ограничивающим доступ к сайтам, которые компартия Китая считает неблагонадёжными.
Читать полностью »

«Яндекс» опять проиндексировал документы Google Docs - 1
Одна из таблиц, которая попала в выдачу. Вероятно, «Яндекс» проиндексировал документ какого-то рекрутингового агентства

Поисковая система «Яндекс» снова проиндексировала документы пользователей Google Docs, не защищённые паролем. Если вы открыли доступ для документа всем, у кого есть ссылка, и отправили эту ссылку одному человеку, то имейте в виду — эта ссылка может стать известна «Яндексу», а тот сделает ваш «приватный» документ доступным для поиска.
Читать полностью »

Довольно часто нас спрашивают, почему мы не устраиваем соревнований дата-сайентистов. Дело в том, что по опыту мы знаем: решения в них совсем не применимы к prod. Да и нанимать тех, кто окажется на ведущих местах, не всегда имеет смысл.

Массовый стекинг моделей ML в production: реально или нет? - 1

Такие соревнования часто выигрывают с помощью так называемого китайского стекинга, когда комбинаторным способом берут все возможные алгоритмы и значения гиперпараметров, и полученные модели в несколько уровней используют сигнал друг от друга. Обычные спутники этих решений — сложность, нестабильность, трудность при отладке и поддержке, очень большая ресурсоёмкость при обучении и прогнозировании, необходимость внимательного надзора человека в каждом цикле повторного обучения моделей. Смысл делать это есть только на соревнованиях — ради десятитысячных в локальных метриках и позиций в турнирной таблице.

Читать полностью »

В эпоху неуправляемых баллистических снарядов возникла поговорка, что «в одну воронку дважды бомба не падает». С тех пор появились боеприпасы, с корректируемой траекторией полета, а поговорка стала символизировать надежду на то, что люди могут учиться на чужих ошибках, и дважды epic fail по одному и тому же сценарию произойти не сможет. Однако, как говорится, «никогда такого не было, и вот опять»…

Не успели все еще как следует позабыть историю из января 2017 года, когда фитнес-сервис Strava раскрыл расположения секретных объектов США, как произошел еще более эпичный провал у другого аналогичного сервиса. Спортивное приложение Polar Flow показало, где живут сотрудники секретных военных баз и других чувствительных объектов особого значения.

Удивительно, что сервис Polar Flow отдавал еще больше данных, чем это было в случае со Strava. К сожалению, жизнь ничему не научила сотрудников, отвечающих за защиту информации в Polar. Теперь можно было не просто ограничиться поиском людей, занимающихся спортом на секретных объектах. Но, что более важно, — узнать полные имена таких людей, а еще как часто и где они тренировались ранее.

image Читать полностью »