Рубрика «поисковые технологии»

Сегодня «Дело о колдунщиках» закрыто в ФАС.

Напомню, краткая предыстория была про то, что группа ИТ-компаний Рунета объединилась и обратилась в ФАС с вопросом, нормально ли, что поиск даёт больше преимуществ собственным юрлицам Яндекса. Мы хотели вернуть нейтральность поиска, чего, собственно, и удалось достичь в результате мирового соглашения.

Формальный результат — вот, политика интеграции с поиском, где партнёры Яндекса (то есть внешние компании) и Сервисы Яндекса имеют паритет. Ещё один интересный документ здесь.

Пара выдержек:

…обеспечение равного доступа всех Партнеров как в части объема предоставленной информации, так и в части визуального и функционального представления в поисковой выдаче, вне зависимости от того, являются ли они третьими лицами или Сервисами Яндекса, ко всем действующим и будущим форматам обогащения поисковой выдачи…
…осуществление ранжирования различных форм Партнерской интеграции на странице поисковой выдачи Поисковой системы на основании единых алгоритмов…
…недопустимость манипулирования результатами поисковой выдачи для преимущественного продвижения Сервисов Яндекса. При формировании результатов поиска собственные сервисы Яндекса отражаются на тех же условиях, в том же визуальном оформлении и по тем же правилам, что и сервисы третьих лиц;

Время покажет, как это будет работать на практике, но ниже я расскажу чуть больше деталей.
Читать полностью »

image
Вчера со ссылкой на телеграм-канал вице-президента РАН Алексея Ремовича Хохлова на некоторых информационных площадках начала распространяться информация вида: «Web of Science и Scopus покидают РФ и РБ, 97,5% научной информации станет недоступно».
TJournal (заблокирован РКН) дает также пояснения:

Scopus — библиографическая база данных научного издательства Elsevier. Она содержит цитирования и аннотации к более чем 20 тысячам академических статей. Цитирование в Scopus'e указывает на высокий уровень текста и ценится в академическом сообществе, журнал о проблемах образования DOXA.
Web of Science — это сайт, который открывает доступ к множеству баз данных. На них учёные ищут нужные им тексты.

Тем не менее, в этих сообщениях допущены некоторые неточности.Читать полностью »

Сегодня самый популярный поисковый движок — это Reddit. Единственные, кто этого не знает — команда Reddit, которая не может отвлечься на создание приличного интерфейса поиска. Поэтому вместо этого нам приходится прибегать к Google и добавлять в строку запроса слово «reddit».

Пол Грэм считает, что такая ситуация означает, что Reddit как сайт социальной сети «всё ещё не достиг своего пика». На самом деле это означает, что количество людей, использующих Reddit как поисковый движок, растёт.

reddit google graph

Пол Грэм: «Reddit — уникальная соцсеть. Спустя 15 лет после запуска она всё ещё не достигла своего пика».

Почему люди ищут именно на Reddit? Короткий ответ: очевидно, что поисковые результаты Google умирают. Длинный ответ: бОльшая часть веба стала слишком недостоверной, чтобы ей доверять.
Читать полностью »

Вводная часть

Проблема скорости поиска

Прежде чем перейти к основной теме имеет смысл взглянуть на проблему со стороны.

  • Сколько кадров содержит среднестатистический видео фильм?

  • Сколько фильмов должно быть в базе данных, чтобы пользователи начали пользоваться данным сервисом?

Попробуем ответить на эти вопросы.

  • 150 000 кадров — содержит среднестатистический фильм.

  • 1 000 000 видео — столько должна содержать современная база данных, чтобы быть востребованной.

Читать полностью »

— Разве ты не понимаешь, что весь смысл новояза в том, чтобы сузить диапазон мышления? В итоге мыслепреступление станет попросту невозможным, поскольку не будет слов, которыми его можно было бы выразить.
— «1984», Джордж Оруэлл

Не так давно люди, активно интересующиеся вопросами SEO, могли заметить, что я вступил в перебранку в твиттере с парочкой сотрудников Google. Страсти там реально накалились.

Иногда работать представителем Google за деньги бывает трудновато.

Всё началось с того, что я поставил под сомнение этичность и направленность против конкуренции таких действий Google, как поднятие в рейтинге собственных материалов, касающихся таких слов, как “SEO” и “robots.txt” (из моих областей интереса), а также Google Flights, YouTube, окошек «People Also Ask» и других особенностей поисковика, которые появляются среди самых первых результатов.

Нечестная конкуренция Google связанная с поднятием собственных сервисов в результатах поиска – проблема давно известная. Правительства разных стран проводят расследования таких действий и работают над новыми законами, касающимися этих и других проблем, связанных с монополизацией.
Читать полностью »

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета - 1
В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.Читать полностью »

Как Яндекс применил генеративные нейросети для поиска ответов - 1

Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

Читать полностью »

В предыдущей статье было разработано представление знаковых последовательностей полиномами матричных единиц на примере языкового текста. Текст превращается в алгебраический объект. С текстом можно совершать все алгебраические операции, необходимые для структуризации -- вычисления заголовков, словарей, аннотаций, смысловой разметки. В данной статье приведены два примера алгебраической структуризации текстов иной природы. Азбука Морзе выбрана из-за предельной краткости словаря, а математические формулы как пример обратной задачи.

1. Код Морзе-Вейля-Герке как алгебра матричных единиц

Читать полностью »

Представлюсь

Всем привет! Меня зовут Влад Виноградов, я руководитель отдела компьютерного зрения в компании EORA.AI. Мы занимаемся глубоким обучением уже более трех лет и за это время реализовали множество проектов для российских и международных клиентов в которые входила исследовательская часть и обучение моделей. В последнее время мы фокусируемся на решении задач поиска похожих изображений и на текущий момент создали системы поиска по логотипам, чертежам, мебели, одежде и другим товарам.

Эта публикация предназначена для Machine Learning инженеров и написана по мотивам моего выступления Читать полностью »

Как именно нужно читать предупреждение ФАС «Яндексу» и что оно значит для Рунета - 1

Я один из многих юристов, который больше года назад участвовал в подготовке обращения в ФАС с вопросом, нормально ли, что Яндекс стал лучшим поиском по сервисам Яндекса. Собственно, ответ пришёл несколько недель назад в виде «предупреждения о прекращении действий (бездействия), которые содержат признаки нарушения антимонопольного законодательства».

Вопрос был в том, правильно ли то, что Яндекс даёт преференции своим сервисам в поиске. Суть вопроса сводилась к тому, можно ли считать отдельным рынком рынок поиска.

Дело вот в чём: если юридически поиск в интернете — это рынок, то на нём действует антимонопольное законодательство. И тогда, цитируя сам Яндекс (точнее, пост об иске против Google): «это обращение  —  признание одного неприятного факта. У нас с вами есть все шансы попасть в страну, где только одна компания будет решать, какими сервисами будут пользоваться люди». И если «мы всегда верили в конкуренцию и право выбора пользователя», то ФАС должна восстановить справедливость.

Если же поиск в интернете — это не отдельный рынок, то Яндекс — частная компания, которая в своём поиске может делать что хочет. Ведь это их поиск, их алгоритмы ранжирования и их ручные настройки. Частное дело частной компании.

Коротко: ФАС усмотрела признаки нарушений (пока де-юре не сами нарушения, это важно) в действиях Яндекса. И попросила, по сути, вернуть нейтральность в поиск, то есть обеспечить чуть более равные условия всем компаниям на рынке. В перспективе это может коснуться не только Яндекса, но и любого поиска в России.

Предупреждение ФАС это, по сути, предложение: «сделайте вот так, пожалуйста, или мы возбудим дело», поэтому давайте детально разберёмся, что же происходит.

В предупреждении обозначено, что рынок поиска есть, и это крайне важно для Рунета. Давайте посмотрим, почему.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js