Рубрика «поисковые технологии» - 11

image

Пару месяцев назад мне наконец пришлось признать, что я недостаточно умён, чтобы пройти некоторые уровни головоломки Snakebird. Единственным способом вернуть себе часть самоуважения было написание солвера. Так я мог бы притвориться, что создать программу для решения головоломки — это почти то же самое, что и решить её самому. Код получившейся программы на C++ выложен на Github. Основная часть рассматриваемого в статье кода реализована в search.h и compress.h. В этом посте я в основном буду рассказывать об оптимизации поиска в ширину, который бы потребовал 50-100 ГБ памяти, чтобы он уместился в 4 ГБ.

Позже я напишу ещё один пост, в котором будет описана специфика игры. В этом посте вам нужно знать, что мне не удалось найти никаких хороших альтернатив грубому перебору (brute force), потому что ни один из привычных трюков не сработал. В игре множество состояний, потому что есть куча подвижных или толкаемых объектов, при этом важна форма некоторых из них, которая может меняться со временем. Не было никакой пригодной консервативной эвристики для алгоритмов наподобие A*, позволяющих сузить пространство поиска. Граф поиска был ориентированным и заданным неявно, поэтому одновременный поиск в прямом и обратном направлении оказался невозможным. Единственный ход мог изменить состояние множеством несвязанных друг с другом способов, поэтому не могло пригодиться ничего наподобие хеширования Зобриста.

Приблизительные подсчёты показали, что в самой большой головоломке после устранения всех симметричных положений будет порядка 10 миллиардов состояний. Даже после упаковки описания состояний с максимальной плотностью размер состояния составлял 8-10 байт. При 100 ГБ памяти задача оказалась бы тривиальной, но не для моей домашней машины с 16 ГБ памяти. А поскольку Chrome нужно из них 12 ГБ, мой настоящий запас памяти ближе к 4 ГБ. Всё, что будет превышать этот объём, придётся сохранять на диск (старый и ржавый винчестер).
Читать полностью »

28 февраля мы провели SphinxSearch-meetup SuperJob. Рассказываем, что обсуждали участники, делимся видео и презентациями.

image

Читать полностью »

image Привет, Хаброжители! Мы издали книгу по Elastic Stack, предназначенную для специалистов, работающих с большими объемами данных и желающих надежно извлекать их из любого источника в любом формате, а также искать, анализировать и визуализировать данные в режиме реального времени. Эта книга для вас, если вам необходимо фундаментальное понимание работы Elastic Stack в сферах распределенных вычислений и обработки данных в реальном времени.

Ниже будет предоставлена структура книги о приведен отрывок про агрегации.
Читать полностью »

Чат на сайте и в выдаче Яндекс

В этом тексте речь пойдёт о чатах для бизнеса от Яндекс. 3 апреля 2019 г. Яндекс объявил о том, что он запустил собственную чат-платформу. Надо сказать, что появление чатов на страницах поисковой выдачи Яндекса произошло несколько ранее, но теперь Яндекс берётся и обрабатывать обмен данными между пользователями, и обеспечивать их графическими интерфейсами. Здесь мы рассмотрим как создавать и использовать такие чаты.
Читать полностью »

Свой велосипед для синхронизации MariaDB и Sphinx - 1

28 февраля я выступал с докладом на SphinxSearch-meetup, который проходил в нашем офисе. Рассказывал о том, как мы пришли от регулярного перестроения индексов для полнотекстового поиска и отправки обновлений в коде «по месту» к рейлтайм-индексам и автоматической синхронизации состояния индекса и базы данных MariaDB. По ссылке доступна видеозапись моего доклада, а для тех, кто предпочитает чтение просмотру видео, я написал эту статью.

Читать полностью »

MCDM-Project. Часть 1. Концепция - 1

Предисловие

Все-таки в душе я фантазер и мечтатель, на деле (в мире программирования) максимум «парень из гаража», но после «раскручивания гаек» не мог не удержаться от идеи явить Хабражителям на справедливый суд концепцию проекта MCDM-Project в целом и игрушечную тестовую версию в частности (несколько опасаюсь Хабраэффекта, если будут проблемы — прощения просим). Ссылка на сайт проекта ждет читателя в конце публикации (вместе с опросом), для ознакомления рекомендуется пройти предлагаемый на сайте тур, а в идеале — предварительно ознакомиться с основными идеями под катом. Читать полностью »

(Управляющие карты)
(Посвящается Международному году Периодической таблицы химических элементов)

image
(Цветок Менделеева, Источник)

Помнится, мы проходили утку. Это были сразу три урока: география, естествознание и русский. На уроке естествознания утка изучалась как утка какие у нее крылышки, какие лапки, как она плавает и так далее. На уроке географии та же утка изучалась как житель земного шара: нужно было на карте показать, где она живет и где ее нет. На русском Серафима Петровна учила нас писать «у-т-к-а» и читала что-нибудь об утках из Брема. Мимоходом она сообщала нам, что по-немецки утка так-то, а по-французски так-то. Кажется, это называлось тогда «комплексным методом». В общем, все выходило «мимоходом».

Вениамин Каверин, Два капитана

В приведенной цитате Вениамин Каверин мастерски показал недостатки комплексного метода обучения, однако в некоторых (может быть, довольно редких) случаях элементы этого метода бывают оправданы. Один из таких случаев — это Периодическая таблица Д.И.Менделеева на уроках школьной информатики. Задача программной автоматизации типовых действий с таблицей Менделеева наглядна для школьников, начавших изучать химию, и разбивается на многие типовые химические задачи. В то же время в рамках информатики эта задача позволяет в простой форме продемонстрировать способ управляющих карт, который можно отнести к графическому программированию, понимаемому в широком смысле слова как программирование с помощью графических элементов.
Читать полностью »

Обязанности поисковиков: как можно “редактировать” поиск в России - 1

Долгое время поиск информации в интернете напрямую законами не регулировался и никто не мог заставить поисковик показывать или скрывать определённую информацию в результатах поиска. Но с 2015 года российский законодатель успел предоставить право “редактировать” результаты поиска пользователям (физическим лицам), правообладателям и государству. У операторов поисковых систем в свою очередь появились обязанности, связанные с формированием результатов поиска не только в соответствии с собственными алгоритмами и запросами пользователей, но и с учётом новых нормативных правил. 

Право на забвение 

“Право на забвение” — это юридический продукт 21-го века, который был придуман не так давно в Европе как инструмент защиты частной жизни человека. Начало было положено, когда в 2014 году Суд справедливости Евросоюза (CJEU — Court of Justice of the European Union) в решении по делу Google Spain против AEPD и М.К. Гонсалеса решил, что люди имеют право на удаление информации о них из результатов поиска (делистинг, de-listing), если такая информация является “некорректной, нерелевантной или излишней” (inadequate, irrelevant or excessive). Это дело рассматривалось в контексте регулирования обработки персональных данных, которое в общем позволяет человеку управлять тем, как и зачем обрабатываются его персональные данные, в том числе требовать удаления или корректировки данных. Синьору Гонсалесу не понравилось, что, когда его гуглили, первым делом в поиске выскакивала статья 20-летней давности о продаже его имущества с торгов из-за долгов, и это производило плохое впечатление и мешало ему вести бизнес.  

Читать полностью »

В августе 2018 года стало известно, что Google ведёт разработку секретного проекта Dragonfly — это новая поисковая система для китайского рынка с поддержкой цензуры.

С критикой проекта выступили более 60 правозащитных групп и 22 американских законодателя. На фоне протеста правозащитников и некоторых сотрудников Google сам вице-президент Майк Пенс призвал компанию прекратить работу над Dragonfly. Он заявил, что система «усилит цензуру Коммунистической партии и поставит под угрозу конфиденциальность пользователей». В середине декабря издание The Intercept сообщило, что Google приостановила разработку Dragonfly после претензий собственного отдела конфиденциальности, который узнал о проекте из СМИ.
Читать полностью »

Picture 1

Далеко не первый год команда PVS-Studio ведет блог о проверках open-source проектов одноименным статическим анализатором кода. На сегодняшний момент проверено более 300 проектов, а в базу найденных ошибок выписано более 12000 случаев. Изначально анализатор был реализован для проверки C и C++ кода, далее появилась поддержка языка C#. Поэтому среди проверенных проектов большая часть (> 80%) приходится именно на C и C++. Совсем недавно к поддерживаемым языкам прибавился Java, а это значит, что перед PVS-Studio открываются двери в новый мир, и пора дополнять базу ошибками из Java проектов.

Java мир огромен и многообразен, поэтому глаза разбегаются при выборе проекта для испытания нового анализатора. В конечном итоге, выбор пал на движок полнотекстового поиска и аналитики Elasticsearch. Это достаточно успешный проект, а в успешных проектах находить ошибки вдвойне, а то и втройне приятнее. Так что, какие же дефекты обнаружил PVS-Studio для Java? О результате проверки и пойдет речь в статье.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js