Рубрика «информационный поиск»

Пока весь мир, вместо того, чтобы нарезать салаты готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.
Т — значит творчество - 1
Читать полностью »

27–31 августа в Казани пройдет 12-я летняя школа по информационному поиску RuSSIR 2018.

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП).

Главная тема школы в этом году — медицинские и гуманитарные приложения.

RuSSIR 2018: 12-я летняя школа по информационному поиску - 1

Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

  1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
  2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента;

Курсы:

  1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
  2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
  3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
  4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
  5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
  6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
  7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля. Читать полностью »

Хотите внедрить или доработать функцию поиска? Вам сюда.

Что должен знать о поиске каждый разработчик - 1
Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи

Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать полностью »

Вокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).

2 июня на платформе Stepik стартует мой онлайн-курс «Введение в обработку естественного языка». Это совершенно новый для меня формат, а еще это первый онлайн-курс по прикладной лингвистике, который фокусируется на обработке русского языка, имеющихся для этого данных и ресурсах. 10 лекций курса посвящены базовыми лингвистическими инструментами и популярным приложениям; важная составляющая курса — пять практических заданий.
Читать полностью »

Техносфере Mail.Ru — 2 года - 1

Привет! В феврале исполняется два года проекту Техносфера. За прошедший год произошло три больших изменения, повлиявших на процесс обучения. Первое из них касалось отбора студентов — технических собеседований. Раньше студент шел на техническое собеседование, не зная, какие задачи ему предложат решить. Теперь же мы отправляем студентам кейс, некую техническую задачу, решить которую нужно заранее и на месте объяснить преподавателям ее решение. После добавления кейса успеваемость резко улучшилась. Перевод на второй семестр в Техносфере составил 27 студентов из 40, то есть 67% вместо обычных 40–50%.

Во-вторых, при Техносфере создана лаборатория, в которой студенты занимаются решением практических задач Mail.Ru Group, а также внешних заказчиков. Например, они исследуют алгоритмы таргетинга для рекламных кампаний, а также пытаются создать эвристики, которые позволяют улучшить качество рекламной выдачи. По сути, лаборатория — это альтернатива стажировке в компании. В ней можно работать над решением различных практических задач с рынка, но при этом не тратить время на дорогу в офис, делая все прямо на своем факультете.

Третьим важным шагом стало решение перейти на двухгодичное обучение. В этом году мы выпустили последнюю группу ребят, которые учились по годовой программе. Предметы, которые они осваивали в течение года, были: алгоритмы интеллектуальной обработки больших объемов данных, многопоточное программирование на С/С++, СУБД, Hadoop, методы обработки больших объемов данных и информационный поиск.

Сейчас мы хотели бы поставить точку в годовой программе обучения, показав вам один из выпускных проектов по предмету «Информационный поиск». В течение семестра ребятам давались домашние задания, которые в итоге вылились в большой итоговый проект. Правила были таковы:

  • Ребята разбивались на команды по 2–3 человека.
  • Задача: сделать полноценный поиск по одному из предложенных сайтов. По задумке ваш поиск должен состоять из объединенных домашек + фронтенд + какая-нибудь плюшка, например spellchecker.

Читать полностью »

Приветствую, уважаемые читатели !
В этой статье хочу рассказать, как я искал музыкальное произведение по его отрывку.
Итак, поехали!
Задача передо мной стоит следующая: есть отрывок музыкального произведения, есть база музыкальных произведений, и необходимо найти, какому из имеющихся музыкальных произведений принадлежит данный отрывок.
Кому интересно, читайте под харбокатом!
Читать полностью »

18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и RuSSIR 2014: VIII летняя школа по информационному поиску Казани.

В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ — Нижний Новгород) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.

Главной темой школы будут пользовательские интерфейсы и визуализация данных. Рабочий язык — английский.

RuSSIR 2014: VIII летняя школа по информационному поиску

Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».

Основные курсы:

  • Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
  • Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
  • Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
  • Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
  • Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
  • Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.

К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Читать полностью »

8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.

image

Читать полностью »

16–20 сентября 2013 года в Казани пройдёт VII Российская летняя школа по информационному поиску (RuSSIR 2013).

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru и Google.

Главной темой школы в этом году будет поиск и обработка аудиоинформации. Рабочий язык — английский.

RuSSIR 2013: VII летняя школа по информационному поиску

Основная программа состоит из 7 курсов:

Voice and Music Information Retrieval:

  • Spoken Content Retrieval: Challenges, Techniques and Applications — Gareth Jones (Dublin City University)
  • Content- and Context-based Music Similarity and Retrieval — Markus Schedl & Peter Knees (University of Linz)
  • Query by Singing/Humming and Audio Fingerprinting as Two Successful Paradigms of Music Information Retrieval — Jyh-Shing Roger Jang (Taiwan University)
  • Adaptivity in Audio and Music Retrieval — Andreas Nürnberger & Sebastian Stober (OVG University Magdeburg)

General Information retrieval:

Участие в школе бесплатное, но количество мест ограничено.
Читать полностью »

«У нас есть свой поиск!»

Два года подряд все свои выступления на конференциях я начинал этой фразой, ведь даже не все специалисты по поиску знали о том, что их запросы, заданные в поисковой строке Mail.Ru с большой долей вероятности обрабатывались не лицензированным сторонним движком, а внутренней разработкой компании.

Сейчас я вижу, что ситуация изменилась: многие знают и принимают наш поисковик. Однако вопросы или сомнения всё равно остаются – ну как так, Mail.Ru Group и пишет свой поиск? Mail.Ru Group — это почта, это социальные сети, развлечения… Что за поисковик они могут написать? Вот чтобы развеять эти сомнения, я и хочу рассказать о нашем поиске, о том, как мы его делаем, какие технологии используем, что хотим получить в итоге. Я надеюсь, что предлагаемая статья будет познавательной и интересной; более того, мы собираемся продолжить рассказ о наших технологиях уже более детально, и в следующих постах поговорить о машинном обучении, спайдере, антиспаме и т.п.
GoGo.RuЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js