Рубрика «школа анализа данных»

Яндекс объявил, что студенты и выпускники вузов смогут познакомиться в Тель-Авивском университете с технологиями анализа данных, которые используются в Яндекс.Музыке — сегодня этот сервис Яндекса запущен в Израиле. Руководитель по международному развитию Яндекс.Музыки Амир Биктимиров заявил vc.ru: «в Израиле сейчас очень интересный период развития стриминга — в этом году был запущен Spotify, Читать полностью »

Сегодня исполняется 10 лет Школе анализа данных Яндекса. Девять лет назад я в неё поступил, семь лет назад выпустился и в том же 2010 году, 21 июля, я стал сотрудником ООО «Яндекс».

С тех пор мы все сильно изменились: и я, и Яндекс, и ШАД. Но есть несколько уроков, которые я вынес из стен Школы, которые до сих пор оказываются для меня актуальными и вряд ли перестанут быть таковыми.

Изначально я написал этот пост в личном канале медиума, но затем коллеги убедили меня, что имеет смысл поделиться им с Хабром. Возможно, текст получился слишком высокопарным, но такая уж штука юбилей, что без толики высокопарности не получается.

Ограниченность знания

Поступал я в Школу, только-только закончив третий курс кафедры прикладной математики МЭИ. Вообще-то тогда говорили, что создатели Школы рассчитывают на выпускников-бакалавров — то есть выпускников четвёртого курса. Так что я изрядно рисковал.
Читать полностью »

В начале июля в нашем офисе прошел семинар, посвященный взаимодействию Яндекса и ЦЕРН. В понедельник мы опубликовали первую его часть — доклад Андрея Голутвина о новом эксперименте SHiP (Search for Hidden Particles). Вторая часть этого семинара была отведена Андрея Устюжанина о совместных проектах Яндекса и ЦЕРН.

Андрей рассказал о применении технологий Яндекса в физике высоких энергий. В наши дни над экспериментами зачастую работает огроное количество людей из разных стран. Объединенная экосистема для автоматизации экспериментов может сделать работу исследователей более скоординированной и поможет решить множество других проблем. Единый интерфейс, онлайн-доступ к результатам других участников, система версионирования и возможность обмена библиотеками — все это может сильно упростить исследователям жизнь.

Кроме того, в современной физике высоких энергий активно применяется машинное обучение. На основе тестовых выборок обучаются классификаторы, которые в дальнейшем определяют наличие тех или иных событий уже в реальных данных. При этом количество формул, которые может потребоваться обучить для одного анализа, достигает нескольких сотен или даже тысяч. Надо, однако, иметь в виду, что наши разработки применимы не только в этой сфере, но и в других отраслях науки. Этот доклад — скорее про исследования в целом, про процесс экспериментального подтверждения различных теорий, гипотез и моделей. С такими задачами обычно сталкиваются люди из научно-исследовательских организаций, но сейчас все чаще они возникают и в коммерческих компаниях.
Читать полностью »

Несмотря на то, что физиков иногда пытаются представить консервативными, на деле они только и ждут того, чтобы найти что-то, что выходит за пределы нынешнего понимания природы. Но у них давно такого не получалось.

В очередной раз надежды на обновление Стандартной модели разрушились, после того как в ЦЕРНе нашли бозон Хиггса. И несмотря на то, что, по мнению Стивена Хокинга, это открытие сделало физику скучнее, проблемы, которые Стандартная модель объяснить не может, всё еще остаются. Одна из них — какая частица может стать кандидатом на тёмную материю? Как вы знаете, она содержится во Вселенной, но увидеть её мы не можем.

И вот учёные в ЦЕРНе начинают новый эксперимент — SHiP (Search for Hidden Particles). Если такие частицы обнаружат, то Стандартную модель можно расширить. Это будет означать, что наше представление о структуре и эволюции Вселенной может поменяться. А учёные вполне могут претендовать на Нобелевскую премию. Проводить астрофизические исследования для SHiP будет космический телескоп Astro-H. Яндекс для этого эксперимента не только предоставит ЦЕРНу свои технологии машинного обучения: студенты и исследователи Школы анализа данных Яндекса будут работать совместно с его учёными.

Сотрудничество Яндекса и ЦЕРНа началось в 2011 году, когда мы предоставили ему свои сервера. В 2012 году мы разработали для организации поисковый сервис, который использовался в рамках одного из четырех основных экспериментов ЦЕРНа на Большом адронном коллайдере — Large Hadron Collider beauty experiment (LHCb). В 2013 году ученые-физики получили возможность использовать нашу собственную технологию машинного обучения — Матрикснет. Тогда же Яндекс стал ассоциированным членом европейского Центра ядерных исследований в рамках проекта CERN openlab.

Два года назад в Яндексе выступал Андрей Голутвин, научный консультант директора ЦЕРНа. Это было ровно за день до того, как было официально объявлено об обнаружении бозона Хиггса. А на прошлой неделе Андрей на специальном семинаре рассказал о новом эксперименте SHiP, в котором уже на этапе планирования предполагается использование технологий и знаний Яндекса. Лекция состоит из пяти частей:

  • Зачем нужен эксперимент SHiP,
  • проблемы Стандартной модели,
  • как устроен детектор и что он должен измерить,
  • как создаётся международная коллаборация для создания и проведения большого эксперимента,
  • основные этапы эксперимента,
  • что коллаборация SHiP ожидает от Яндекса.

Читать полностью »

Сегодня мы поговорим об одной из первых задач теории больших сетей, которая может быть решена полностью на самом простом базовом уровне, но которая от этого не становится менее интересной. Это задача о кратчайшей системе дорог или задача Штейнера.

Впервые она появилась, когда еще никаких практических надобностей для больших сетей не было: в тридцатые годы XX века. На самом деле Штейнер начал ее изучать еще раньше, в XIX веке. Это была чисто геометрическая задача, практические приложения которой стали известны только несколько десятилетий спустя.

Разговор пойдет о той области математики, которая впоследствии выросла в теорию больших сетей и разбилась на несколько областей. Это прикладная отрасль, которая задействует очень много методов из других математических дисциплин: дискретной математики, теории графов, функционального анализа, теории чисел и т.д. Бурное развитие теории больших сетей пришлось на конец девяностых и начало двухтысячных годов. Связано это конечно, с прикладными задачами: развитием интернета, мобильной связи, транспортных задач для больших городов. Кроме того теория сетей используется в биологии (нейронные сети), при построении больших электронных плат и т.п.

Сама задача формулируется очень просто. Есть несколько точек на плоскости, которые нужно связать системой дорог наименьшей суммарной длины таким образом, чтобы по этим дорогам можно было из каждой точки добраться в любую другую. Число точек конечно.

Начать рассказ стоит с истории о том, как на Малом мехмате двум группам учеников – восьмиклассникам и одиннадцатиклассникам дали решать одну и ту же задачу. Четыре деревни расположены в вершинах квадрата со стороной четыре километра. Существует ли система дорог, которая связывала бы все эти деревни между собой и имела бы суммарную длину не превосходящую 11 километров.
Читать полностью »

Сегодня мы завершаем эту серию постов, посвященных лекциям Школы анализа данных. Последний по порядку, но никак не по важности курс — «Алгоритмы и структуры данных поиска».

В этом курсе рассматриваются базовые алгоритмы и структуры данных, включая хешировани, сложность и модели вычислений, деревья поиска, B-деревья, задачи геометрического поиска, динамическую связность в графах и другое.

Мы учли то, о чём нас просили в комментариях к прошлым курсам — теперь при желании можно не только смотреть/скачивать лекции по отдельности, но и загрузить всё разом в виде открытой папки на Яндекс.Диске. Кстати — в предыдущих постах тоже появились такие же апдейты (вот ссылки для удобства: «машинное обучение», «дискретный анализ и теория вероятностей», «параллельные и распределённые вычисления»).

Лекции читает Максим Александрович Бабенко, заместитель директора отделения computer science, ассистент кафедры математической логики и теории алгоритмов механико-математического факультета МГУ им. М. В. Ломоносова, кандидат физико-математических наук.
Читать полностью »

Для тех, кому одного курса на праздники мало и кто хочет больше, продолжаем нашу серию курсов от Школы анализа данных Яндекса. Сегодня подошла очередь курса «Дискретный анализ и теория вероятностей» – даже более фундаментального, чем предыдущий. Но без него нельзя представить ещё большую часть современной обработки данных.

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики и на примере решения классических задач демонстрируется их применение.

Лекции от Яндекса для тех, кто хочет провести каникулы с пользой. Дискретный анализ и теория вероятностей

Читает курс Андрей Райгородский. Доктор физико-математических наук. Профессор кафедры математической статистики и случайных процессов механико-математического факультета МГУ им. М. В. Ломоносова. Заведующий кафедрой Дискретной математики ФИВТ МФТИ. Профессор и научный руководитель бакалавриата кафедры «Анализ данных» факультета инноваций и высоких технологий МФТИ. Руководитель отдела теоретических и прикладных исследований компании «Яндекс». (Ещё больше можно узнать в статье о нём на Википедии).

Читать полностью »

Открылся новый набор в Школу анализа данных ЯндексаНа днях мы открыли новый набор в Школу анализа данных. Чтобы стать её студентом, нужно ответить на вопросы в тесте, сдать экзамены и пройти собеседование. Занятия, как всегда, будут проходить в офисе Яндекса в Москве, а также в Екатеринбурге, Киеве и Минске. В Питере у ШАД есть отделение в Computer Science Center. Если вы живёте в других городах, то можете учиться у нас заочно: общаться с преподавателями по электронной почте и смотреть видеолекции. Обучение в Школе бесплатное.

Аудитории Школы анализа данных Яндекса

В ШАД преподают ведущие российские ученые — и те, кто живет в России, и те, кто работает за рубежом. Например, теорию машинного обучения ведёт Алексей Червоненкис, профессор Лондонского университета и один из создателей отечественной школы анализа данных. Автор курса по анализу данных и научный руководитель ШАД — профессор Rutgers University Илья Мучник, который когда-то был научным руководителем Аркадия Воложа.
Читать полностью »

Ровно пять лет назад Яндекс объявил об открытии Школы анализа данных (ШАД). Для нас это был серьезный, хотя и рискованный шаг. Сегодня можно смело сказать, что всё получилось. Нам удалось создать сильную магистерскую программу, которая ценится в профессиональном сообществе. Сейчас конкурс в ШАД составляет пять-шесть человек на место, как в престижном вузе. В день рождения Школы мы хотим вспомнить о том, как все начиналось.

В середине 2000-х стало понятно, что на рынке почти нет специалистов, которые нам нужны. Многие представители советской школы анализа данных, которая была сильна в 60-70 годы, уехали из страны. Даже ВМиК или мехмат МГУ не давали достаточных знаний для решения задач, связанных с обработкой данных (текстов, изображений, музыки, голоса). Необходимо было возрождать научную среду и выращивать новое поколение программистов. А талантливые ребята в России были всегда, сколько бы отсюда ни уезжали.

Поначалу мы верили, что рядом с нами кипит жизнь, что где-то есть студенты и аспиранты, которые занимаются анализом данных — их нужно только поискать. Мы провели несколько конкурсов по анализу интернет-данных, но среди их участников студентов и аспирантов почти не было. Тогда мы попробовали договориться с вузами о создании курсов, которые готовили бы специалистов для Яндекса. Однако вузы предлагали свои программы и не были готовы разрабатывать новые. Так постепенно мы пришли к мысли, что нужно создавать свою школу. Огромную роль в ее создании сыграли Илья Мучник, Григорий Кондаков, Елена Бунина, Максим Бабенко.

Читать полностью »