Рубрика «big data» - 75

Конфигурирование Spark на YARN

2017-04-28 в 9:40, admin, рубрики: Apache Spark, big data, data mining, spark, YARN, Блог компании New Professions Lab, машинное обучение

Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.
Читать полностью »

Спортивный анализ данных, или как стать специалистом по data science

2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящик

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Спортивный анализ данных, или как стать специалистом по data science - 1

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Читать полностью »

Видеозаписи докладов конференции AI&BigDataLab за последние три года

2017-04-26 в 7:25, admin, рубрики: AI&BigDataLab, artificial intelligence, big data, data mining, Data Science Lab, FlyElephant, R, Блог компании FlyElephant, Большие данные, видеозаписи докладов, искусственный интеллект, конференция, машинное обучение

Видеозаписи докладов конференции AI&BigDataLab за последние три года - 1

Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.

Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:

Читать полностью »

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

2017-04-26 в 3:59, admin, рубрики: Amazon Web Services, big data, bigquery, data warehouse, mode, plotly, product analytics, redash, redshift, segment, stitch, Блог компании Skyeng, визуализация данных

Мы в Skyeng очень много внимания уделяем анализу данных. Он позволяет нам правильно планировать работу и распределять ресурсы между различными задачами. Сегодня разработчик аналитики Глеб Сологуб расскажет, как он собрал для нас инфраструктуру сбора и анализа данных по всему нашему зоопарку сервисов и приложений, уложившись в годовой бюджет 12 тыс долларов.

Читать полностью »

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

2017-04-24 в 10:46, admin, рубрики: artificial intelligence, big data, data mining, data science, FlyElephant, R, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение, наука о данных

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая - 1

Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).

Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.
Читать полностью »

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

2017-04-20 в 11:49, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, Спортивное программирование

21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.

О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.

На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.

Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.

Читать полностью »

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science

2017-04-19 в 16:20, admin, рубрики: big data, data science, Блог компании Университет ИТМО, Университет ИТМО

Сегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.

Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.

Читать полностью »

Как мы делали ML Boot Camp III

2017-04-19 в 14:30, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение

19 марта закончился третий чемпионат по машинному обучению на платформе ML Boot Camp. 614 человек прислали решения и поборолись за главный приз ー MacBook Air. Для нас это важный проект: мы хотим расширить сообщество ML-специалистов России. Поэтому в наших задачах сможет разобраться даже новичок. Теоретически… Профи же соревнуются благодаря сложности метрик и большому ряду параметров задачи.

Со второго контеста многое изменилось. Мы увеличили количество участников вдвое, прикрутили к серверу новую метрику, пофиксили баги и создали ML-комьюнити в Телеграме. Рассказываем, как проводили третий контест.

Читать полностью »

Самые подробные карты мира будут нужны автомобилям, а не людям

2017-04-19 в 7:57, admin, рубрики: big data, maps, Parallels, автомобили, Блог компании Parallels, геопозиционирование, ит, картогарфия, карты, параллели, Разработка робототехники, Разработка систем передачи данных, Разработка систем связи, роботы, транспорт

Самые подробные карты мира будут нужны автомобилям, а не людям - 1

Сегодня целый ряд компаний, среди которых Here, Civil Maps и даже Nvidia, работают над новым видом картографии. Будущая значимость автомобильной и высокотехнологичной промышленности зависит от успехов беспилотных автомобилей. В течение следующих пяти лет на наших дорогах могут появиться машины с «ограниченной автономностью», способные обходиться без человека лишь при определённых условиях или только в определённых географических точках. Но полностью автономный автомобиль, способный самостоятельно ездить где угодно и в любое время, когда роль человека ограничена лишь указанием пункта назначения, всё ещё остается отдалённой целью. Чтобы это стало реальностью, автомобили должны точно знать, где они находятся. И для этого понадобится гораздо большая точность позиционирования, чем сегодня обеспечивают GPS или ГЛОНАСС. Значит, нужны будут гораздо более точные карты, нежели те, что установлены в вашем навигаторе. Но фокус в том, что ни один человек не будет способен их прочитать! (с)Читать полностью »

International Space Apps Challenge: хакатон от NASA

2017-04-18 в 15:06, admin, рубрики: big data, big data analytics, machine learning, microsoft, Блог компании Microsoft, машинное обучение

Мы не так часто рассказываем здесь про мероприятия, но про это было сложно промолчать. Если вы фанатеете от космоса и NASA, хотите защитить нашу планету и её жителей, любите работать с данными и совершать новые открытия на их основе, вам точно захочется поучаствовать в International Space Apps Challenge. По катом вы узнаете про 5 основных задач, которые вам предстоит решить.

International Space Apps Challenge: хакатон от NASA - 1
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 75

Конфигурирование Spark на YARN

Спортивный анализ данных, или как стать специалистом по data science

Видеозаписи докладов конференции AI&BigDataLab за последние три года

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science

Как мы делали ML Boot Camp III

Самые подробные карты мира будут нужны автомобилям, а не людям

International Space Apps Challenge: хакатон от NASA

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «big data» - 75

Новости

Актуальные темы

Архив