Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.
Читать полностью »
Рубрика «big data» - 75
Конфигурирование Spark на YARN
2017-04-28 в 9:40, admin, рубрики: Apache Spark, big data, data mining, spark, YARN, Блог компании New Professions Lab, машинное обучениеСпортивный анализ данных, или как стать специалистом по data science
2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящикМеня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.
Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.
Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.
Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?
Видеозаписи докладов конференции AI&BigDataLab за последние три года
2017-04-26 в 7:25, admin, рубрики: AI&BigDataLab, artificial intelligence, big data, data mining, Data Science Lab, FlyElephant, R, Блог компании FlyElephant, Большие данные, видеозаписи докладов, искусственный интеллект, конференция, машинное обучение
Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.
Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:
Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики
2017-04-26 в 3:59, admin, рубрики: Amazon Web Services, big data, bigquery, data warehouse, mode, plotly, product analytics, redash, redshift, segment, stitch, Блог компании Skyeng, визуализация данных
Мы в Skyeng очень много внимания уделяем анализу данных. Он позволяет нам правильно планировать работу и распределять ресурсы между различными задачами. Сегодня разработчик аналитики Глеб Сологуб расскажет, как он собрал для нас инфраструктуру сбора и анализа данных по всему нашему зоопарку сервисов и приложений, уложившись в годовой бюджет 12 тыс долларов.
Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая
2017-04-24 в 10:46, admin, рубрики: artificial intelligence, big data, data mining, data science, FlyElephant, R, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение, наука о данных
Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).
Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.
Читать полностью »
Machine Learning Boot Camp IV. Четвертый. Секретный. Твой
2017-04-20 в 11:49, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, Спортивное программирование
21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.
ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.
На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.
Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.
В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.
Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science
2017-04-19 в 16:20, admin, рубрики: big data, data science, Блог компании Университет ИТМО, Университет ИТМОСегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.
Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.
Как мы делали ML Boot Camp III
2017-04-19 в 14:30, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение
19 марта закончился третий чемпионат по машинному обучению на платформе ML Boot Camp. 614 человек прислали решения и поборолись за главный приз ー MacBook Air. Для нас это важный проект: мы хотим расширить сообщество ML-специалистов России. Поэтому в наших задачах сможет разобраться даже новичок. Теоретически… Профи же соревнуются благодаря сложности метрик и большому ряду параметров задачи.
Со второго контеста многое изменилось. Мы увеличили количество участников вдвое, прикрутили к серверу новую метрику, пофиксили баги и создали ML-комьюнити в Телеграме. Рассказываем, как проводили третий контест.
Самые подробные карты мира будут нужны автомобилям, а не людям
2017-04-19 в 7:57, admin, рубрики: big data, maps, Parallels, автомобили, Блог компании Parallels, геопозиционирование, ит, картогарфия, карты, параллели, Разработка робототехники, Разработка систем передачи данных, Разработка систем связи, роботы, транспорт
Сегодня целый ряд компаний, среди которых Here, Civil Maps и даже Nvidia, работают над новым видом картографии. Будущая значимость автомобильной и высокотехнологичной промышленности зависит от успехов беспилотных автомобилей. В течение следующих пяти лет на наших дорогах могут появиться машины с «ограниченной автономностью», способные обходиться без человека лишь при определённых условиях или только в определённых географических точках. Но полностью автономный автомобиль, способный самостоятельно ездить где угодно и в любое время, когда роль человека ограничена лишь указанием пункта назначения, всё ещё остается отдалённой целью. Чтобы это стало реальностью, автомобили должны точно знать, где они находятся. И для этого понадобится гораздо большая точность позиционирования, чем сегодня обеспечивают GPS или ГЛОНАСС. Значит, нужны будут гораздо более точные карты, нежели те, что установлены в вашем навигаторе. Но фокус в том, что ни один человек не будет способен их прочитать! (с)Читать полностью »
International Space Apps Challenge: хакатон от NASA
2017-04-18 в 15:06, admin, рубрики: big data, big data analytics, machine learning, microsoft, Блог компании Microsoft, машинное обучениеМы не так часто рассказываем здесь про мероприятия, но про это было сложно промолчать. Если вы фанатеете от космоса и NASA, хотите защитить нашу планету и её жителей, любите работать с данными и совершать новые открытия на их основе, вам точно захочется поучаствовать в International Space Apps Challenge. По катом вы узнаете про 5 основных задач, которые вам предстоит решить.