Победители и финалисты конкурса MERC-2017 от Neurodata Lab на площадке Datacombats — это не просто обезличенные строки лидерборда. Это молодые специалисты, с разными профессиональными и исследовательскими интересами, бэкграундом и компетенциями. В качестве завершающего штриха в истории нашего самого первого конкурса мы решили взять у них интервью. Надеемся, что для читателей блога этот материал станет источником для размышлений, каким он явился и для нас как организаторов конкурса.
Читать полностью »
Рубрика «data science» - 24
Об итогах конкурса MERC-2017: интервью с победителями
2017-12-08 в 18:23, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, ПрограммированиеКак я написал приложение, которое за 15 минут делало то же самое, что и регулярное выражение за 5 дней
2017-12-04 в 20:42, admin, рубрики: data science, python, Алгоритмы, анализ текста, высокая производительность, Регулярные выраженияОт переводчика
Не так давно столкнулся с проблемой поиска набора слов в большом тексте. Разумеется главной проблемой стала производительность. Поиск готовых решений порождал больше вопросов, чем давал ответов. Часто я натыкался на примеры использования каких-то сторонних коробок или онлайн-сервисов. А мне в первую очередь нужно было простое и легкое решение, которое в дальнейшем дало бы мысли для реализации собственной утилиты.
Несколько недель назад вышла замечательная англоязычная статься об open-source python-библиотеки FlashText. Эта библиотека предоставляла быстрое работающее решение задачи поиска и замены ключевых слов в тексте.
Т.к. на русском материалов подобной тематики не так много, то я решил перевести эту статью на русский. Под катом вас ждет описание проблемы, разбор принципа работы библиотеки а так же примеры тестов производительности.Читать полностью »
Об итогах конкурса MERC-2017: победители и комментарии
2017-12-04 в 17:56, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, ПрограммированиеПодошел к концу и объявляется закрытым первый конкурс по машинному обучению MERC-2017 от Neurodata Lab, проведенный на собственной площадке Datacombats (вскоре мы представим обновленную, полноценную версию платформы). Время подвести некоторые итоги и прокомментировать результаты. С визуализацией статистики вы можете ознакомиться в предыдущем посте нашего блога.
Читать полностью »
Анализируй это — Lenta.ru
2017-12-04 в 12:31, admin, рубрики: big data, BigData, data engineering, data mining, data science, R, открытые данные
Анализируй это. Lenta.ru (часть 1)
What, How, Why
What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".
«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)
2017-11-26 в 19:42, admin, рубрики: data mining, data science, python, машинное обучение, Москва, новичкам, обращения граждан, открытые данные, Учебный процесс в ITПриветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.
В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.
Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.
Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.
Коллективный портрет участников конкурса MERC-2017
2017-11-22 в 18:16, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучениеПодходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».
Классификация на гуманитариев и технарей по комментариям в VK
2017-11-17 в 5:48, admin, рубрики: data mining, data science, flask, machine learning, python, xgboost, визуализация данных, гуманитарии, машинное обучение, нейронные сети, технариПривет! Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.
29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»
2017-11-13 в 14:47, admin, рубрики: big data, big data architecture, data science, udev, Анализ и проектирование систем, Блог компании Plarium, дата сайенс, дата сайнс, доклад, конференция, разработка игр, хранение данныхКак построить систему аналитики для проектов с миллионами пользователей?
Использование R для «промышленной» разработки
2017-11-13 в 12:05, admin, рубрики: big data, data mining, data science, RЯвляется продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»
Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.
Приглашаем на Sberbank Data Science Day 11 ноября
2017-11-07 в 10:57, admin, рубрики: AI, big data, data science, machine learning, Блог компании Сбербанк, искусственный интеллект, конференции, машинное обучение, СбербанкВ эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.
Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.
Подробная программа и ссылка на регистрацию — под катом.