Рубрика «data science» - 24

Об итогах конкурса MERC-2017: интервью с победителями

2017-12-08 в 18:23, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, Программирование

Победители и финалисты конкурса MERC-2017 от Neurodata Lab на площадке Datacombats — это не просто обезличенные строки лидерборда. Это молодые специалисты, с разными профессиональными и исследовательскими интересами, бэкграундом и компетенциями. В качестве завершающего штриха в истории нашего самого первого конкурса мы решили взять у них интервью. Надеемся, что для читателей блога этот материал станет источником для размышлений, каким он явился и для нас как организаторов конкурса.

Читать полностью »

Как я написал приложение, которое за 15 минут делало то же самое, что и регулярное выражение за 5 дней

2017-12-04 в 20:42, admin, рубрики: data science, python, Алгоритмы, анализ текста, высокая производительность, Регулярные выражения

От переводчика

Не так давно столкнулся с проблемой поиска набора слов в большом тексте. Разумеется главной проблемой стала производительность. Поиск готовых решений порождал больше вопросов, чем давал ответов. Часто я натыкался на примеры использования каких-то сторонних коробок или онлайн-сервисов. А мне в первую очередь нужно было простое и легкое решение, которое в дальнейшем дало бы мысли для реализации собственной утилиты.

Несколько недель назад вышла замечательная англоязычная статься об open-source python-библиотеки FlashText. Эта библиотека предоставляла быстрое работающее решение задачи поиска и замены ключевых слов в тексте.

Т.к. на русском материалов подобной тематики не так много, то я решил перевести эту статью на русский. Под катом вас ждет описание проблемы, разбор принципа работы библиотеки а так же примеры тестов производительности.Читать полностью »

Об итогах конкурса MERC-2017: победители и комментарии

2017-12-04 в 17:56, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, Программирование

Подошел к концу и объявляется закрытым первый конкурс по машинному обучению MERC-2017 от Neurodata Lab, проведенный на собственной площадке Datacombats (вскоре мы представим обновленную, полноценную версию платформы). Время подвести некоторые итоги и прокомментировать результаты. С визуализацией статистики вы можете ознакомиться в предыдущем посте нашего блога.

Читать полностью »

Анализируй это — Lenta.ru

2017-12-04 в 12:31, admin, рубрики: big data, BigData, data engineering, data mining, data science, R, открытые данные

Анализируй это — Lenta.ru - 1

Анализируй это. Lenta.ru (часть 1)

What, How, Why

What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

Читать полностью »

«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)

2017-11-26 в 19:42, admin, рубрики: data mining, data science, python, машинное обучение, Москва, новичкам, обращения граждан, открытые данные, Учебный процесс в IT

Приветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.

В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.

Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.

Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.

Читать полностью »

Коллективный портрет участников конкурса MERC-2017

2017-11-22 в 18:16, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение

Подходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».

Коллективный портрет участников конкурса MERC-2017 - 1
Читать полностью »

Классификация на гуманитариев и технарей по комментариям в VK

2017-11-17 в 5:48, admin, рубрики: data mining, data science, flask, machine learning, python, xgboost, визуализация данных, гуманитарии, машинное обучение, нейронные сети, технари

Привет! Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.

Классификация на гуманитариев и технарей по комментариям в VK - 1

Читать полностью »

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

2017-11-13 в 14:47, admin, рубрики: big data, big data architecture, data science, udev, Анализ и проектирование систем, Блог компании Plarium, дата сайенс, дата сайнс, доклад, конференция, разработка игр, хранение данных

Как построить систему аналитики для проектов с миллионами пользователей?

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools» - 1
Читать полностью »

Использование R для «промышленной» разработки

2017-11-13 в 12:05, admin, рубрики: big data, data mining, data science, R

Является продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»

Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.

Читать полностью »

Приглашаем на Sberbank Data Science Day 11 ноября

2017-11-07 в 10:57, admin, рубрики: AI, big data, data science, machine learning, Блог компании Сбербанк, искусственный интеллект, конференции, машинное обучение, Сбербанк

В эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.

Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.

Подробная программа и ссылка на регистрацию — под катом.

Приглашаем на Sberbank Data Science Day 11 ноября - 1

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data science» - 24

Об итогах конкурса MERC-2017: интервью с победителями

Как я написал приложение, которое за 15 минут делало то же самое, что и регулярное выражение за 5 дней

От переводчика

Об итогах конкурса MERC-2017: победители и комментарии

Анализируй это — Lenta.ru

Анализируй это. Lenta.ru (часть 1)

What, How, Why

«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)

Коллективный портрет участников конкурса MERC-2017

Классификация на гуманитариев и технарей по комментариям в VK

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

Использование R для «промышленной» разработки

Приглашаем на Sberbank Data Science Day 11 ноября

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data science» - 24

От переводчика

Анализируй это. Lenta.ru (часть 1)

What, How, Why

Новости

Актуальные темы

Архив