Рубрика «data science» - 14

Почему Data Science командам нужны универсалы, а не специалисты

2019-05-03 в 14:11, admin, рубрики: big data, data science, data scientist, Карьера в IT-индустрии, карьера программиста, управление командой, управление людьми, управление персоналом, Читальный зал

HIROSHI WATANABE/GETTY IMAGES

В книге «Богатство народов» Адам Смит показывает, как разделение труда становится главным источником повышения производительности. Примером выступает линия сборки завода по производству булавок: «Один рабочий тянет проволоку, другой выпрямляет её, третий обрезает, четвертый заостряет конец, пятый обтачивает другой конец для насаживания головки». Благодаря специализации, ориентированной на определенные функции, каждый работник становится высококвалифицированным специалистом в своей узкой задаче, которая приводит к повышению эффективности процесса. Выпуск на одного работника увеличивается во много раз, а завод становится более эффективным в производстве булавок.

Такое разделение труда по функциональности настолько укоренилось в наших умах даже сегодня, что мы быстро организовали наши команды соответствующим образом. Data Science не является исключением. Комплексные алгоритмические бизнес-возможности требуют множества трудовых функций, поэтому компании обычно создают группы специалистов: исследователей, инженеров по анализу данных, инженеров машинного обучения, ученых, занимающихся причинно-следственными связями, и так далее. Работа специалистов координируется менеджером по продукту с передачей функций таким образом, который напоминает фабрику булавок: «один человек получает данные, другой моделирует их, третий выполняет их, четвертый измеряет» и так далее,
Читать полностью »

Почему вам стоит участвовать в хакатонах

2019-05-02 в 10:49, admin, рубрики: AI, data mining, data science, Hackathon, machine learning, python, Блог компании Open Data Science, визуализация данных, искусственный интеллект, хакатон

Почему вам стоит участвовать в хакатонах - 1

Примерно полтора года назад я начал участвовать в хакатонах. За этот временной промежуток я успел принять участие в более чем 20 мероприятиях различного масштаба и тематик в Москве, Хельсинки, Берлине, Мюнхене, Амстердаме, Цюрихе и Париже. Во всех мероприятиях я занимался анализом данных в том или ином виде. Мне нравится приезжать в новые для себя города, налаживать новые контакты, придумывать свежие идеи, реализовывать старые задумки за короткий промежуток времени и адреналин во время выступления и оглашения результатов.

Данный пост — первый из трех постов на тематику хакатонов, в нем я расскажу, что такое хакатоны, почему вам стоит начать участвовать в хакатонах. Второй пост будет о темной стороне данных мероприятий — про то как организаторы делали ошибки при проведении, и к чему они привели. Третий пост будет посвящен ответам на вопросы про около-хакатонную тематику.
Читать полностью »

Создаем с нуля собственную нейронную сеть на Python

2019-04-29 в 6:19, admin, рубрики: data mining, data science, python, искусственный интеллект, машинное обучение, нейронная сеть, нейронная сеть с нуля, Питон

Всем привет!

На повестке дня интересная тема — будем создавать с нуля собственную нейронную сеть на Python. В ее основе обойдемся без сложных библиотек (TensorFlow и Keras).

Перед тем как углубиться, рекомендую освежить знания по искусственным нейронным сетям и подписаться на мой телеграм-канал (@dataisopen), чтобы не пропустить интересных статей.

Основное, о чем нужно знать — искусственная нейронная сеть может быть представлена в виде блоков/кружков (искусственных нейронов), имеющие между собой, в определенном направлении, связи. В работе биологической нейронной сети от входов сети к выходам передается электрический сигнал (в процессе прохода он может изменяться).

Электрические сигналы в связях искусственной нейронной сети — это числа. Ко входам нашей искусственной нейронной сети мы будем подавать рандомные числа (которые бы символизировали величины электрического сигнала, если бы он был). Эти числа, продвигаясь по сети будут неким образом меняться. На выходе мы получим ответ нашей сети в виде какого-то числа.

Искусственный нейрон

Для того, чтобы нам понять как работает нейронная сеть изнутри — внимательно изучим модель искусственного нейрона:Читать полностью »

Швейцарский нож для обработки json

2019-04-22 в 7:37, admin, рубрики: big data, data mining, data science, R

Как эффективно работать с json в R?

Является продолжением предыдущих публикаций.Читать полностью »

Как начать применять R в Enterprise. Пример практического подхода

2019-04-22 в 7:19, admin, рубрики: big data, data mining, data science, R

Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

Аналитика работы колл-центра
Аналитика продаж, включая прогнозы
Антифрод системы
Business process mining
Различные аудиты (технические, финансовые)
Складские и логистические задачи
Activity-based costing
Business-process monitoring
Log-based аналитика
Capacity management
Текстовая аналитика (e-mail, service-desk)
"Гибкие" дашборды и отчеты
"интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
...

Является продолжением предыдущих публикаций.Читать полностью »

Профессиональная деформация дата саентистов

2019-04-11 в 11:03, admin, рубрики: data mining, data science, Блог компании Open Data Science, Карьера в IT-индустрии, мир вокруг нас, мозг, Научно-популярное, рациональное мышление

Профессиональная деформация дата саентистов - 1

“Если в ваших руках молоток, все вокруг кажется гвоздями”

Как практикующие дата саентисты мы занимаемся анализом данных, их сбором, очисткой, обогащением, строим и обучаем модели окружающего мира, основываясь на данных, находим внутренние взаимосвязи и противоречия между данными, порою даже там, где их нет. Безусловно такое погружение не могло не сказаться на нашем видении и понимании мира. Профессиональная деформация присутствует в нашей профессии точно также, как и в любой другой, но что именно она нам приносит и как влияет на нашу жизнь?

Читать полностью »

Семинары IBM: весна-лето 2019 — искусственный интеллект, разработка в облаке, чат-боты, блокчейн и прочие технологии

2019-04-09 в 15:39, admin, рубрики: blockchain, data science, IBM, Блог компании IBM, искусственный интеллект, микросервисы, облачная разработка, Облачные вычисления, облачные сервисы, разработка, Чат-боты

Семинары IBM: весна-лето 2019 — искусственный интеллект, разработка в облаке, чат-боты, блокчейн и прочие технологии - 1

Привет! В апреле-июне этого года в нашем клиентском центре (Москва, Пресненская набережная, 10) мы проводим очередную серию семинаров по облачным сервисам IBM. Приглашаем всех заинтересованных разработчиков! Участие в семинарах абсолютно бесплатное, а кофе-чай-пирожные — за наш счет. ) По окончании семинара каждый его участник получит сертификат от IBM. Количество мест ограничено.

Для тех, кто посетил наши семинары в прошлом году, мы подготовили обновленную программу, скорректированную в соответствии с вашими пожеланиями. Темы семинаров: разработка в облаке, чат-боты, блокчейн, частные облака, машинное обучение и анализ данных в облаке. Посетив наши семинары, вы сможете быстро реализовать свои инновационные идеи в виде сервисов и/или приложений из облака IBM, используя современные технологии, сократить time-to-market, создавать PoC для ваших заказчиков, или вывести вашу идею на международный рынок!

Тем, кто заинтересовался — смотрим далее.
Читать полностью »

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

2019-03-27 в 12:06, admin, рубрики: data science, github, Блог компании Mail.Ru Group, визуализация данных, глубокое обучение, машинное обучение, репозиторий

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks - 1

Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.
Читать полностью »

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

2019-03-21 в 14:15, admin, рубрики: AI, catboost, data science, Lift Curve, LightGBM, LSTM, xgboost, Блог компании Ростелеком, искусственный интеллект, машинное обучение, распределение Вейбулла, Ростелеком, спутник, хакатон, Хакатоны

Иногда для того, чтобы решить какую-то проблему, надо просто взглянуть на нее под другим углом. Даже если последние лет 10 подобные проблемы решали одним и тем же способом с разным эффектом, не факт, что этот способ единственный.

Есть такая тема, как отток клиентов. Штука неизбежная, потому что клиенты любой компании могут по множеству причин взять и перестать пользоваться ее продуктами или сервисами. Само собой, для компании отток — хоть и естественное, но не самое желаемое действие, поэтому все стараются этот отток минимизировать. А еще лучше — предсказывать вероятность оттока той или иной категории пользователей, или конкретного пользователя, и предлагать какие-то шаги по удержанию.

Анализировать и пытаться удержать клиента, если это возможно, нужно, как минимум, по следующим причинам:

привлечение новых клиентов дороже процедур удержания. На привлечение новых клиентов, как правило, нужно потратить определенные деньги (реклама), в то время как существующих клиентов можно активизировать специальным предложением с особыми условиями;
понимание причин ухода клиентов — ключ к улучшению продуктов и услуг.

Существуют стандартные подходы к прогнозированию оттока. Но на одном из чемпионатов по ИИ мы решили взять и попробовать для этого распределение Вейбулла. Чаще всего его используют для анализа выживаемости, прогнозирования погоды, анализа стихийных бедствий, в промышленной инженерии и подобном. Распределение Вейбулла — специальная функция распределения, параметризуемая двумя параметрами $λ$ и $k$ .

Википедия

В общем, вещь занятная, но для прогнозирования оттока, да и вообще в финтехе, использующаяся не так, чтобы часто. Под катом расскажем, как мы (Лаборатория интеллектуального анализа данных) это сделали, попутно завоевав золото на Чемпионате по искусственному интеллекту в номинации «AI в банках».
Читать полностью »

Data Science: предсказание бизнес-событий для улучшения сервиса

2019-03-13 в 13:32, admin, рубрики: data mining, data science, Блог компании SimbirSoft, математика, машинное обучение

Алгоритмы рекомендаций, предсказания событий либо оценки рисков – трендовое решение в банках, страховых компаниях и многих других отраслях бизнеса. Например, эти программы помогают на основе анализа данных предположить, когда клиент вернет банковский кредит, какой будет спрос в ритейле, какова вероятность наступления страхового случая или оттока клиентов в телекоме и т.д. Для бизнеса это ценная возможность оптимизировать свои расходы, повысить скорость работы и в целом улучшить сервис.

Вместе с тем, для построения подобных программ не годятся традиционные подходы – классификация и регрессия. Рассмотрим эту проблему на примере кейса, посвященного предсказанию медицинских эпизодов: проанализируем нюансы в природе данных и возможные подходы к моделированию, построим модель и проанализируем ее качество. Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data science» - 14

Почему Data Science командам нужны универсалы, а не специалисты

Почему вам стоит участвовать в хакатонах

Создаем с нуля собственную нейронную сеть на Python

Искусственный нейрон

Швейцарский нож для обработки json

Как начать применять R в Enterprise. Пример практического подхода

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

Профессиональная деформация дата саентистов

Семинары IBM: весна-лето 2019 — искусственный интеллект, разработка в облаке, чат-боты, блокчейн и прочие технологии

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

Data Science: предсказание бизнес-событий для улучшения сервиса

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data science» - 14

Искусственный нейрон

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

Новости

Актуальные темы

Архив