Рубрика «data science» - 18

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

Совершеннолетняя журналистика: от России до Кремля - 1

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать полностью »

Привет!

10 ноября (уже завтра!) в Москве в киноцентре «Октябрь» пройдет большая конференция Sberbank Data Science Day, где будут награждение победителей SDSJ 2018, выступления большого количества международных и российских экспертов в области Data Science, секции про ML и применение искусственного интеллекта в науке и бизнесе. И еще много интересного!

Прямую трансляцию можно посмотреть тут. Под катом и на сайте программа. Также рассказываем, как оценивали победителей Sberbank Data Science Journey.

Прямая трансляция Sberbank Data Science Day 10 ноября - 1

Читать полностью »

Building client routing / semantic search and clustering arbitrary external corpuses at Profi.ru

TLDR

This is a very short executive summary (or a teaser) about what we managed to do in approximately 2 months in the Profi.ru DS department (I was there for a bit longer, but onboarding myself and my team was a separate thing to be done at first).

Читать полностью »

Оптимизация работы оборудования, предиктивный мониторинг, построение зависимостей реальной прибыли от технологического режима и многие другие задачи из области цифровой химии уже решаются с помощью DataScience-технологий. У нас в рамках цифровой трансформации производственных и бизнес-процессов над этим работает направление «Продвинутая аналитика».

Онлайн-чемпионат по Data Science - 1

Возможно ли правильно спрогнозировать объёмы производства, учитывая все особенности процесса и технологические параметры? Скоро узнаем.

СИБУР запускает онлайн-чемпионат по Data Science, который продлится до 19 ноября. Желающим принять участие нужно зарегистрироваться до 16 ноября. Решения принимаются до 19, а 24 ноября – финал.

Общий призовой фонд составляет более 600 000 рублей: 1 место – 200 000 рублей, 2 место – 150 000 рублей, 3 место – 70 000 рублей, 4, 5 и 6 места – 40 000 рублей. Лучшие проекты дополнительных треков – 20 000 рублей и квадрокоптеры. В команде может быть от 1 до 4 участников.

Читать полностью »

Предисловие

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM) - 1

В данной статье мы изучим несколько аспектов SVM:

  • теоретическую составляющую SVM;
  • как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
  • пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.

Читать полностью »

image

Недавно я начал изучать machine learning. Начал с прекрасного, на мой взгляд, курса от Andrew Ng. И чтобы не забыть, а так же повторить выученное решил создать репозиторий Machine Learning in Octave. В нем я собрал математические формулы для гипотез, градиентных спусков, "cost function"-ов, сигмоидов и прочих фундаментальных для машинного обучения "штук". Так же добавил туда упрощенные и доработанные примеры реализации некоторых популярных алгоритмов (нейронная сеть, линейная/логистическая регрессия и пр.) для MatLab/Octave. Надеюсь эта информация будет полезна для тех из вас, кто планирует начать изучение machine learning-а.

Читать полностью »

Одной из важнейших задач в сфере data science является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания.

Если мы не просто знаем, что клиент склонен купить товар, но так же понимаем, что влияет на его покупку, мы сможем в будущем выстраивать стратегию компанию, направленную на повышение эффективности продаж.
Читать полностью »

When you study an abstract subject like linear algebra, you may wonder: why do you need all these vectors and matrices? How are you going to apply all this inversions, transpositions, eigenvector and eigenvalues for practical purposes?

Well, if you study linear algebra with the purpose of doing machine learning, this is the answer for you.

In brief, you can use linear algebra for machine learning on 3 different levels:

  • application of a model to data;
  • training the model;
  • understanding how it works or why it does not work.

drawingЧитать полностью »

image
*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме — ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

Читать полностью »

Привет!

С начала года мы провели больше 10 хакатонов и воркшопов по всей стране. В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было.

Хакатон по Data Science в СИБУРе: как это было - 1

Цель была проста. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья до производства и прямых продаж). Само собой, должны были решаться и задачи прикладного характера, например:

  • устранение простоев оборудования, технологических нарушений и сбоев;
  • повышение производительности и вместе с этим — качества продукции;
  • снижение затрат на логистику и закупки;
  • ускорение запуска и вывода на рынок новых продуктов.

В чём главная ценность таких задач? Правильно, в максимальном приближении к настоящим бизнес-кейсам, а не к абстрактным проектам. Первая задача уже подробно описана на Хабре одним из участников (спасибо, cointegrated Давид!). А второй задачей, вынесенной на хакатон, стала необходимость оптимизировать процесс совмещения плановых ремонтов ж/д-вагонов логистического парка. Это взяли прямо из нашего текущего бэклога, немного адаптировав для участников, дабы сделать её понятнее.

Итак, описание задачи.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js