Рубрика «dataScience»

Прогнозирование спроса. Аномалии в исторических данных – что с ними делать

2026-06-11 в 12:31, admin, рубрики: dataScience, retail, автозакз, аналитика данных, аномалии в данных, прогнозирование, прогнозирование спроса

В большинстве известных мне коробочных прогнозных систем есть этап, когда часть исторических данных о продажах отбрасывается. К примеру, этот этап есть в SAP и в Forecast. Обычно отбрасывают 2% самых больших и 2% самых маленьких данных в распределении. Это непонятные аномальные данные. Их называют «выброс».

Логика «если мы что-то не понимаем, то мы на это не смотрим» немного странная. Казалось бы, это самые интересные данные. Почему на них не смотреть? И с другой стороны, если математическая модель хорошо сделана, то присутствие этих данных в расчете не должно мешать.

Читать полностью »

Как мы сделали систему для спасения интернета от токсичности

2024-10-25 в 20:25, admin, рубрики: AI, dataScience, deeplearning, llm, nlp

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):

Читать полностью »

Как в 180 000 раз ускорить анализ данных с помощью Rust

2023-10-27 в 13:00, admin, рубрики: dataScience, python, Rust, ruvds_перевод, анализ данных, повышение производительности

В этой статье я опишу одно из последних своих дерзновений в сфере оптимизации производительности с помощью Rust. Надеюсь, что в ней вы откроете для себя какие-то новые приёмы для написания быстрого кода на Rust. Читать полностью »

Третья жизнь пет-проекта по распознаванию рукописных цифр

2022-12-23 в 11:23, admin, рубрики: dataScience, detection, huggingface, machinelearning, open source, pet, streamlit, yolo, Блог компании Open Data Science, искусственный интеллект, машинное обучение, обработка изображений

В этом блогпосте я поделюсь историей о том, как я обновлял свой старенький пет-проект по распознаванию цифр, как делал разметку для него, и почему модель предсказывает 12 классов, хотя цифр всего 10.

Вступление

Читать полностью »

Распространение сферического коня в вакууме по территории РФ

2020-03-30 в 8:29, admin, рубрики: data mining, dataScience, ods, open source, python, Блог компании Open Data Science, визуализация, Здоровье гика

Распространение сферического коня в вакууме по территории РФ - 1

Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.

Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:

любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы пониманием язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

Читать полностью »

Как стать датасайнтистом, если тебе за 40 и ты не программист

2018-10-24 в 11:01, admin, рубрики: coursera, data mining, data scientist, dataScience, kaggle, machine learning, ods, open data science, Блог компании QIWI, карьера, Карьера в IT-индустрии, Курсера, кэггл, машинное обучение, развитие, саморазвитие, учеба, Учебный процесс в IT

Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.

Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.
Читать полностью »

Исследование датасета с IMDB

2016-12-23 в 14:40, admin, рубрики: data mining, dataScience, dataVisualisation, imdb, python, визуализация данных, метки: dataScience, dataVisualisation

Исследование датасета с IMDB - 1

Проблематика

Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «dataScience»

Прогнозирование спроса. Аномалии в исторических данных – что с ними делать

Как мы сделали систему для спасения интернета от токсичности

Как в 180 000 раз ускорить анализ данных с помощью Rust

Третья жизнь пет-проекта по распознаванию рукописных цифр

Вступление

Распространение сферического коня в вакууме по территории РФ

Как стать датасайнтистом, если тебе за 40 и ты не программист

Исследование датасета с IMDB

Проблематика