Рубрика «pandas» - 7

Pygest #19. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [20 ноября 2017 — 5 декабря 2017]

2017-12-06 в 9:30, admin, рубрики: cpython, digest, django, django framework, machine learning, pandas, pycharm, pygame, python, события из мира python, Учебный процесс в IT, Читальный зал

Всем привет! Это уже девятнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)

Итак, поехали!

Читать полностью »

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

2017-11-20 в 11:14, admin, рубрики: cpython, digest, elasticsearch, machine learning, pandas, python, python2, Rust, scrapy, sqlalchemy, TensorFlow, Учебный процесс в IT, Читальный зал

Всем привет! Это уже восемнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

В связи с загруженностью andrewnester, автора предыдущих digests, и с его разрешения, честь опубликовать данный выпуск выпала мне.

Итак, поехали!

Читать полностью »

Руководство к созданию собственного когортного отчёта по возвратности

2017-11-10 в 22:47, admin, рубрики: data analysis, mysql, pandas, python, sql, Анализ и проектирование систем, Аналитика мобильных приложений, веб-аналитика

Пример когортного отчёта со значениями LTV

Когортный анализ возвратности пользователей является мощным способом для понимания разных групп клиентов — их поведения и значимости для бизнеса. Однако итоговые таблицы бывает трудно понять с первого раза, а с ходу придумать, как их построить, ещё сложнее.

В статье будет описан относительно простой, но полезный алгоритм построения когортой таблицы, а также приведены наброски кода с Python/Pandas и SQL. Если Вам необходимо программно реализовать построение когортного отчёта или просто интересно узнать этот алгоритм — прошу под кат.

Читать полностью »

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данных

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

Широта-latitude
Долгота-longitude
Способ взятия пробы-method_name
Дата и время взятия пробы-date_local

Задача

Найти параметры максимально влияющие на уровень CO в атмосфере.
Создание гипотезы, предсказывающей уровень CO в атмосфере.
Создание нескольких простых визуализаций.

Читать полностью »

Призрак локомотива или биржевой рынок через призму корреляций

2017-07-27 в 15:08, admin, рубрики: data mining, DataFrame, Normality Test, pandas, python, машинное обучение

В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.
Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?

Читать полностью »

Расчет оттока клиентов банка (решение задачи с помощью Python)

2017-05-24 в 9:18, admin, рубрики: kaggle, pandas, python, sklearn, Занимательные задачки

Data-driven подход к продакшну – Фильтры по акциям

2017-05-16 в 10:36, admin, рубрики: data analysis, google analytics, google tag manager, growth hacking, jquery, json, pandas, product analytics, python, Блог компании Агентство AGIMA, веб-аналитика

data analysis

Что вас ждет в статье:
Описание подхода, который мы применили для исследования фильтров на сайте одного из наших клиентов, а также детальное описание технологий.

На кого рассчитана статья:
Статья будет интересна веб-аналитикам и всем, кто сталкивается с задачами исследования пользовательского опыта на основе количественных данных.

Дисклеймер:
Все описанное в статье является лишь мнением автора (Артем Кулбасов, веб-аналитик AGIMA) и не является единственно верным решением задачи. Многие описанные в статье технологии могут быть заменены аналогами.

Читать полностью »

Как быстрее всего сфоткать 35 билбордов в Москве

2017-04-13 в 12:02, admin, рубрики: googlemaps, pandas, python, Геоинформационные сервисы

Идеи, чем заняться на выходных, ITшники черпают из сотни разных источников. Я, к примеру, недавно увидел конкурс Открытого чемпионата школ по Экономике, заключающегося в том, чтобы сфотографировать максимальное число билбордов Чемпионата. Адреса организаторы любезно предоставили. И несмотря на то, что приз взрослому там не светит (это школьный конкурс), тем не менее крайне интересно было бы узнать, за какое минимальное время можно решить такую задачу.

Как быстрее всего сфоткать 35 билбордов в Москве - 1
Читать полностью »

Статистические компоненты: основы и практика

2017-04-09 в 12:55, admin, рубрики: pandas, php, spark, yii, анализ данных, машинное обучение, Разработка веб-сайтов, статистика

1. Вступление

В широком спектре приложений можно встретить весьма различный функционал обработки статистики, которая необходима как для отчётов, так и для автоматизации работы самого приложения (рейтинги, рекомендации, результаты поиска). Заметка содержит краткое описание некоторых основных методов анализа информации, а также примеры исходного кода, предназначенного для обработки статистики, сбора и подготовки данных.

Статистический компонент — это часть приложения или отдельный сервис, который выполняет обработку информации, включая удобное для пользователя отображение отчёта. В некоторых архитектурах его создают в качестве отдельного сервиса, взаимодействующего посредством API или очередей (RabbitMQ, Redis). Генерация графиков и диаграмм может происходить непосредственно в браузере (Chart.js, D3.js и подобные решения) на основании полученных в JSON данных, а может выполняться заранее (в формате PNG), т.е. в момент обработки данных. Таким образом, с технической точки зрения сервис (модуль, компонент) может быть внешним проектом, реализованным на другом языке программирования.

Читать полностью »

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки python

Старт открытого курса OpenDataScience

Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas - 1

Первая статья посвящена первичному анализу данных с Pandas.

Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.

Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «pandas» - 7

Pygest #19. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [20 ноября 2017 — 5 декабря 2017]

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

Руководство к созданию собственного когортного отчёта по возвратности

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

Призрак локомотива или биржевой рынок через призму корреляций

Расчет оттока клиентов банка (решение задачи с помощью Python)

Data-driven подход к продакшну – Фильтры по акциям

Как быстрее всего сфоткать 35 билбордов в Москве

Статистические компоненты: основы и практика

1. Вступление

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Старт открытого курса OpenDataScience