Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.

Встретимся «внутри»!
Читать полностью »
Рубрика «matplotlib» - 3
50 оттенков matplotlib — The Master Plots (с полным кодом на Python)
2019-09-21 в 10:38, admin, рубрики: Matlab, matplotlib, python, анализ данных, графики, машинное обучениеХабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы
2019-09-19 в 20:34, admin, рубрики: matplotlib, pandas, python, веб-аналитика, Инфографика, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, хабрВ предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.

Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать полностью »
Хабрастатистика: анализируем комментарии читателей
2019-09-16 в 20:03, admin, рубрики: matplotlib, pandas, python, Научно-популярное, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, хабрВ предыдущей части была проанализирована популярность различных разделов сайта, и параллельно возник вопрос — какие данные можно извлечь из комментариев к статьям. Также хотелось проверить одну гипотезу, о которой скажу ниже.

Данные получились довольно интересные, также удалось составить небольшой «мини-рейтинг» комментаторов. Продолжение под катом.
Читать полностью »
Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта
2019-09-14 в 12:32, admin, рубрики: matplotlib, pandas, python, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, Управление медиа, хабрПривет.
В предыдущей части была проанализирована посещаемость Хабра по основным параметрам — количеству статей, их просмотрам и рейтингам. Однако вопрос популярности разделов сайта остался не рассмотренным. Стало интересно рассмотреть это более подробно, и найти самые популярные и самые непопулярные хабы. Наконец, я рассмотрю «geektimes-эффект» более подробно, и в завершении читатели получат новую подборку лучших статей по новым рейтингам.

Кому интересно что получилось, продолжение под катом.
Читать полностью »
Курс лекций «Основы цифровой обработки сигналов»
2019-07-18 в 5:15, admin, рубрики: digital-signal-processing, dsp, Matlab, matplotlib, numpy, open source, python, python3, scipy, Алгоритмы, быстрое преобразование фурье, математика, цифровая обработка сигналов, цифровая фильтрацияВсем привет!
Часто ко мне обращаются люди с вопросами по задачам из области цифровой обработки сигналов (ЦОС). Я подробно рассказываю нюансы, подсказываю нужные источники информации. Но всем слушателям, как показало время, не хватает практических задач и примеров в процессе познания этой области. В связи с этим я решил написать краткий интерактивный курс по цифровой обработке сигналов и выложить его в открытый доступ.
Большая часть обучающего материала для наглядного и интерактивного представления реализована с использованием Jupyter Notebook. Предполагается, что читатель имеет базовые знания из области высшей математики, а также немного владеет языком программирования Python.
Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 2-2
2019-03-01 в 21:02, admin, рубрики: data science, matplotlib, python, веб-аналитика, Исследования и прогнозы в IT, рейтинг, Социальные сети и сообщества, Статистика в IT, хабрВ первой части были рассмотрены некоторые закономерности развития такого интересного ресурса, как habrahabr. Материал получился длинный, так что продолжение здесь. В этой части мы заодно посмотрим как строить такие картинки, и наконец, завершим нашу статистику и рейтинг.

Кому интересны результаты, прошу под кат.Читать полностью »
Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2
2019-03-01 в 21:01, admin, рубрики: data science, matplotlib, pandas, python, веб-аналитика, Исследования и прогнозы в IT, Социальные сети и сообщества, статистика, Статистика в IT, хабрПосле публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Рейтинги, статистика и немного исходного кода на Python под катом.Читать полностью »
Хабрарейтинг 2018: лучшие материалы за 2018 год
2019-02-22 в 21:25, admin, рубрики: 2018, data science, matplotlib, pandas, python, веб-аналитика, Программирование, Социальные сети и сообщества, статистика, Статистика в ITДанный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.
Тех, кому интересно что получилось, прошу под кат.
Читать полностью »
Как без особенных усилий создать ИИ-расиста
2019-01-17 в 14:48, admin, рубрики: ConceptNet Numberbatch, glove, matplotlib, numpy, pandas, python, scikit-learn, scipy, seaborn, word2vec, анализ тональности, дерево синтаксического анализа, искусственный интеллект, классификатор, машинное обучение, сентимент-анализПредостерегающий урок.
Сделаем классификатор тональности!
Анализ тональности (сентимент-анализ) — очень распространённая задача в обработке естественного языка (NLP), и это неудивительно. Для бизнеса важно понимать, какие мнения высказывают люди: положительные или отрицательные. Такой анализ используется для мониторинга социальных сетей, обратной связи с клиентами и даже в алгоритмической биржевой торговле (в результате боты покупают акции Berkshire Hathaway после публикации положительных отзывов о роли Энн Хэтэуэй в последнем фильме).
Метод анализа иногда слишком упрощён, но это один из самых простых способов получить измеримые результаты. Просто подаёте текст — и на выходе положительные и отрицательные оценки. Не нужно разбираться с деревом синтаксического анализа, строить граф или какое-то другое сложное представление.
Читать полностью »
«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги
2018-09-03 в 3:02, admin, рубрики: data mining, matplotlib, python, анализ данных, Блог компании EastBanc Technologies, визуализация данных, графики и диаграммы, машинное обучение«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано
«Плохие графики везде. В моей работе я постоянно встречаю крайне сомнительные визуализации данных. Никто не делает плохие графики намеренно. Но это происходит. Опять и опять. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Это происходит в СМИ. Это происходит там, где вы ожидаете, что люди должны уметь визуализировать данные». (с) автор книги
Это происходит и здесь, на Хабре: просматривая статьи в потоке «Визуализация данных», часто ловлю себя на мысли, что не понимаю и не могу схватить суть того, что отображено. В статье рассмотрим несколько примеров. И что самое неприятное для меня, это происходит и в моей работе тоже. Не постоянно, но чаще, чем хотелось бы.

Название книги «Storytelling with Data» звучало убедительно. Выбрал её для вечернего чтения и не пожалел. В книге нет формул, хитрых и необычных графиков, сложных кейсов. Понятный английский. Качественная печать. Читается как художественная литература. Книга будет полезна всем, кому приходится делать презентации на основе данных. Думаю, что особенную пользу она принесёт тем, кто занимается аналитикой данных.
Этот обзор очень неформальный: вперемешку идут мысли автора книги, мои мысли, ситуации из моей работы, а также шпаргалки по matplotlib по ссылкам. Будет много картинок. Почти все иллюстрации перерисованы из книги на Python.
Читать полностью »

