Рубрика «pandas» - 5

Кармическое проклятье Хабра

2019-09-23 в 11:18, admin, рубрики: pandas, python, оценки, Социальные сети и сообщества, статистика, Управление сообществом, хабр, хаброметр, хабросообщество

Непредвиденные последствия

Кармическое проклятье Хабра - 2 «Система кармы Хабра и ее влияние на пользователей» — это тема для курсовой как минимум
Тема про карму на «Пикабу»

Я мог бы начать эту статью с того, что я давно читаю Хабр, но это будет не совсем точным высказыванием. Правильный тезис звучал бы так: «я давно читаю статьи с Хабра» — но не интересовался тем, что происходит внутри сообщества, когда этой весной решил наконец-то зарегистрироваться. Это типичная ошибка человека, который приходит на Хабр из поисковика читать полезные статьи о тонкостях программирования или интересные новости из мира технологий. Пока ты видишь портал только с этой, положительной стороны, ты не задаёшься вопросами о том, что происходит под капотом. Конечно, в комментариях или статьях время от времени проскальзывали упоминания кармы — но ведь карма есть почти на всех крупных порталах (наивно полагал я), это нормально для саморегулирующихся интернет-сообществ.

Мне пришлось всерьёз задуматься об этом после того, как я неожиданно потерял возможность писать больше одного комментария в пять минут.

При этом внешне всё шло отлично: мои комментарии всё время плюсовали, мой рейтинг рос — и вдруг оказалось, что у меня отрицательная карма. Весь мой длительный опыт интернет-общения, все пользовательские привычки, да и банальный здравый смысл кричали мне, что это какая-то ошибка: показатель одобрения пользователя сайта другими пользователями сайта не может одновременно расти и падать! Но я решил не рубить сплеча, а провести небольшое исследование, как аналитическое (в виде изучения мнений пользователей о карме), так и статистическое (в виде анализа показателей аккаунтов). Читать полностью »

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы

2019-09-19 в 20:34, admin, рубрики: matplotlib, pandas, python, веб-аналитика, Инфографика, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, хабр

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы - 1

Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать полностью »

Хабрастатистика: анализируем комментарии читателей

2019-09-16 в 20:03, admin, рубрики: matplotlib, pandas, python, Научно-популярное, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, хабр

В предыдущей части была проанализирована популярность различных разделов сайта, и параллельно возник вопрос — какие данные можно извлечь из комментариев к статьям. Также хотелось проверить одну гипотезу, о которой скажу ниже.
Хабрастатистика: анализируем комментарии читателей - 1

Данные получились довольно интересные, также удалось составить небольшой «мини-рейтинг» комментаторов. Продолжение под катом.
Читать полностью »

Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта

2019-09-14 в 12:32, admin, рубрики: matplotlib, pandas, python, Программирование, Социальные сети и сообщества, статистика, Статистика в IT, Управление медиа, хабр

Привет.

В предыдущей части была проанализирована посещаемость Хабра по основным параметрам — количеству статей, их просмотрам и рейтингам. Однако вопрос популярности разделов сайта остался не рассмотренным. Стало интересно рассмотреть это более подробно, и найти самые популярные и самые непопулярные хабы. Наконец, я рассмотрю «geektimes-эффект» более подробно, и в завершении читатели получат новую подборку лучших статей по новым рейтингам.

Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта - 1

Кому интересно что получилось, продолжение под катом.
Читать полностью »

Визуализация столбца из DataFrame с помощью библиотеки Seaborn

2019-07-13 в 20:13, admin, рубрики: DataFrame, pandas, python, seaborn, визуализация данных, интернет-маркетинг

Попробуем визуализировать данные по рекламным кампаниям, которые храняться в DataFrame.

Дано:

DataFrame, в котором хранится статистика по рекламным кампаниям по следующим показателям:

CampaignName
Date
Impressions
Clicks
Ctr
Cost
AvgCpc
BounceRate
AvgPageviews
ConversionRate
CostPerConversion
Conversions

Визуализация столбца из DataFrame с помощью библиотеки Seaborn - 1

Импортируем все необходимое:

import seaborn as sns
from pandas import Series,DataFrame

Прочитаем наш DataFrame из csv

f=DataFrame.from_csv("cashe.csv",header=0,sep='',index_col=0,parse_dates=True)

Читать полностью »

Обзор Python-пакета Datatable

2019-06-14 в 9:30, admin, рубрики: datatable, pandas, python, анализ данных, Блог компании RUVDS.com, разработка, Разработка веб-сайтов

«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.
Читать полностью »

Автоматически экспортируем Google Forms в Notion с помощью IFTTT и Django

2019-06-11 в 10:47, admin, рубрики: django, Google Sheets, IFTTT, notion, pandas, python, python3, облачные сервисы, Программирование

Всем доброго дня! Думаю, статья будет интересна всем, кто пользуется Notion, но по какой-то причине не мог переехать на него полностью.

Предистория

Я разрабатываю свой проект. На лэндинге после ввода емейла выдается ссылка на соцопрос на базе Google Forms. Ответы записываются в табличечку на Google Drive.

Проблема в том, что все свое я ~~ношу с собой~~ сохраняю в Notion. Это банально удобней. Обходился ручным копипастом, пока отзывов было мало. Потом их стало больше — и надо было что-то придумать. Кому интересно, что вышло — добро пожаловать под кат.
Читать полностью »

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

2019-05-13 в 9:30, admin, рубрики: pandas, pandas-profiling, python, анализ данных, Анализ и проектирование систем, Блог компании RUVDS.com, Программирование, хранение данных

Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.

Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.

Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать полностью »

Как Netflix использует Питон

2019-05-07 в 17:53, admin, рубрики: Bless, bolt, flask, Jupyter Notebooks, Lemur, Metaflow, netflix, numpy, open source, pandas, Prism, python, Repokid, ruptures, scipy, Security Monkey, Spectator, TensorFlow, Winston, высокая производительность, машинное обучение

Как Netflix использует Питон - 1

Поскольку многие из нас готовятся к конференции PyCon, мы хотели немного рассказать, как Python используется в Netflix. Мы применяем Python на всём жизненном цикле: от принятия решения, какие сериалы финансировать, и заканчивая работой CDN для отгрузки видео 148 миллионам пользователей. Мы вносим свой вклад во многие пакеты Python с открытым исходным кодом, некоторые из которых упомянуты ниже. Если что-то вас интересует, посмотрите наш сайт вакансий или ищите нас на PyCon.
Читать полностью »

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра

2019-03-05 в 13:28, admin, рубрики: data science, pandas, pymorphy, python, веб-аналитика, Социальные сети и сообщества, статистика, Статистика в IT, хабр

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.
Читать полностью »

Информация

Комментарии

Рекомендуем