Рубрика «pandas»
Автоматизация сбора и анализа вакансий с сайта Хэдхантер
2025-06-23 в 10:15, admin, рубрики: api, data science, headhunter, matplotlib, pandas, pythonДля чего ИТ менеджеру уметь программировать. И главное — зачем
2025-05-12 в 13:16, admin, рубрики: agile, pandas, python, автоматизация, приемка, разработка, требования заказчика, трекер, управление командой, управление проектамиПривет!
Решил свою первую статью на портале сделать легкой, без залезания в дебри и диспуты. Пусть будет своего рода научпоп от менеджмента в ИТ.
Немного предыстории: где-то около года назад мы с коллегами были на загородном выезде для манагеров. В программе было обучение и брейнстормы, в перерывах и вечером - активный движ и застолья.
И вот как-то раз, после дневных учебно-мозгоштурмовых сессий народ разбредался по активностям, а я сел в лобби, достал ноут. Сижу. Подходит коллега:
— Что делаешь? Ботаешь?
— Нет, учусь.
— Что учишь?
— ООП
— А зачем?
Рассмотрим потребление оперативной памяти (RAM) при загрузке pandas DataFrame из базы данных (БД).
Для этого воспользуемся мониторингом ресурсов на базе библиотеки psutil. Мониторинг фиксирует pss («Proportional Set Size») память, т. е. физически занимаемую процессом.
Используем небольшую таблицу синтетических транзакций:

Как мы искали должников при помощи Pandas
2025-03-17 в 18:12, admin, рубрики: pandas, sql, города, Петербург, Питон, урбанистикаПетербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.
Я занимаюсь анализом данных и дата-журналистикой в газете "Деловой Петербург". Расскажу о том, как объединяли информацию из множества локальных html-таблиц и приведу примеры кода на "Питоне".
Python для начинающих дата-аналитиков: как настроить виртуальное окружение?
2025-03-10 в 15:16, admin, рубрики: data analysis, jupyter notebook, pandas, pip, python, UV, venvВведение
Привет! Меня зовут Женя и я работаю аналитиком данных. В этой статье я бы хотел рассказать начинающим аналитикам о том, как правильно настроить окружение для работы с Python. Когда я только начинал заниматься анализом данных, концепция питоновского виртуального окружения вводила меня в ступор, и здесь я постараюсь показать, что в ней нет ничего сложного.
Для этого мы:
-
Установим Python
-
Создадим и активируем виртуальное окружение при помощи базовых инструментов
pip
иvenv
-
В качестве примера установим библиотеки
notebook
иpandas
Создаём свой реестр данных на основе ФГИС «Аршин». Часть 1 — добавляем данные в PostgreSQL и сокращаем размер БД
2024-10-19 в 8:15, admin, рубрики: pandas, postgresql, sqlalchemy, АРШИН, обработка данных, реестр данныхВсем привет. Этот практический цикл статей рассчитан на начинающих. Я решил поделиться своим опытом создания реестра данных на основе государственного. Данные будут храниться в базе данных PostgreSQL, доступ к ним будет осуществляться через Fast API. В текущей статье займёмся загрузкой данных в базу и уменьшением её размеров.
Введение
Нам предстоит работать с данными о результатах поверки средств измерений, которые будем загружать из раздела сайта «Результаты поверок СИЧитать полностью »
Как простые NLP модели видят слова? | NLP | Пишем свой TF-IDF
2024-08-17 в 12:15, admin, рубрики: AI, deeplearning, jupyter notebook, machinelearning, math, nlp, numpy, pandas, python, tfidfvectorizerКак модели видят наш текст?
Когда начинаешь погружаться в сферу NLP, сразу задумываешься, как модели представляют себе наш текст/наши слова? Ведь не логично бы звучало, если модель обрабатывала наши слова, как обычную последовательность букв. Это было бы не удобно и не понятно(как проводить операции со словами?).
Есть разные методы преобразования слов. Один из самых известных для не самых сложных моделей: TF-IDF.
Как работает TF-IDF?
TF-IDF(Term Frequency-Inverse Document Frequency) — это метод, который преобразует слова в числовые векторы, что делает их более понятными для моделей машинного обучения.
Интегрируем pandas с электронными таблицами: три способа
2024-08-17 в 11:15, admin, рубрики: csv, Excel, google spreadsheets, pandas, pandas dataframe, python, биоинформатикаОткрываем и сохраняем файлы Excel в pandas
Pandas идеально подходит для работы с табличными данными – он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить датафрейм тоже можно в файл Excel. Это делает удобной интеграцию pandas с офисным пакетом: результаты можно сразу красиво оформить для выступления на конференции или передачи коллегам, которые занимаются только “мокрой” биологией и не работают с инструментами data science.
Давайте посмотрим, как это делается. Если мы импортировали pandas под именем pd:
import pandas as pd
то считать фрейм данных из файла Excel можно следующим образом:Читать полностью »
Простые инструменты для пайплайнов: sqlite, pandas, gnuplot и другие
2023-09-16 в 8:59, admin, рубрики: bash, curl, Gnuplot, pandas, python3, sqlite3Почему мой любимый API — это zip-файл на сайте Европейского центрального банка?
Когда доллар был самым высоким по отношению к евро?
Вот небольшая программа, которая это вычисляет:
curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip
| gunzip
| sqlite3 -csv ':memory:' '.import /dev/stdin stdin'
"select Date from stdin order by USD asc limit 1;"
Вывод: 26.10.2000. (Попробуйте запустить его самостоятельно.)
Как это работает:
сurl
загружает официальные исторические данные, которые публикует Европейский центральный банкЧитать полностью »