Рубрика «парсинг»
Что если представить habr в виде obsidian-графа?
2025-09-16 в 3:25, admin, рубрики: obsidian, obsidian сортировка, obsidian.md, parser, python, python3, дизайн, парсингНочью (а точнее уже утром), я не мог уснуть, из-за навязчивой мысли в голове..
А что если спарсить часть статей с хабра и представить их в виде obsidian графа, будет ли это выглядеть, как красивая база знаний?
Откуда датасет?
Первым делом, я решил найти API хабра, для получения статей. Как я понял, они закрытые..
Мобильное приложение, насколько я знаю, тоже берёт статьи с сайта, без API.
Тогда, я вспомнил свой старый проект, который я начал делать, когда только учился парсингу (там был ужас по коду), скрапер на beautifulsoup4 и requests.
Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк
2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсингНа imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.
Парсинг данных в Python: от простых строк до датасетов
2025-08-24 в 5:26, admin, рубрики: python, python 3, анализ, анализ данных, парсинг, парсинг данных, парсинг контентаЧто будем делать
В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл.
Все примеры будут сопровождаться кодом на Python, который вы можете запустить самостоятельно. Для выполнения кода вам понадобится установить необходимые библиотеки: beautifulsoup4 requests pandasЧитать полностью »
Парсинг российских СМИ
2025-07-23 в 6:16, admin, рубрики: beautifulsoup, python, selenium, парсинг, сбор данныхЗапускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT
2025-07-15 в 12:16, admin, рубрики: AI, automation, cli, documents, gpt4all, llm, self-hosted, yaml, парсингОтслеживаем новости, документы и тендеры
ISPA Parser Generator
2025-06-28 в 9:17, admin, рубрики: генерация кода, грамматика, парсинг, Пасер, разбор текста, текстЧто это
Не будем разбирать что такое парсер, но в целом это код, который разбирает ваш текст на структуру из массивов и обьектов (ключ-значение) или на классы с наследованием. Соответственно я создаю программу, которая генерирует такой код автоматически на основе грамматики (что когда в тексте должно встречаться).
Зачем
Хочеться иметь парсер генератор с максимальной гибкостью да бы в большинстве случаях не пришлось писать парсер вручную. Моя цель - сделать инструмент, который автоматизирует эту работу, сохраняя удобство, мощь и скорость разработки
Преимущества
Разработка Telegram-бота для мониторинга цен на Авито: пошаговое руководство
2025-05-26 в 10:25, admin, рубрики: asyncio, bot, python, telegram, парсингПривет! Сегодня я расскажу о том, как я разработал Telegram-бота для мониторинга цен на Авито. Бот умеет отслеживать изменения цен в объявлениях и уведомлять пользователей об изменениях. В статье я поделюсь всеми этапами разработки, от проектирования до финальной реализации.
Идея создания бота появилась, когда я хотел сделать агента под свои нужды, не буду говорить какие. И дело дошло до автоматизации процесса пользованием авито.
Что умеет бот?
-
Поиск объявлений по различным параметрам (название, категория, город, ценовой диапазон)
-
Отслеживание цен в реальном времени
Обратная сторона Babel: как микроскопические языки помогают в изучении больших
2025-05-19 в 18:15, admin, рубрики: AST, интерпретатор, компилятор, микроязыки, мини-языки, обучение, парсинг, языковая архитектураВ этой статье рассказывается, как крошечные, экспериментальные языки программирования, размером порой меньше 100 строк, могут неожиданным образом углубить понимание сложных промышленных языков. Будет показано, как микроязыки раскрывают суть концепций, скрытых в слоистых абстракциях Java, Rust или C++. Много примеров, кода и немного лирики.
DSL для интерактивных рассказов: как я написал язык, чтобы придумывать истории, а не кодить
2025-05-08 в 5:39, admin, рубрики: dsl, python, генерация кода, интерактивный рассказ, интерпретатор, парсингМногие разработчики мечтают о проектах, в которых можно совместить любовь к программированию и нарративу. В этой статье рассказывается о создании собственного DSL (domain-specific language) для интерактивных историй — от формализации сценарных структур до реализации интерпретатора на Python. Много кода, много боли, немного магии.


