Рубрика «парсинг»

Парсинг сайтов на Python: изучаем BeautifulSoup

2026-01-18 в 11:16, admin, рубрики: beautifulsoup, scraping, парсинг

BeautifulSoup используется для эффективного поиска элементов на html странице.

Установка:

pip install beautifulsoup4, lxml

Для запросов установите библиотеку requests, если она у вас не установлена:

pip install requests

Тренироваться будем на "тренажёре".

Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

from bs4 import BeautifulSoup
import requests

response = requests.get('http://parsingme.ru/beautifulsoup/1.html')
soup = BeautifulSoup(response.text, 'lxml')
print(soup)

Первым параметром мы передаем html-код страницы, а вторым парсер. Помимо lxml (это лучший вариант) парсер может быть:

html.parser - не прощает ошибок в html, зато не требует установки
Читать полностью »

Барьерные токены: Мощное расширение парсеров для работы с отступами языков Python и YAML

2025-09-17 в 19:34, admin, рубрики: библиотека, парсинг, язык программирования

Читать полностью »

Что если представить habr в виде obsidian-графа?

2025-09-16 в 3:25, admin, рубрики: obsidian, obsidian сортировка, obsidian.md, parser, python, python3, дизайн, парсинг

Ночью (а точнее уже утром), я не мог уснуть, из-за навязчивой мысли в голове..

А что если спарсить часть статей с хабра и представить их в виде obsidian графа, будет ли это выглядеть, как красивая база знаний?

Откуда датасет?

Первым делом, я решил найти API хабра, для получения статей. Как я понял, они закрытые..

Мобильное приложение, насколько я знаю, тоже берёт статьи с сайта, без API.

Тогда, я вспомнил свой старый проект, который я начал делать, когда только учился парсингу (там был ужас по коду), скрапер на beautifulsoup4 и requests.

Читать полностью »

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсинг

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать полностью »

Парсинг данных в Python: от простых строк до датасетов

2025-08-24 в 5:26, admin, рубрики: python, python 3, анализ, анализ данных, парсинг, парсинг данных, парсинг контента

Что будем делать

В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл.

Все примеры будут сопровождаться кодом на Python, который вы можете запустить самостоятельно. Для выполнения кода вам понадобится установить необходимые библиотеки: beautifulsoup4 requests pandasЧитать полностью »

Парсинг российских СМИ

2025-07-23 в 6:16, admin, рубрики: beautifulsoup, python, selenium, парсинг, сбор данных

Разбираем на примере Russia Today, Коммерсант и Meduza*

Читать полностью »

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

2025-07-15 в 12:16, admin, рубрики: AI, automation, cli, documents, gpt4all, llm, self-hosted, yaml, парсинг

Отслеживаем новости, документы и тендеры

Rostral.io размышляет над ответом вместо вас

Читать полностью »

ISPA Parser Generator

2025-06-28 в 9:17, admin, рубрики: генерация кода, грамматика, парсинг, Пасер, разбор текста, текст

Что это

Не будем разбирать что такое парсер, но в целом это код, который разбирает ваш текст на структуру из массивов и обьектов (ключ-значение) или на классы с наследованием. Соответственно я создаю программу, которая генерирует такой код автоматически на основе грамматики (что когда в тексте должно встречаться).

Зачем

Хочеться иметь парсер генератор с максимальной гибкостью да бы в большинстве случаях не пришлось писать парсер вручную. Моя цель - сделать инструмент, который автоматизирует эту работу, сохраняя удобство, мощь и скорость разработки

Преимущества

Читать полностью »

Разработка Telegram-бота для мониторинга цен на Авито: пошаговое руководство

2025-05-26 в 10:25, admin, рубрики: asyncio, bot, python, telegram, парсинг

Привет! Сегодня я расскажу о том, как я разработал Telegram-бота для мониторинга цен на Авито. Бот умеет отслеживать изменения цен в объявлениях и уведомлять пользователей об изменениях. В статье я поделюсь всеми этапами разработки, от проектирования до финальной реализации.

Идея создания бота появилась, когда я хотел сделать агента под свои нужды, не буду говорить какие. И дело дошло до автоматизации процесса пользованием авито.

Что умеет бот?

Поиск объявлений по различным параметрам (название, категория, город, ценовой диапазон)
Отслеживание цен в реальном времени
Читать полностью »

Обратная сторона Babel: как микроскопические языки помогают в изучении больших

2025-05-19 в 18:15, admin, рубрики: AST, интерпретатор, компилятор, микроязыки, мини-языки, обучение, парсинг, языковая архитектура

В этой статье рассказывается, как крошечные, экспериментальные языки программирования, размером порой меньше 100 строк, могут неожиданным образом углубить понимание сложных промышленных языков. Будет показано, как микроязыки раскрывают суть концепций, скрытых в слоистых абстракциях Java, Rust или C++. Много примеров, кода и немного лирики.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «парсинг»

Парсинг сайтов на Python: изучаем BeautifulSoup

Барьерные токены: Мощное расширение парсеров для работы с отступами языков Python и YAML

Что если представить habr в виде obsidian-графа?

Откуда датасет?

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Парсинг данных в Python: от простых строк до датасетов

Что будем делать

Парсинг российских СМИ

Разбираем на примере Russia Today, Коммерсант и Meduza*

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

ISPA Parser Generator

Что это

Зачем

Преимущества

Разработка Telegram-бота для мониторинга цен на Авито: пошаговое руководство

Что умеет бот?

Обратная сторона Babel: как микроскопические языки помогают в изучении больших