Рубрика «парсинг контента»

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

2026-05-13 в 10:31, admin, рубрики: база дынных, базы данных, законодательство, защита данных, защита данных пользователей, парсинг, парсинг данных, парсинг контента, парсинг сайта, парсинг сайтов

Читать полностью »

Парсинг данных в Python: от простых строк до датасетов

2025-08-24 в 5:26, admin, рубрики: python, python 3, анализ, анализ данных, парсинг, парсинг данных, парсинг контента

Что будем делать

В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл.

Все примеры будут сопровождаться кодом на Python, который вы можете запустить самостоятельно. Для выполнения кода вам понадобится установить необходимые библиотеки: beautifulsoup4 requests pandasЧитать полностью »

Настройка мониторинга и отслеживания изменений на сайтах

2024-08-15 в 12:29, admin, рубрики: автоматизация, автоматизация действий с сайтами, мониторинг изменений, парсинг контента, парсинг сайтов

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли что, закрыл.

Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить мои задачи:

мониторинг новостей по ключевым словам
проверка организаций в открытых реестрах
мониторинг цен и скидок
отслеживание авиабилетов
мониторинг появления новых объявлений и вакансий, и т.п.

Читать полностью »

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

2023-02-07 в 9:54, admin, рубрики: Блог компании offlineCRM: Бесплатная CRM для самозанятых, веб-аналитика, интернет-маркетинг, контент-маркетинг, парсеры, парсинг, парсинг html, парсинг json, парсинг контента, парсинг сайта, парсинг сайтов, Управление e-commerce

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье.

Я ранее рассказывал про наш опыт развития бизнеса на парсинге сайтов в двух статьях (часть 1 и часть 2 Читать полностью »

20 млн рублей в год на парсинге сайтов

2022-09-07 в 8:12, admin, рубрики: веб-аналитика, интернет-маркетинг, контент-маркетинг, парсинг, парсинг html, парсинг json, парсинг контента, парсинг сайта, Управление e-commerce

Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 43) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы.

1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные. В 2022 году надеемся, что результат будет чуть лучше.

Читать полностью »

Как я заработал 30$ на ставках на спорт

2020-07-17 в 13:33, admin, рубрики: python, букмекерские конторы, парсинг контента, Программирование

Привет! В этой статье я расскажу как я заработал на ставках на спорт, используя Python и базовую математику. Кому интересно, добро пожаловать под кат!

Читать полностью »

Весь Хабр в одной базе

2020-03-03 в 9:07, admin, рубрики: api, python, Администрирование баз данных, базы данных, парсинг, парсинг контента, Программирование, хабрахабр, хранилища данных

Добрый день. Прошло уже 2 года с момента написания последней статьи про парсинг Хабра, и некоторые моменты изменились.

Когда я захотел иметь у себя копию хабра, я решил написать парсер, который бы сохранил весь контент авторов в базу данных. Как это вышло и с какими ошибками я встретился — можете прочитать под катом.

Читать полностью »

Парсинг сайтов — а это вообще легально в России?

2019-05-07 в 11:51, admin, рубрики: Законодательство в IT, интернет-маркетинг, контент-маркетинг, парсинг, парсинг контента, парсинг сайтов, Управление e-commerce

По одному из определений парсинг есть синтаксический анализ информации. Человеку, не вовлечённому в конкретные задачи сбора и обработки информации для Интернет-проектов, это не говорит ни о чём. Да и само определение лишь в общих чертах обозначает огромный объём работы, которую ежеминутно совершают сотни миллионов людей и десятки миллионов роботов (хоть и виртуальных, но от этого ничуть не менее настоящих) по всему миру. А ведь эта задачка обычное для человека дело — что в сравнении цен на билеты онлайн, что в выборе подходящей электроники на сайтах магазинов… Следя за ценами и акциями в удобном мобильном приложении ближайшего к дому гипермаркета, никто из нас и не подумает окрестить себя парсером.

Читать полностью »

Правда про парсинг сайтов, или «все интернет-магазины делают это»

2019-04-03 в 12:21, admin, рубрики: веб-аналитика, интернет-маркетинг, контент-маркетинг, парсинг контента, парсинг сайта, парсинг сайтов, Управление e-commerce

В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).
Читать полностью »

Хабраутилита для сбора хабрастатистики в хабраблогах

2018-12-25 в 7:49, admin, рубрики: java, open source, opensource, открытый исходный код, парсинг контента, Статистика в IT, унылое отсутствие API, хабрахабр, Хабрахабр API

Новый год — время подводить итоги. И если вы ведёте блог на хабре, или вам интересно посмотреть статистику по чьему-нибудь чужому блогу — то вам может пригодиться моя опенсорсная утилитка.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «парсинг контента»

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Парсинг данных в Python: от простых строк до датасетов

Что будем делать

Настройка мониторинга и отслеживания изменений на сайтах

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

20 млн рублей в год на парсинге сайтов

Как я заработал 30$ на ставках на спорт

Весь Хабр в одной базе

Парсинг сайтов — а это вообще легально в России?

Правда про парсинг сайтов, или «все интернет-магазины делают это»

Хабраутилита для сбора хабрастатистики в хабраблогах