Рубрика «парсинг сайтов»

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

2026-05-13 в 10:31, admin, рубрики: база дынных, базы данных, законодательство, защита данных, защита данных пользователей, парсинг, парсинг данных, парсинг контента, парсинг сайта, парсинг сайтов

Читать полностью »

Парсинг Амазона на easy без мам, пап и ипотек

2024-08-27 в 17:15, admin, рубрики: python, парсер цен конкурентов, парсинг, парсинг сайтов

Попался мне на глаза на просторах интернета скрипт, который позволяет парсить карточки товаров с Амазона. А мне как раз было необходимо решение подобной задачи.

Читать полностью »

Настройка мониторинга и отслеживания изменений на сайтах

2024-08-15 в 12:29, admin, рубрики: автоматизация, автоматизация действий с сайтами, мониторинг изменений, парсинг контента, парсинг сайтов

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли что, закрыл.

Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить мои задачи:

мониторинг новостей по ключевым словам
проверка организаций в открытых реестрах
мониторинг цен и скидок
отслеживание авиабилетов
мониторинг появления новых объявлений и вакансий, и т.п.

Читать полностью »

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

2023-02-07 в 9:54, admin, рубрики: Блог компании offlineCRM: Бесплатная CRM для самозанятых, веб-аналитика, интернет-маркетинг, контент-маркетинг, парсеры, парсинг, парсинг html, парсинг json, парсинг контента, парсинг сайта, парсинг сайтов, Управление e-commerce

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье.

Я ранее рассказывал про наш опыт развития бизнеса на парсинге сайтов в двух статьях (часть 1 и часть 2 Читать полностью »

Большой туториал по обработке спортивных данных на python

2020-05-02 в 20:42, admin, рубрики: pandas, python, анализ данных, векторизация, визуализация данных, Восстановление данных, парсинг сайтов, скраппинг, спорт, статистика

Большой туториал по обработке спортивных данных на python - 1

Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать полностью »

Парсинг сайтов — а это вообще легально в России?

2019-05-07 в 11:51, admin, рубрики: Законодательство в IT, интернет-маркетинг, контент-маркетинг, парсинг, парсинг контента, парсинг сайтов, Управление e-commerce

По одному из определений парсинг есть синтаксический анализ информации. Человеку, не вовлечённому в конкретные задачи сбора и обработки информации для Интернет-проектов, это не говорит ни о чём. Да и само определение лишь в общих чертах обозначает огромный объём работы, которую ежеминутно совершают сотни миллионов людей и десятки миллионов роботов (хоть и виртуальных, но от этого ничуть не менее настоящих) по всему миру. А ведь эта задачка обычное для человека дело — что в сравнении цен на билеты онлайн, что в выборе подходящей электроники на сайтах магазинов… Следя за ценами и акциями в удобном мобильном приложении ближайшего к дому гипермаркета, никто из нас и не подумает окрестить себя парсером.

Читать полностью »

Правда про парсинг сайтов, или «все интернет-магазины делают это»

2019-04-03 в 12:21, admin, рубрики: веб-аналитика, интернет-маркетинг, контент-маркетинг, парсинг контента, парсинг сайта, парсинг сайтов, Управление e-commerce

В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).
Читать полностью »

[] Граббер 2GIS в семь строчек кода, или почему важно контролировать лимиты запросов на сервер

2019-01-16 в 16:21, admin, рубрики: 2GIS, python, python3, requests, данные, ДубльГИС, парсинг сайтов, поисковые технологии, свободный доступ

Наверное любому из тех, кто хоть как-то причастен к области анализа данных хотя-бы раз приходилось сталкиваться с поиском сторонних источников получения этих самых данных. Сегодня я хотел бы поделиться с Вами одним из самых неожиданных для меня мест, где эти данные лежат почти что на поверхности, да еще и в огромных количествах. Знакомьтесь — это 2GIS.

Читать полностью »

Как я парсил Хабр, часть 1: тренды

2018-01-08 в 12:54, admin, рубрики: python, веб-аналитика, Исследования и прогнозы в IT, парсинг сайтов, тренды, хабрахабр

Когда был доеден новогодний оливье, мне стало нечего делать, и я решил скачать себе на компьютер все статьи с Хабрахабра (и смежных платформ) и поисследовать.

Получилось несколько интересных сюжетов. Первый из них — это развитие формата и тематики статей за 12 лет существования сайта. Например, достаточно показательна динамика некоторых тем. Продолжение — под катом.

Как я парсил Хабр, часть 1: тренды - 1 Читать полностью »

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)?

2017-10-17 в 11:04, admin, рубрики: веб-аналитика, интернет-маркетинг, мониторинг цен, парсинг, парсинг контента, парсинг сайтов, поисковая оптимизация

Попробуем рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Внимание! Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией. Статья является продолжением публикации "10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России"

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов добычи контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны. Парсинг – это процесс, посредством которого автоматизированная часть программного обеспечения извлекает данные веб-сайта, «прочесывая» многочисленные страницы. Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «парсинг сайтов»

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Парсинг Амазона на easy без мам, пап и ипотек

Настройка мониторинга и отслеживания изменений на сайтах

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

Большой туториал по обработке спортивных данных на python

Парсинг сайтов — а это вообще легально в России?

Правда про парсинг сайтов, или «все интернет-магазины делают это»

[] Граббер 2GIS в семь строчек кода, или почему важно контролировать лимиты запросов на сервер

Как я парсил Хабр, часть 1: тренды

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)?