Рубрика «скрапинг»

Что такое Puppeteer и как его использовать для веб-скрапинга | Полное руководство 2024

2024-11-16 в 9:16, admin, рубрики: captcha, captcha защита, puppet, Puppeteer, python, веб-скрапинг, скрапинг

Читать полностью »

Парсинг котировок ценных бумаг в Microsoft Excel и Google Таблицы с любого сайта

2024-10-21 в 0:32, admin, рубрики: Банк России, Мосбиржа, Московская Биржа, парсинг, скрапинг

Бывает, что частные инвесторы не доверяют сервисам для ведения портфеля ценных бумаг и ведут учет своих инвестиций в «Экселе» или «Гугл Таблицах».

Если количество ценных бумаг не так велико, то подобное использование таблиц оправдано:

не требуется платить кому-либо за хранение данных;
никто не удалит ваш файл, например, за неактивность;
отчеты можно сделать такие, как вам нравится.

Читать полностью »

Взлом YouTube для быстрого скачивания видео

2023-11-06 в 9:00, admin, рубрики: drm, ruvds_статьи, YouTube, yt-dl, yt-dlp, ytdl-sub, альтернативные клиенты, скачивание файлов, скрапинг

Мы неоднократно рассказывали о специальном софте, который позволяет скачивать видео с YouTube. Это в первую очередь youtube-dl (yt-dl) и его клоны, такие как yt-dlp и yt-dlc. С ними воюют могучие копирасты, пытаются удалить их из поисковой выдачи, с хостингов, с Github и так далее, по известной схеме «тотальная война».

Но главным врагом для этих программ остаются даже не правообладатели, а злобная корпорация Google, которая постоянно вносит изменения в YouTube API, чтобы ~~прекратить злоупотребления сервисом~~ помешать людям скачивать файлы, ведь от этого Google никакой прибыли.

Сами программки — просто технические инструменты для скачивания общедоступного контента, они ничего не воруют и не пиратят. Просто доступ происходит нестандартным способом, который не предусмотрен официально. Посмотрим, как это делается.
Читать полностью »

Возвращаем RSS к жизни

2022-03-18 в 7:28, admin, рубрики: ActivityPub, ActivityStreams, atom, Bloglines, Feedly, google reader, INFOLUST, IT-стандарты, rich-RSS, rss, RSS Proxy, RSS-Bridge, RSSAid, RSSBud, RSSHub, RSSHub-Radar, Telegram RSS, Блог компании ITSumma, генератор фидов, скрапинг, Софт, Социальные сети и сообщества, экспорт RSS

RSS-агрегатор NetNewsWire

Мы уже обсуждали, насколько важен и удобен RSS для профессиональной работы с источниками в интернете. Это единственный способ собрать огромный массив данных с тысяч сайтов, соцсетей, блогов, твиттер-аккаунтов, торрент-трекеров и др.

Вся информация накапливается в личном агрегаторе, доступна в удобное время, в том числе офлайн. Никогда ничего не теряется. Это особенно актуально сейчас, в условиях информационной блокады, периодических отключений интернета и угрозы полного шатдауна.
Читать полностью »

DIY-фермы из смартфонов Android снова в строю

2021-11-25 в 16:38, admin, рубрики: 4G прокси, 4G-донглы, Android Studio Emulator, bluestacks, Brightdata, Browserstack, IPv4, LTE, Oxylabs, Packetstream, Proxidize, Sauce Labs, Smartphone Test Farm, virtualbox, Zebrunner, автоматизация браузера, Блог компании М.Видео-Эльдорадо, гаджеты, информационная безопасность, Ростелеком, сканирование портов, скрапинг, смартфоны, сотовая связь

Многие задают вопрос, как использовать старые смартфоны. В самом деле, не выбрасывать же на свалку устройство с двумя-четырьмя CPU, гигабайтами оперативки, рабочими чипами NAND, модемом 4G и другой полезной электроникой. И действительно, старые гаджеты вполне могут ещё поработать и принести пользу. Например, на домашней ферме для автоматического тестирования приложений, скрапинга публично доступной информации и др.Читать полностью »

Не защищайте сайт от скрапинга: сопротивление бесполезно

2018-04-12 в 9:29, admin, рубрики: GO2CINEMA, mastercard, recaptcha, vpn, анонимайзеры, блокировка по IP, капча, одноразовая банковская карта, одноразовый email, одноразовый сотовый номер, платежные системы, разработка бота, Разработка веб-сайтов, скрапинг, технологическая война, Управление продуктом, финансы в IT, юзер-агент

За последнее десятилетие я реализовал много проектов, связанных с агрегацией и анализом контента. Часто агрегация включает в себя снятие данных со сторонних сайтов, то есть скрапинг. Хотя я стараюсь избегать этого термина. Он превратился в некий ярлык, с которым связано много заблуждений. Основное заблуждение в том, что веб-скрапинг можно заблокировать с помощью X, Y, Z.

tl; dr; Нельзя.

С точки зрения бизнеса

На прошлой неделе я встретился с высокопоставленным руководителем из отрасли, в которой развиваю свой бизнес GO2CINEMA. Без сомнения, это один из самых умных и знающих людей в киноиндустрии.

Бизнес-модель GO2CINEMA основана на агрегировании из разных источников информации о расписании сеансов, свободных местах и стоимости билетов, а также выполнении запросов на покупку билетов на этих веб-сайтах от имени пользователя.

Я посоветовался с этим человеком насчёт поиска инвестиций. Он предложил свою помощь и попросил подготовить анализ всех способов блокировки моего текущего бизнеса, включая скрапинг контента (с технической и юридической точек зрения). Я подготовил необходимые документы и поделился с ним перед нашей встречей. Его реакция была примерно такой:

Да, тщательное исследование. Но всё-таки есть способы, чтобы тебя заблокировать. *ухмыляется*

Нет, парень, нет таких способов.
Читать полностью »

Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта

2017-03-27 в 13:49, admin, рубрики: BeautifulSoup4, data mining, Facebook, Joblib, open source, pickle, python, StopClickBaits, глубинное обучение, кликбейт, машинное обучение, нейросеть, скрапинг

Облако слов для кликбейта

TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.

Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.

В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.
Читать полностью »

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

2017-03-04 в 11:04, admin, рубрики: .net, C#, web scraping, извлечение данных, Программирование, разработка, скрапинг, метки: извлечение данных, скрапинг

Иногда возникает необходимость получить данные c веб-страниц и сохранить их в структурированном виде.

Инструменты веб-скрапинга (web scraping) разрабатываются для извлечения данных с веб-сайтов. Эти инструменты бывают полезны тем, кто пытается получить данные из Интернета. Веб-скрапинг — это технология, позволяющая получать данные без необходимости открывать множество страниц и заниматься копипастом. Эти инструменты позволяют вручную или автоматически извлекать новые или обновленные данные и сохранять их для последующего использования. Например, с помощью инструментов веб-скрапинга можно извлекать информацию о товарах и ценах из интернет-магазинов.
Читать полностью »

Скрапинг бесконечно прокручивающейся страницы

2016-10-16 в 19:15, admin, рубрики: python, scrapy, Программирование, скрапинг

Скрапинг бесконечно прокручивающейся страницы

Добро пожаловать в советы по Scrapy от профессионалов! В этом месяце мы поделимся несколькими уловками, чтобы помочь ускорить вашу работу связанную с веб-скрапингом. Как ведущие мэйнтейнеры Scrapy мы сталкиваемся с каждыми препятствием, которое вы можете себе представить. Так что не волнуйтесь — вы в надёжных руках. Не стесняйтесь контактировать с нами в твиттере или фейсбуке с любыми предложениями для будущих статей.

Скрапинг бесконечно прокручивающейся страницы - 1

В эру одностраничных приложений и тонн AJAX-запросов на одной странице множество веб-сайтов заменили кнопку навигации "вперёд/назад" на причудливый механизм бесконечной прокрутки страницы. Веб-сайты использующие этот механизм загружают новую сущность каждый раз, когда пользователь достигает конца страницы при вертикальной прокрутке(вспомните Twitter, Facebook, Google Images). Даже несмотря на то, что UX-эксперты утверждают что механизм бесконечной прокрутки предоставляет чрезмерное количество данных для пользователей, мы видим увеличивающееся количество веб-страниц прибегающих к предоставлению бесконечного списка результатов.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «скрапинг»

Что такое Puppeteer и как его использовать для веб-скрапинга | Полное руководство 2024

Парсинг котировок ценных бумаг в Microsoft Excel и Google Таблицы с любого сайта

Взлом YouTube для быстрого скачивания видео

Возвращаем RSS к жизни

DIY-фермы из смартфонов Android снова в строю

Не защищайте сайт от скрапинга: сопротивление бесполезно

С точки зрения бизнеса

Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Скрапинг бесконечно прокручивающейся страницы

Скрапинг бесконечно прокручивающейся страницы