Рубрика «парсинг» - 7

Тестирование или парсинг сайтов с динамическим дом и многое другое. Nightmare.js — ему все равно

2017-06-27 в 11:21, admin, рубрики: javascript, javascript library, nightmare.js, scraping, site test, парсинг

Эта статья не будет содержать много лирики, марали или вводных зачем и кому это может быть надо.

В двух словах:

1. Пакет можно использовать для тестирования сайтов.
2. Пакет можно использовать для парсинга данных.
3. Пакет можно использовать для автоматизации ввода данных на сайты.

Альтернативы:

Casper.js, phantom.js, watir и много кто еще, в гугле полно всех и вся. Почему я за nightmare.js:

Простота использования.
Полная поддержка html5, никаких конфликтов с сайтами.
Расширяемый через экшены.

Структура библиотеки

Nightmare класс использует фреймворк electron, для каждой страницы создавая объект (BrowserWindow) который запускает браузер оболочку Chromium.

Принцип работы

Nightmare инициализирует новое приложение electron с стартовой страницей, которую необходимо подвергнуть дальнейшей обработке.
Перед загрузкой исследуемой страницы загружаются скрипты, которые позволяют поддерживать двустороннее взаимодействие программиста и страницы через серию эмиттеров.
Nightmare предоставляет программисту набор апи (цепочки действий), позволяющие произвести любые манипуляции с сайтом и получить требуемые данные.

Читать полностью »

Быстрая настройка Google Adwords за неделю, или долгая за 3-4 месяца?

2017-05-29 в 10:02, admin, рубрики: Google Adwords, key collector, контекст, контекстная реклама, настройка, парсинг, сем ядро, Семантика, семантическое ядро

Быстрая настройка контекстной рекламы далеко не всегда дает хуже результат, чем долгий кропотливый парсинг и чистка запросов в ручном формате. Однажды пришел клиент, ниша — строительство деревянных домов на настройку контекстной рекламы. Сайта у него не было, планировался не скоро, поэтому решили постараться и сделать «как себе».

Быстрая настройка Google Adwords за неделю, или долгая за 3-4 месяца? - 1

Читать полностью »

Анализ рекомендаций книг для разработчиков со Stack Overflow средствами Python

2017-03-09 в 11:47, admin, рубрики: python, stack overflow, Блог компании Everyday Tools, книги для разработчиков, парсинг, парсинг контента, разработка сайтов

Определиться, какую книгу по программированию читать следующей, трудно, да и рискованно.

Как и положено разработчику, наверняка, у вас мало времени, и львиную его долю вы тратите на чтение книг. Вы могли бы программировать. Вы могли бы отдыхать. Но вместо этого вы выделяете драгоценное время на развитие своих навыков.

Анализ рекомендаций книг для разработчиков со Stack Overflow средствами Python - 1

Итак, какую книгу вам стоит прочитать? Мы с коллегами часто обсуждаем прочитанную литературу, и я заметил, что наши мнения по конкретным книгам сильно отличаются.

Поэтому я решил углубиться в проблему. Моя идея была такова: проанализировать самый популярный в мире ресурс для программистов на предмет ссылок на известный книжный магазин, а затем подсчитать, сколько раз упоминается каждая из книг.
Читать полностью »

Реализация на Python многопоточной обработки данных для парсинга сайтов

2017-03-05 в 11:50, admin, рубрики: python, многопоточность, парсинг

Процесс парсинга усложняется существенными затратами времени на обработку данных. Многопоточность поможет в разы увеличить скорость обработки данных. Сайт для парсинга — «Справочник купюр мира», где получим валюту в соотношении к иным.
Читать полностью »

Скачивание аудио с сайта mail.ru

2017-02-24 в 9:03, admin, рубрики: python, парсинг

Python — язык программирования, предназначенный для работы с текстом. Однако, с его помощью можно решать иные задачи, которые, на первый взгляд, с самим текстом никак не связаны.

Скачивание аудио с сайта mail.ru - 1

Задача, которая перед нами стоит — скачивание музыкальных произведений с сайта предоставляющего такую возможность.
Читать полностью »

Анализ статей Хабрахабр и Geektimes

2017-02-05 в 19:18, admin, рубрики: wolfram language, wolfram mathematica, Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр

Анализ статей Хабрахабр и Geektimes - 1

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.
Читать полностью »

Классические парсер-комбинаторы на Python

2016-12-10 в 9:04, admin, рубрики: python, для начинающих, парсер-комбинаторы, парсинг

Парсером называется часть программы, которая из линейной последовательности простых данных строит более сложные структуры данных с учетом некоторой грамматики.

Функциональные языки программирования позволяют описывать функции высших порядков, которые принимают в качестве аргументов и возвращают как результат другие функции.

Парсер-комбинаторы – известная техника создания парсеров, которая использует возможности функциональных языков программирования для динамического построения более сложных парсеров из простых по правилам некоторой грамматики.
Читать полностью »

Парсинг резюме

2016-10-12 в 2:29, admin, рубрики: nlp, анализ текстов, машинное обучение, парсинг, парсинг резюме, поисковые технологии, Семантика

Те кто сталкивался с задачами автоматизированного анализа резюме, представляют современное состояние дел в этой области — существующие парсеры в основном ограничиваются выделением контактных данных и ещё нескольких полей, таких как «должность» и «город».

Для сколько-нибудь осмысленного анализа этого мало. Важно не только выделить некие строки и пометить их тегами, но и определить, что за объекты кроются за ними.

Живой пример (кусок XML результата анализа резюме от одного из лидеров области Sovren):

    <EmployerOrg>
        <EmployerOrgName>ООО Звезда-DSME</EmployerOrgName>
        <PositionHistory positionType="directHire">
            <Title>Ведущий специалист отдела развития информационных систем</Title>
            <OrgName>
                <OrganizationName>ООО Звезда-DSME</OrganizationName>
             </OrgName>

Парсер Sovren прекрасно справился с выделением полей. Ребята не зря занимаются этим делом без малого 20 лет!

Но что дальше делать с «Ведущий специалист отдела развития информационных систем»? Как понять, что же это за должность, насколько опыт работы этого человека релевантен для той или иной вакансии?
Читать полностью »

Scrapy: собираем данные и сохраняем в базу данных

2016-08-28 в 7:54, admin, рубрики: python, scrapy, sqlalchemy, sqlite, парсинг, метки: Scrapy

Введение

Меня заинтересовал данный фреймворк для сбора информации с сайтов. Здесь были публикации по Scrapy, но поскольку детальной информации на русском языке мало, то я хотел бы рассказать о своем опыте.
Читать полностью »

Как распарсить JSON-строку в командной строке Linux

2016-07-10 в 19:25, admin, рубрики: cli, command line, console, data mining, javascript, jq, json, linux, nix, parse, parser, string, tool, utility, инструмент, командная строка, консоль, парсинг, разбор, Разработка под Linux, Тестирование веб-сервисов, утилита, метки: jq

Как распарсить JSON-строку в командной строке Linux - 1
Если вы часто работаете с текстами формата JSON из командной строки или в шелл-скриптах, вы можете задаться вопросом, есть ли какая-то консольная утилита, которая может распарсить JSON-строку. Консольный JSON-парсер может быть удобен, когда вы тестируете или отлаживаете сетевые JSON-сервисы. Вы можете скормить ответы формата JSON от веб-сервиса консольному JSON-парсеру, тем самым легко изучая трудночитаемые JSON-ответы или извлекая из них отдельные объекты.

В этом руководстве я покажу, как распарсить JSON-строку из командной строки.
Читать полностью »

Информация

Комментарии

Рекомендуем