Рубрика «grab»

Рейтинг постов хаба

2013-12-03 в 18:35, admin, рубрики: grab, python, spider, sqlite3, Хабрахабр API, метки: grab, python, spider, sqlite3

Рейтинг постов хаба
Привет!

Решил посмотреть лучшие посты своего любимого хаба и с ужасом обнаружил, что такой фичи нет.
Когда это нас останавливало!

Прошу под кат всех желающих посмотреть на самые рейтинговые посты для каждого хаба + пару слов о реализации скрипта.

Читать полностью »

Парсим список ваканский средствами Python

2013-01-21 в 21:52, admin, рубрики: grab, python, python3, script, метки: grab, python, python3, script

На Хабре уже была заметка, как вытащить и распарсить список вакансий с hh.ru.

Однако там использовался C# — язык сложных предложений с хитрыми интерфейсами. Что же касается обработки больших «простыней» однотипных данных, то для мелких задач в этой области испокон веку применяют скриптовые языки.

Вот и написался небольшой скрипт на python, который утаскивает с hh.ru список вакансий по некоторому запросу (пишется в переменную searchParam) и выводит их в формате CSV. Можно выводить на экран и удивляться, можно перенаправить в output.csv и открыть в каком-нибудь табличном редакторе.
Читать полностью »

SPARQL запросы к содержимому HTML страниц

2012-07-11 в 8:50, admin, рубрики: grab, python, semantic web, sparql, Семантическая Сеть, метки: grab, python, semantic web, sparql

Здравствуйте.
После посещения одной конференции у меня появилась идея, воплощение которой я и представляю.
Данный пост предоставляет пример работы с библиотеками grab и rdflib, а также готовый класс для выполнения SPARQL запросов к содержимому web-страниц.
Читать полностью »

Что такое Grab:Spider?

2012-04-18 в 3:30, admin, рубрики: grab, grablab, python, spider, парсинг сайтов, метки: grab, grablab, spider, парсинг сайтов

Никак не могу дописать документацию по Grab:Spider — это часть библиотеки Grab — для написания асинхронных пауков. Подумал выкладывать куски документации на хабрахабр. Думаю, с некоторым фидбэком дело быстрей пойдёт. На данный момент в документации есть лишь введение, описывающие в общих чертах, что за это за зверь такой Grab:Spider. Его и выкладываю.Читать полностью »

Использование Grab:Spider для парсинга сайтов

2012-04-17 в 6:07, admin, рубрики: grab, grablab, python, парсинг сайтов, метки: grab, grablab, парсинг сайтов

Всем привет!

Я активный пользователь open-source фрэймворка Grab (itforge уже писал о нем здесь и здесь) и 1/2 проекта GrabLab (который занимается собственно коммерческой эксплуатацией фрэймворка). Т.к. парсим сайты мы часто, помногу и задания как правило совершенно не похожи друг на друга, хотелось бы поделится своим опытом в вопросе построения типичного парсинг проекта.

Немного про инструментарий который помогает мне в работе

В качестве рабочего браузера я использую FireFox с плагинами HttpFox (анализировать входящий/исходящий http трафик), XPather (позволяет проверять xpath выражения), SQLite Manager (просмотр sqlite таблиц), код набираю в emacs, где активно использую сниппеты (YASnippets) для часто встречающихся конструкций.

Из-за специфики фрэймворка, как правило, на первом этапе сайт полностью (или если данных много — то частично, для удобства последующей разработки) сохраняется в локальный кэш на базе mongodb, что очень экономит время, т.к. считывание страниц идет из кэша.

Читать полностью »

Python / Документация по Grab — библиотеке для парсинга сайтов

2012-03-05 в 10:27, admin, рубрики: data mining, grab, grablab, lxml, pycurl, python, spider, парсинг, метки: data mining, grab, grablab, lxml, pycurl, python, spider, парсинг

Я ранее уже рассказывал на хабре о Grab — библиотеке для парсинга сайтов и о Spider — асинхронном модуле для парсинга. Рад сообщить, что я наконец-то дописал документацию по Grab. Я решил писать всё на русском языке т.к. на английском языке мне труднее выражать мысли. На деле писанины получилось гораздо больше, чем представлялось в начале, но я таки описал практически все функции библиотеки. Я решил просто вставить сюда, оглавление, кликайте на интересный раздел и читайте о возможностях Grab:

<a rel="nofollow"Читать полностью »

Информация

Комментарии

Рекомендуем