Python / Документация по Grab — библиотеке для парсинга сайтов

2012-03-05 в 10:27, admin, рубрики: data mining, grab, grablab, lxml, pycurl, python, spider, парсинг, метки: data mining, grab, grablab, lxml, pycurl, python, spider, парсинг

Я ранее уже рассказывал на хабре о Grab — библиотеке для парсинга сайтов и о Spider — асинхронном модуле для парсинга. Рад сообщить, что я наконец-то дописал документацию по Grab. Я решил писать всё на русском языке т.к. на английском языке мне труднее выражать мысли. На деле писанины получилось гораздо больше, чем представлялось в начале, но я таки описал практически все функции библиотеки. Я решил просто вставить сюда, оглавление, кликайте на интересный раздел и читайте о возможностях Grab:

Кстати, HTML-код оглавления я подготовал скриптом с использованием Grab:

# coding: utf-8 from grab import Grab from lxml.html import tostring  g = Grab() g.go('http://grablib.org/docs/') g.tree.make_links_absolute('http://grablib.org/docs') elem = g.xpath(u'//h3[text()="Руководство пользователя"]/following-sibling::ul[1]') toc = tostring(elem, encoding='utf-8') print toc

Официальный сайт библиотеки grab: grablib.org
Вопросы по использованию grab писать лучше не мне в skype/jabber, а в майл-лист: groups.google.com/group/python-grab
Также напоминаю, что мы (grablab) занимаемся парсингом сайтов на заказ, если вам нужно собрать и обработать данные — обращайтесь.

Далее я планирую заняться документированием асинхронного spider модуля.

Автор: itforge