- PVSM.RU - https://www.pvsm.ru -

Convextra — универсальный парсер контента

Пару месяцев назад на хабре уже проскальзывало [1] упоминание о сервисе извлечения данных с веб-страниц Convextra [2], который позволяет парсить даже сложные структуры данных буквально в 2-3 клика. Несмотря на то, что на момент написания той статьи сервис находился в альфа стадии и больше глючил, чем работал, аудитория хабра тепло восприняла идею и мы получили много полезных отзывов, предложений и багрепортов. Поэтому хочется рассказать о том, что из предложенного вами и в каком виде удалось реализовать за это время.


Для тех, кто не знаком с первой статьей, в двух словах о том, что такое Convextra [2] — это сервис парсинга данных с веб-страниц, который позволяет извлекать практически любые повторяющиеся структуры данных (списки объявлений, каталоги магазинов, таблицы соревнований и т.д.) за пару кликов. Качественным отличием от других подобных сервисов является автоматическое распознавание даже сложных структур данных, и простота использования (вам не придется составлять каких-либо правил или, тем боле, регулярных выражений). Лучше всего просто просмотрите наше минутное видео.>

Многие пользователи писали нам с просьбой реализовать какой-нибудь механизм автообновления получаемых данных, чтобы была возможность поддерживать их всегда в актуальном состоянии. Для решения этой проблемы, мы добавили возможность запуска заданий парсинга по расписанию: вы можете указать периодичность запуска задания и, как только данные обновятся, вам придет емайл оповещение. Кроме возможности задать интервал выполнения задания, также можно указать ключевое слово-фильтр, которое должно присутствовать в новом наборе данных. Таким образом теперь с помощью Convextra можно получать актуальные данные (например, каталоги товаров с интернет магазинов, таблицы соревнований..), мониторить появление новых данных (например поступление новых товаров в каталог, размещение новых объявлений об аренде/продаже и т.д.) и следить за изменениями выбранных данных с помощью указания фильтра (например получать уведомления об изменении цены на интересующий вас товар).

Вторым большим событием за прошедший месяц стала реализация API [3], с помощью которого можно использовать функционал Convextra во внешних веб-приложениях и сервисах. Пока API поддерживает лишь базовые возможности анализа страниц и экспорта данных, но мы планируем наращивать функционал по мере требования пользователей. Кроме того, в скором времени, возможно, свет увидит и Javascript SDK для кастомизации функционала нашего плагина.

Помимо разработки API и возможности запуска заданий по расписанию мы переработали дизайн и интерфейсы, перевели проект на английский, реализовали поддержку плагином https соединений, существенно доработали алгоритм выявления структур данных и схем пагинации, добавили сохранение истории заданий, реализовали поддержку cookies плагином(теперь плагин более корректно работает со страницами, закрытыми авторизацией) и пофиксили огромное количество багов, о которых вы нам ежедневно сообщаете. Тем, у кого уже установлен наш плагин, крайне советуем его обновить, чтобы все эти нововведения вступили в силу (последняя версия плагина как всегда доступна на главной странице [2]).

Изначально сервис во многом писался «just for fan», без какого-либо анализа потенциальной аудитории и рынка подобных приложений. Поэтому, как и в случае с предыдущей статьей, мы будем бесконечно благодарны за любой фидбек (о том, чего вам не хватает сейчас в функциональности, или просто рассказа о том каким образом вы используете Convextra, или мыслей о том, где вообще может пригодиться такой универсальный парсер) и постараемся оперативно реализовать ваши предложения.

Автор: Napolsky

Источник [4]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/data-mining/34213

Ссылки в тексте:

[1] проскальзывало: http://habrahabr.ru/post/171539/

[2] Convextra: http://ru.convextra.com/

[3] API: http://ru.convextra.com/api/console.php

[4] Источник: http://habrahabr.ru/post/179611/