Convextra — универсальный парсер контента

в 8:09, , рубрики: convextra, data mining, парсинг контента, я пиарюсь, метки: , , ,

Пару месяцев назад на хабре уже проскальзывало упоминание о сервисе извлечения данных с веб-страниц Convextra, который позволяет парсить даже сложные структуры данных буквально в 2-3 клика. Несмотря на то, что на момент написания той статьи сервис находился в альфа стадии и больше глючил, чем работал, аудитория хабра тепло восприняла идею и мы получили много полезных отзывов, предложений и багрепортов. Поэтому хочется рассказать о том, что из предложенного вами и в каком виде удалось реализовать за это время.


Для тех, кто не знаком с первой статьей, в двух словах о том, что такое Convextra — это сервис парсинга данных с веб-страниц, который позволяет извлекать практически любые повторяющиеся структуры данных (списки объявлений, каталоги магазинов, таблицы соревнований и т.д.) за пару кликов. Качественным отличием от других подобных сервисов является автоматическое распознавание даже сложных структур данных, и простота использования (вам не придется составлять каких-либо правил или, тем боле, регулярных выражений). Лучше всего просто просмотрите наше минутное видео.>

Многие пользователи писали нам с просьбой реализовать какой-нибудь механизм автообновления получаемых данных, чтобы была возможность поддерживать их всегда в актуальном состоянии. Для решения этой проблемы, мы добавили возможность запуска заданий парсинга по расписанию: вы можете указать периодичность запуска задания и, как только данные обновятся, вам придет емайл оповещение. Кроме возможности задать интервал выполнения задания, также можно указать ключевое слово-фильтр, которое должно присутствовать в новом наборе данных. Таким образом теперь с помощью Convextra можно получать актуальные данные (например, каталоги товаров с интернет магазинов, таблицы соревнований..), мониторить появление новых данных (например поступление новых товаров в каталог, размещение новых объявлений об аренде/продаже и т.д.) и следить за изменениями выбранных данных с помощью указания фильтра (например получать уведомления об изменении цены на интересующий вас товар).

Вторым большим событием за прошедший месяц стала реализация API, с помощью которого можно использовать функционал Convextra во внешних веб-приложениях и сервисах. Пока API поддерживает лишь базовые возможности анализа страниц и экспорта данных, но мы планируем наращивать функционал по мере требования пользователей. Кроме того, в скором времени, возможно, свет увидит и Javascript SDK для кастомизации функционала нашего плагина.

Помимо разработки API и возможности запуска заданий по расписанию мы переработали дизайн и интерфейсы, перевели проект на английский, реализовали поддержку плагином https соединений, существенно доработали алгоритм выявления структур данных и схем пагинации, добавили сохранение истории заданий, реализовали поддержку cookies плагином(теперь плагин более корректно работает со страницами, закрытыми авторизацией) и пофиксили огромное количество багов, о которых вы нам ежедневно сообщаете. Тем, у кого уже установлен наш плагин, крайне советуем его обновить, чтобы все эти нововведения вступили в силу (последняя версия плагина как всегда доступна на главной странице).

Изначально сервис во многом писался «just for fan», без какого-либо анализа потенциальной аудитории и рынка подобных приложений. Поэтому, как и в случае с предыдущей статьей, мы будем бесконечно благодарны за любой фидбек (о том, чего вам не хватает сейчас в функциональности, или просто рассказа о том каким образом вы используете Convextra, или мыслей о том, где вообще может пригодиться такой универсальный парсер) и постараемся оперативно реализовать ваши предложения.

Автор: Napolsky

Источник

Поделиться

* - обязательные к заполнению поля