Главная

Метка «парсинг контента»

Базы знаний. Часть 1 — введение

2013-10-16 в 9:31, admin, рубрики: api, freebase, Linked data, owl, rdf, semantic web, sparql, онтологии, открытые данные, парсеры, парсинг контента, Семантическая Сеть, метки: api, freebase, Linked data, owl, rdf, semantic web, sparql, онтологии, открытые данные, парсеры, парсинг контента

Одной из причин причина слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.

Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.

Часть 1 — Введение
Часть 2 — Freebase: делаем запросы к Google Knowledge Graph
Часть 3 — Dbpedia — ядро мира Linked Data
Часть 4 — Wikidata — семантическая википедия

Читать полностью »

История одного парсера

2013-07-14 в 14:00, admin, рубрики: 1С-Битрикс, csv, php, битрикс, парсинг контента, Песочница, метки: csv, PHP, битрикс, парсинг контента

Cайт без доступов

По долгу службы на мои плечи легла задача перенести пачку(>100) статей с одного сайта заказчика на другой. Одно из условий было — переносить не только название и текст статьи, но и метатеги keywords и description. В итоге статьи должны были перекочевать в инфоблок битрикса.

В силу реализации сайта-источника на неком конструкторе сайтов сделать sql dump никак не представлялось возможным, т.к. все, что позволяла админка сего конструктора — выбрать шаблон, привязать домен и, как бонус, добавлять/редактировать контент. Не было там ни phpMyAdmin, ни ftp, ни какого-либо инструмента, позволяющего легким движением руки осуществить задуманное.
Читать полностью »

Convextra — универсальный парсер контента

2013-05-14 в 8:09, admin, рубрики: convextra, data mining, парсинг контента, я пиарюсь, метки: convextra, data mining, parser, парсинг контента

Пару месяцев назад на хабре уже проскальзывало упоминание о сервисе извлечения данных с веб-страниц Convextra, который позволяет парсить даже сложные структуры данных буквально в 2-3 клика. Несмотря на то, что на момент написания той статьи сервис находился в альфа стадии и больше глючил, чем работал, аудитория хабра тепло восприняла идею и мы получили много полезных отзывов, предложений и багрепортов. Поэтому хочется рассказать о том, что из предложенного вами и в каком виде удалось реализовать за это время.

Читать полностью »

Как написать парсер страниц за 5 минут

2012-08-01 в 17:17, admin, рубрики: .net, data mining, html, парсинг контента, метки: .net, c++, html, парсинг контента

Зачем?

У меня возникла необходимость построить графики статистики игроков c iccup.com
Когда разбирался с библиотекой искал на хабре, но ничего подходящего мне не нашел.
Поэтому попутно написал эту статью.

Технические детали

Никакого API так нету, и не будет в ближайшие время. Поэтому выбор способов получения данных не велик, придется парсить страницы.
Я решил делать это с помощью библиотекой htmlagilitypack. Она довольно проста и удобна. XPath поиск занимает около 100мс.
Читать полностью »

Электронная библиотека для PocketBook: автоматическая обработка

2012-05-09 в 9:45, admin, рубрики: php, pocketbook, каталогизация, обработка данных, парсинг контента, электронные книги, метки: PHP, pocketbook, каталогизация, обработка данных, парсинг контента, электронные книги

Наверное каждому электрочитателю хотелось бы всю свою коллекцию книг содержать прямо на электронной книге-читалке, и при этом, не смотря на общую тормознутость устройства, иметь удобную навигацию.
Зачастую в электронной книге проблематично содержать сотни и тысячи книжек: либо аппарат долго тупит, считывая информацию о каждой книге из ее внутренностей, либо вручную поддерживать коллекцию с разбивкой по каталогам — тот еще геморрой.
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Метка «парсинг контента»

Базы знаний. Часть 1 — введение

История одного парсера

Cайт без доступов

Convextra — универсальный парсер контента

Как написать парсер страниц за 5 минут

Зачем?

Технические детали

Электронная библиотека для PocketBook: автоматическая обработка

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Метка «парсинг контента»

Базы знаний. Часть 1 — введение

История одного парсера

Cайт без доступов

Convextra — универсальный парсер контента

Как написать парсер страниц за 5 минут

Зачем?

Технические детали

Электронная библиотека для PocketBook: автоматическая обработка

Новости

Актуальные темы

Архив