Рубрика «semantic web» - 2

Одной из причин причина слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.
image
Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.

  • Часть 1 — Введение
  • Часть 2 — Freebase: делаем запросы к Google Knowledge Graph
  • Часть 3 — Dbpedia — ядро мира Linked Data
  • Часть 4 — Wikidata — семантическая википедия

Читать полностью »

В прошлый раз я описал функционал плагина Semantic MediaWiki, позволяющего управлять структурированными данными в вашей системе и создавать на их основе различные представления. Ложкой дёгтя здесь является то, что пользователям приходится учить дополнительные элементы разметки.
Сегодня мы поговорим про расширение Semantic Forms, позволяющее сделать вики совсем не похожей на вики и привлечь к работе более широкий круг пользователей.

Semantic Forms для MediaWiki

Напомню, что сердцем Semantic MediaWiki является механизм семантических свойств. Назначение семантического свойства странице хоть и похоже на простое создание вики-ссылки [[имя свойства::значение свойства | что выводить на экран]], но, всё-таки, это новый синтаксис. Вдобавок даже если наши пользователи будут настолько дисциплинированы, что прочитают и вникнут в руководство по созданию свойств, они вряд ли будут называть все термины единообразно.
На моей вики, посвященной историческим личностям половина людей будет описана свойством время рождения, другие участники опишут людей свойством год рождения, а третьи дата рождения. Теперь для того, чтобы получить список исторических личностей и вывести их даты рождения, мне нужно написать три запроса вместо одного:

{{#ask:[[Категория Историческая личность]] | ?Время рождения }}
{{#ask:[[Категория Историческая личность]] | ?Год рождения }}
{{#ask:[[Категория Историческая личность]] | ?Дата рождения }}

Для решения этих проблем применяют шаблоны и формы.
Читать полностью »

Идея применения семантических моделей в корпоративных информационных системах существует давно, но устойчивая практика такого их использования еще не сформировалась. Семантические модели можно применять для интеграции данных, аналитики, управления знаниями; однако, общепринятого мнения о том, где они наиболее полезны, по каким методикам должны строиться такие модели, пока не сформировано.
Задача статьи — на практическом примере сравнить аналитический потенциал моделей, построенных по правилам интеграционного стандарта ISO 15926, который предписывает использование OWL и SPARQL для выражения моделей и работы с ними, и «обычной» семантических моделей, построенных без использования этого стандарта. Решение этого вопроса позволит выбрать диапазон задач, для решения которого целесообразно применять такие высокоуровневые парадигмы семантического моделирования, как ISO 15926.
Читать полностью »

Semantic MediaWiki
Semantic MediaWiki — это расширение, ради которого стоит ставить MediaWiki: оно помогает бороться с бардаком и хаосом, который рано или поздно воцаряется в любой вики-системе.

  • Оно позволяет поддерживать согласованность данных на вики.
  • С его помощью можно обращаться с вики как с базой данных.
  • С его помощью можно генерировать красивые графики, диаграммы и графы на основе вики-данных.
  • Оно позволяет пользователям возможность вводить данные с помощью форм, а не вики-разметки, понижая тем самым порог вхождения для пользователей.

SMW позволяет использовать вики как составную часть системы управления знаниями, с его помощью можно создавать коммерческие системы, которые сочетают простоту вики, четкость коллаборативных баз данных, и лучшее из мира Semantic Web. В общем, это вещь, более чем достойная пристального внимания и подробного обзора.
Читать полностью »

На выставке CeBIT я познакомился с представителями польской компании Cognitum, которая разрабатывает семантический фреймворк Ontorion. Важнейшей частью этого фреймворка является редактор онтологий Fluent Editor, который показался мне замечательным и достойным обзора. Главное достоинство Fluent Editor'а состоит в том, что он позволяет создавать OWL-онтологии людям, не имеющим представления о синтаксисе OWL (хотя иметь представление о его концепциях, и о моделировании информационных структур, конечно, все равно нужно). Онтологии создаются на естественном языке, Controlled English — то есть на обычном английском, к которому применены определенные правила и ограничения. Приведу обзор основных возможностей синтаксиса этого языка, не забывая смотреть на то, в каком виде его основные выражения будут сохраняться в OWL.

Для примера начнем составлять онтологию, содержащую сведения о бизнесе некой компании. У этой компании, как у любой коммерческой организации, есть поставщики и покупатели. Те и другие являются организациями, причем одна и та же организация может быть одновременно и поставщиком, и покупателем. Запишем соответствующие выражения на Controlled English:

Every customer is a organization.
Every supplier is a organization.

Читать полностью »

Недавно мы писали о нашем валидаторе семантической разметки. А сегодня хотим рассказать, зачем и почему он был сделан, какие сложности возникли при разработке и как мы с ними справились. Одна из причин, по которой мы его сделали, конечно, в том, что мы хотели избавить роботов от встреч с ошибками вебмастеров. Но руководствовались мы не только этим.

Реакция роботов на ошибки в микроразметке

Медленно, но верно семантическая разметка набирает популярность. Чуть больше десяти лет назад (в мае 2001 года) впервые был введен термин «семантическая паутина». В 2004 году появилось первое упоминание формата RDFa, примерно тогда же начали развиваться микроформаты. В июне 2011 года был запущен стандарт schema.org.

Сейчас семантическую микроразметку поддерживают и Яндекс, и другие ведущие мировые поисковые системы.

Однако вебмастера часто сталкиваются с тем, что валидаторы HTML выдают массу ошибок. Читать полностью »

MilkyWeb — Graph of Everything

В данной статье я хочу поделиться своими мыслями по поводу способов решения фундаментальных проблем современного Интернета. Хочу описать модель, которая, по моему мнению, может помочь ещё лучше упорядочить знания в интернете, и продемонстрировать свою попытку реализации такой модели.
Читать полностью »

В конце августа Яндекс вступил в World Wide Web Consortium. Тогда, в том числе в посте на Хабре, нам задали много вопросов о том, зачем нам W3C, и что мы там собираемся делать.

Нашим представителем в W3C стал Чарльз МакКэтиНевил, и я воспользовался его приездом на YaC 2012, чтобы задать часть этих вопросы вживую.

Чарльз занимается стандартами Веба в W3C почти 14 лет. Раньше он был директором по веб-стандартам в Opera Software, а с июля 2012 года работает в Яндексе, учит русский язык и даже ведёт по-русски свой русскоязычный твиттер.

Кстати — если у вас есть вопросы к Чарльзу, которые мы ещё не задали, — смело задавайте их в комментариях. Обещаю получить у него ответы на стоящие и добавить их в интервью и/или ответить в комментариях же.

Читать полностью »

image
С 6 по 7 октября приглашаем энтузиастов-программистов на Open Data Hackathon, который пройдет в офисе компании 2Nova Interactive в «Ткачах». В перерывах между работой вы сможете пообщаться с нашими гостями: Питером Микой из компании Yahoo, профессионала в области поиска и представления данных, доктором Серном Ауэром из Лейпцигского Университета, эксперта в области семантического Веба, директором представительства W3C в России Даниэлем Хладки, Владимиром Горовым, руководителем проекта Яндекс.Услуги. Ну и конечно же вас ждут призы от организаторов, пицца, чай, кофе, игры и отличная рабочая атмосфера для запуска вашего проекта за 24 часа! А разработанный проект вы сможете представить инвесторам и представителям власти на демофесте.

Open Data Hackathon посвящен разработке общественно-значимых сервисов на основе открытых государственных данных. Также партнерами выступили W3C w3c.org.ru, Центр Антикоррупционных инициатив transparency.org.ru, СПб НИУ ИТМО www.ifmo.ru и многих других. Приветствуется использование технологий Semantic Web, существующих веб-сервисов и API, открытых источников данных для создания вашего мэшапа или мобильного приложения. Для реализации своего проекта у вас будет всего 24 часа! Результаты работы вы сможете представить на демофесте, на котором будут присутствовать представители гос. органов, наши эксперты и инвесторы. Лучшие проекты будут награждены и примут участие в международной конференции инженерии знаний и технологий Semantic Web “KESW 2012” 9 октября, а также получат поддержку для дальнейшего развития.

Подробнее о мероприятии.

Регистрация проекта или если желаете принять участие в команде.

Ниже написано почему стоит посетить это мероприятие и какие сервисы можно сделать.

От хакатона до миллиона

Читать полностью »

Многие из Вас знают в что в России, власть активно занялась открытыми данными и, кроме уже опубликованных массивов, вроде открытых баз с сайтов zakupki.gov.ru, bus.gov.ru и системы ФИАС (fias.nalog.ru) и сейчас активно идет работа над тем чтобы открытых данных стало бы на порядок больше.

Для тех кто все же не слышал об этом явлении, небольшой экскурс.

Что такое открытые данные?
Открытые данные — это машиночитаемые данные доступные для широкого круга лиц (общественности), пригодные к повторному автоматическому использованию и не имеющих лицензионных, технологических, правовых и иных ограничений на их использование.

В большинстве развитых странах мира открытые данные и, в частности, открытые государственные данные — это часть государственной политики национальных правительств. Правительства публикуют данные онлайн на специальных порталах, например, это такие порталы как data.gov.uk в Великобритании или data.gov.au в Новой Зеландии. Такие порталы есть более чем в 60 странах и общее их число более 150.

Наличие данных позволяет:

— общественным организациям — осуществлять контроль за деятельностью органов власти

— бизнесу — для создания новых и развития существующих информационных продуктов

— программистам — иметь возможность («топливо для идей») в создании новых программ

— гражданам — возможность использовать созданные программы для повышения личного комфорта

— государственным и муниципальным органам власти — привлекать граждан и бизнес к созданию новых продуктов позволяющих экономить государственные средства

Фактически, Открытые данные — это возможность для разработчиков менять и улучшать государство, рассматривать его как платформу для создания собственных сервисов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js