Визуализация и работа с историческими данными: интерактивные карты и linked data базы знаний для изучения истории

в 0:00, , рубрики: rdf, sparql, wikidata, wikipedia, визуализация данных, историческая картография, открытые данные, Семантика, метки:

Порой глянешь по сторонам и кажется, что современного мира вне IT не существует. Однако есть области человеческой жизни, очень слабо затронутые компьютеризацией. Одна из таких областей — история. И как наука, и как учебный курс. Конечно, работа за компьютером едва ли когда-то заменит историкам ковыряние в архивах. Но уж изучать историю по нарисованным в учебнике статическим картам, а порядок событий выстраивать, тщательно выписывая на бумажку даты в порядке возрастания — это точно прошлый век. Однако инструментов для наглядного изучения истории не так-то много и найти их очень непросто.

Если вы хотите узнать, какие есть интерактивные исторические карты, где стоит посмотреть на представление событий в форме таймлайнов и как делать сложные запросы к википедии типа «все государственные деятели, работавшие в Европе в 1725 году» — читайте дальше.

С чего все началось: на летней школе мы взялись делать интерактивную карту исторических событий на базе википедии. Я не даю прямую ссылку на проект, поскольку проект очень сырой (над ним работала команда из 4 прекрасных десятиклассников, но много ли успеешь за 3 недели), а еще потому что сервер имеет обыкновение «падать» и без хабраэффекта.
Нам хотелось на карте отобразить события, происходившие в разные исторические эпохи — и это отчасти получилось: у нас есть карта битв с их описаниями. На тот момент, когда мы занимались этим проектом, мы знали лишь про пару интерактивных исторических атласов, и ни один из них не показывал на карте события.

Я полагаю, что этих карт так мало потому что все сталкиваются с теми же проблемами, что и мы: исторические данные не структурированы. Нет машиночитаемых баз данных, откуда можно выгрузить информацию о важных исторических событиях. Историки, если и заводят базы данных, описывают в них, как правило, лишь свою узкую предметную область — типа карты укреплений Римской империи. Это может быть интересно и полезно историкам, но вряд ли простые люди могут извлечь из такой карты для себя много пользы. Вторая проблема — полное отсутствие данных про границы стран в исторической перспективе. Вы можете найти сотни атласов древних эпох, но координаты границ вам придется переносить с атласов вручную. Третья проблема — отсутствие каких-либо стандартов описания исторических данных. Даже нормального формата описания даты не существует, стандартные типы данных и форматы ломаются о годы до нашей эры. Что уж говорить про разные календари или неточно определенные даты?..

Проблемы недостатка машиночитаемых исторических данных еще ждут своего решения (мы работаем над этим, присоединяйтесь, работы на всех хватит). Но все же некоторые проекты по своему справляются с этим…

Как гласит народная мудрость: «После того, как вы сломали прибор, изучите инструкцию». Уже после того как мы сделали свою карту, мне удалось найти несколько других проектов с интерактивными картами и другими способами визуализировать историю и добывать исторические данные. Но на то, чтобы откопать эти ресурсы в недрах интернета мне понадобилась какое-то совершенно неприличное количество времени, поэтому я решил собрать всё, что нашел, в одном месте.

Первая категория — интерактивные исторические карты. Это не карты моей мечты, но вполне рабочие продукты. Их довольно много (и я не перечисляю тут еще совсем узкоспециализированные), но действительно хороших среди них всего пара, увы. Отдельно печалит, что среди них нет локализованных проектов, а значит по ним тяжело учить русскоязычных школьников.

  • Самая няшная карта, да еще и имеющая очень широкие возможностями для визуализации — это Chronoas. Она сложновата для того, чтобы изучить её самостоятельно, поэтому посмотрите видео-ролик про её возможности. Это красиво и сильно. На карте отмечены исторические события разных типов со вспомогательной информацией, что позволяет знакомиться с историей, не отрываясь от карты.

    Информация на карте добыта в том числе из википедии и викиданных. Исторически карта неточна, о чем сообщают многие пользователи, знакомые с историей Китая. Но в проекте присутствуют зачатки вики-редактирования карт, так что когда-нибудь ошибки будут исправлены.

    Из вводного видео можно также узнать об довольно широких возможностях визуализации статистической информации (типа населенности, исповедуемых религий итп) о разных эпохах. Не все из этих визуализаций просты и наглядны, но сама возможность так делать — это здорово.

  • Есть карта Running Reality с весьма подробной разметкой территорий. Проект хочет описать историю вплоть до истории улиц и для этого позволяет вики-редактирование карты (как я понимаю, не в веб-версии). У них довольно бедная визуализация исторических данных, зато очень грамотная модель данных, которая позволяет описывать альтернативные ветки истории (что полезно, когда у историков существует несколько гипотез, того, «как всё было на самом деле»). Они пишут, что веб-карта сильно моложе и урезана в возможностях по сравнению со standalone, а standalone версию я не тестировал (не запустилась). Впрочем, она так же бесплатна, как и веб. Если у вас получится её запустить, пишите ваши отзывы в комментариях.
  • Карту geacron я нашел давным-давно. Она нарисована историками по источникам и атласам, а значит, вероятно, что она точнее других отражает историю. Но интерактивности этой карте серьезно не хватает. Помимо режима карты, на сайте есть timeline по исторически значимым периодам. Уныло, зато приоритезировано настоящими историками. Одна из проблем предыдущих карт заключается в том, что там важные события и проходные идут на равных. Geacron этого, вроде, избегает за счет ручного курирования данных.
  • Карта Spacetime с поиском событий по категориям. Не зажигательная, но сделанная неплохо (а уж на фоне близкого к нулю количества подобных карт...) И это снова википедия и викидата.
  • Проприетарный атлас CENTENNIA без веб-версии. Мне кажется, что, в видео-роликах типа «1000 лет европейской истории за пять минут» обычно используется эта карта.
  • Timemaps — довольно слабенький клон geacron-а, но кому-то может быть удобнее.

Вторая к категория — разное. Это интересные околоисторические проекты, которые я нашел по пути.

  • Исторические таймлайны на Histropedia. Я не очень люблю такой стиль представления данных, как ось времени, но а) за неимением лучших средств визуализации, можно и ими пользоваться, б) эти таймлайны действительно хорошо сделаны и удобны, в) эти таймлайны можно редактировать, а также создавать собственные, г) можно создавать таймлайны не руками, а запросом к викиданным, д) довольно много таймлайнов уже сделано за вас, и их приятно изучать.
  • Wikijourney — карта с геотэгированными вики-статьями про эти места. Предполагается, что она используется для достопримечательностей, но в википедии есть статьи чуть ли не о каждой улице Москвы и о каждой станции метрополитена — так что я вижу вокруг себя довольно бытовой список «достопримечательностей». На вышеупомянутом Chronoas'е, кстати, на карте тоже есть фотки, каким-то образом отнесенные к месту-времени. Отнесение ко времени, впрочем, довольно условное: сколько этому фотографированию лет?..
  • Инструменты визуализации данных гуманитарных исследований. Последние полвека существует наука «Digital humanities» — компьютерные методы гуманитарных исследований. Я бы сказал, что эта наука еле теплится, судя по тому, как мало сделано до сих пор… но тем не менее. Так вот, для историков, филологов, археологов и прочих специалистов разработано некоторое количество инструментов визуализации. Большей частью это визуализации всяких связей между объектами. В графе, на карте, в облаке тэгов, во временной перспективе итд.
    Например, Стэнфорд разработал ряд подобных инструментов (я несколько раз натыкался на упоминание их инструмента Palladio, видимо это главный их инструмент).
    Также есть проект NodeGoat — они хорошо заточены под визуализацию linked data (см. ниже). Вот, скажем, их карта битв на основе данных из wikidata и dbpedia. Карта смотрится здорово, хотя путешествовать по ссылкам на привязанные объекты не слишком удобно. Кстати, если кликнуть, например, на точку с событиями, «случившимися» в самом центре России, вы увидите общую проблему всех карт, сделанных путем парсинга информации: неправильное отнесение события к месту и времени.

Третья категория — моя любимая; за ней будущее, определенно. Linked data.
Размеченные графы знаний или семантические сети, вот это вот всё. Мощнейшая технология для составления сложных поисковых запросов. Она развивается уже давно, но в народ не вышла до сих пор. Основной причиной тому сложность использования и, особенно, сложность изучения: материалов мало, и почти все материалы рассчитаны на программистов. Я составил небольшую подборку хороших и доступных учебных материалов, которые позволят простому человеку освоить этот инструмент за пару часов. Это не быстро, зато за это время ваш «google-fu» усилится в разы.

Технологию семантических сетей берут на вооружение все крупные поисковые и информационные системы. В частности, сейчас многие учатся переводить естественный язык в формализованные запросы такому графу. Наверняка следственные органы и разведывательные службы пользуются этим (учитывая, что один из самых популярных графов знаний делается по CIA Factbook). Можно придумать миллион способов использовать эту технологию в любой аналитической работе: для государства, для бизнеса, для науки и даже для планирования домашнего хозяйства.

Может через несколько лет поисковые системы и научатся расшифровывать часть ваших вопросов на естественном языке и отвечать на них. Но вы сами можете воспользоваться всей мощью этого инструмента уже сейчас и получить куда большую гибкость, чем вам даст любой поисковик. Итак, учебные материалы:

  • Есть отличнейший туториал «Using SPARQL to access Linked Open Data» (на сайте The Programming Historian) о том, что такое linked data, и зачем они нужны. Я считаю, что каждый образованный человек должен выучить основы SPARQL, так же как каждый человек должен уметь гуглить. Это буквально про то, как строить сложные и мощные поисковые запросы (см. примеры ниже). Пусть вы не будете пользоваться этим каждый день, но когда придёт очередная задача по поиску и анализу информации, требующая месяца ручной работы, вы будете знать, как этого избежать.

    Скажу честно, несмотря на хорошую подачу, материал всё равно довольно сложный: формат данных RDF, онтологии и язык запросов SPARQL. Пока я не нашел эту статью, я мог только восхищаться тому, как круто люди им пользуются, но вообще не понимал как это заставить работать. The Programming Historian дает сложный материал на очень понятных примерах и показывает, как этим пользоваться.

    Их сайт, кстати, небезынтересен уже своим названием. Они учат историков пользоваться вычислительными инструментами и программированием для исследований. Потому что капелька программирования любую работу делает проще.

  • Хороший вводный видеоурок на 15 минут о том, как делать запросы к викиданным, а затем визуализировать их в histropedia. Чисто практическое занятие, после которого вам будет понятно, какие кнопочки тыкать, чтобы составить свой запрос и посмотреть результат в удобоваримом виде. Рекомендую после туториала посмотреть это видео и затем приступить к практике.
  • Примеры запросов, чтобы проникнуться мощью инструмента. Не стесняйтесь нажать «Run». В окошке запроса можно мышкой наводить на идентификаторы — во всплывающей подсказке вам покажут, что скрывается за загадочными wdt:P31 и wd:Q12136. Итак: запрос, возвращающий всех женщин-мэров крупных городов или композиторов, озвучивших более 100 фильмов. Или запрос, который я придумал для собственной тренировки — о причинах смертности киноактеров, помимо болезней.
  • Пара хороших вводных хабра постов про базы знаний: раз и два.
  • Неплохой пример того, где используются linked data — это PanamaPapers. Чтобы исследовать такой здоровенный массив документов, туда были внесены связи в формате, сходном с RDF. Визуализируют связи как граф. Сделано неидеально, но имеет смысл взглянуть, чтобы потрогать эту структуру руками.
  • Провайдеры данных. Почти все карты, а также Histropedia в качестве источников данных используют либо стремительно развивающийся вики-проект Wikidata, либо проект по автоматическому извлечению данных из википедии DBpedia. Эти проекты ставят своей целью сделать источники связанных машиночитаемых данных, постоянно пополняемые сообществом. Еще есть всякие более консервативные источники данных, поддерживаемые музеями — про коллекции объектов искусства и археологии, словари географических названий и биографий, биологические онтологии. И наверняка еще много чего другого. Гуглить по словам «SPARQL endpoint».

Надеюсь, что эта запись поможет не только вам утолить свое любопытство, и увлечь ваших знакомых школьников наглядностью истории, но и пробудит вашу фантазию на тему новых инструментов и баз исторических данных. Работы в области исторической информатики — непаханное поле. Присоединяйтесь, господа!

Автор: prijutme4ty

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js