Перспективы развития публичных данных

в 14:15, , рубрики: open data, Исследования и прогнозы в IT, открыте данные, публичные данные, управление данными

Когда защищенные цифровые данные начинают открываться и становятся доступны широкому кругу экспертов информационное пространство обогащается и разогревается. При этом оно усилиями многих аналитиков, исследователей и экспертов структурируется по тематикам и группам, упорядочивается и выстраивается по линиям приоритетных трендов, оптимизируется и вырабатывает новые подходы, технологии и модели решения проблем.
Несомненно, что при этом количество альтернативных вариантов растет, а выбор наиболее эффективного из них усложняется.
Остановимся на некоторых интересных вопросах перспективного развития публичных данных.
Перспективы развития публичных данных - 1

Статья основывается на подходе и терминологии обозначенных в серии посвященной теме публичных данных.

Компетенции и инструменты

Реализация масштабной и полноценной работы по поставке публичных данных, равно как и по их применению требует специальных компетенций и инструментов.
Прежде всего это связано с особенностями публичной схемы трансфера данных, которая не предусматривает устойчивого персонального взаимодействия поставщика и получателя. А соответственно, как сам поставщик вынужден выполнять некую дополнительную работу, так и получатель реализует ряд процедур, которые были бы просто не нужны при закрытом обмене данными по устойчивым каналам связи и при более детальной договоренности.

Требуемые дополнительные компетенции и инструменты для работы с публичными данными можно разделить на несколько категорий:

  1. Обработка содержания данных – для приведения смысла данных к требуемому целевому виду, включая необходимость для сокращения объемов данных, изменения их качественного состава и т.п.;
  2. Выгрузка/загрузка данных – для эффективной передачи и приема публичных данных от поставщика получателю;
  3. Реструктурирование данных – для изменения структуры данных и приведения её к целевому рабочему виду;
  4. Переформатирование наборов данных – для преобразования к нужному формату на уровне кодировки, нотации или схемы;
  5. Аудит качества данных – для профессиональной оценки и проверки качественных показателей наборов цифровых данных, как на этапе издания поставщиком, так и на этапе получения пользователем;
  6. Управление метаданными – для получения, обработки, проверки и переформатирования метаданных, сопровождающих основные данные;
  7. Увязывание с контекстом – для организации ссылок на контекстные данные и формального описания рекомендуемой контекстной «зоны»;
  8. Организация процедур – для планирования, реализации и контроля бизнес-процессов по поставке или получению публичных данных;
  9. Развитие модели – для проектирования, изменения и координирования работы с публичными данными в рамках общей деятельности, как одной из её составных частей.

Перспективы развития публичных данных - 2

По большому счету, соответствующие компетенции и инструменты должны базироваться на некоторых полноценных стандартах, поскольку в области публичных данных достаточно сложно организовывать прямые связи и проговаривать конкретные моменты с каждым из поставщиков или получателей. Но сама выработка стандартов существенно осложняется за счет потенциально большого и неограниченного круга участников. Арбитром в этом случае может выступить государственный регулятор или специальная уполномоченная профессиональным сообществом организация (ассоциация).
В отсутствии стандартов, субъект самостоятельно принимает соответствующие решения и определяет для себя те или иные приоритетные направления регламентации.

Важно ещё упомянуть разделение компетенций и инструментов на три категории:

  1. Общего назначения – это универсальные компетенции и инструменты для работы с данными, применение которых не зависит от их содержания и назначения;
  2. Специального назначения – это специализированные компетенции и инструменты, применение которых связано с конкретной предметной областью публичных данных;
  3. Особого (разового) назначения – это глубоко-настраиваемые или комплектуемые под задачу компетенции и инструменты, применяемые в отдельных особых случаях, связанных с разовыми или уникальными работами (маловероятно их повторное использование).

Проблема обучения, практической подготовки специалистов и последующего сохранения компетенций в границах бизнеса, равно как и проблема поиска или разработки и эффективного применения в практической деятельности удобных и производительных инструментов, должна решаться системно, последовательно и настойчиво. Бизнесы, которые стремятся наладить работу с публичными данными и получить от этого пользу не должны пренебрегать этими вещами, а начиная со стратегии и заканчивая операционной деятельностью обязаны создавать соответствующие компетенции и комплектоваться инструментами.

Ещё большие проблемы в этих областях будет испытывать независимый самостоятельный эксперт, когда попытается получить на публичных данных хорошую аналитику и достойный результат. Конечно же, чем большую помощь ему окажут поставщики данных или профессионально-экспертные сообщества предоставляя приемлемый по цене и условиям доступ к знаниям и инструментарию, тем более стабильный и качественный эффект будет получен.

Это ещё один аргумент в пользу создания целой системы «обратной связи» поставщиков публичных данных в полном её масштабе и широте.
Вовлекать большее количество не только бизнес-пользователей публичных данных, но отдельных экспертов, журналистов, исследователей за счет снижения барьеров входа и любого вида издержек как при использовании публичных данных, так и при их поставке.

Замусоривание данных и активность поставщиков

Призыв открывать данные и предоставлять к ним безвозмездный свободный доступ вполне понятен и оправдан. Но представим, если все экономические субъекты незамедлительно ему последуют. В отсутствии реальных совместных договорённостей о правилах публикации данных и их применения выраженных в общепризнанных формальных документах типа стандартов или регламентов, мы получим немедленное замусоривание сетевого пространства и не более того.
Публичные данные не требуют спешки и также нуждаются в качественном профессиональном решении, как и любые другие информационные проблемы.

Вот два непраздных вопроса с которых по большому счету следует начать:

  • Сколько и каких данных нам надо?
  • Сколько и каких данных мы можем поставить?

Предметное ориентирование важно для публичных данных, так же, как и важно поставлять качественные данные в общеприменимом формате.

Можно говорить о разных мотивах свободного раскрытия цифровых данных. Самый плохой из них – это не попытка вбросить фальшивые данные, а искреннее желание выложить гигантские массивы данных в сеть – непонятно кому это надо и явно качество при скоростной публикации будет невысоким.

Гораздо важнее публиковать связанные данные и поддерживать их актуальность.
А здесь без специализированных автоматизированных инструментов не обойтись.
Активность поставщиков публичных данных следует измерять не количеством «вброшенных» в сеть наборов и не частотой актуализации, а охватываемой предметной областью и сохранением качества при обновлениях.

Публикация «мусора» – низкокачественных, плохо структурированных и бедных по содержанию данных – наносит главный репутационный удар по всей концепции свободного распространения информации и цифровых данных, а не только ухудшает рейтинги отдельных владельцев и поставщиков «цифры».
Напрашивается необходимость некоторой регулирующей и аудиторской организации или сообщества в задачу которых должна входить авторитетная экспертиза и оценка в сфере публичных данных. Лучше всего, если наиболее весомые участники процесса со стороны владельцев, поставщиков, получателей и пользователей публичных данных смогут по итогам развития этого направления выработать рамочные правила и условия.

В конце концов мусор приходится кому-то убирать.

Безопасность и публичные данные

Если экономическому субъекту предложить выложить для свободного доступа какие-либо данные относящиеся к его целевой или хозяйственной деятельности, он сразу начнет беспокоится о своей коммерческой или репутационной безопасности. Основания для подобных беспокойств есть, но они в обязательном порядке устраняются на уровне профессиональной системы управления поставкой публичных данных (если таковая имеется).

С другой стороны, если не планируется получать значимый эффект от поставки свободно-распространяемых данных, то лучше поберечь покой служб безопасности и изолировать внутренние данные субъекта от внешних пользователей – что собственно и делает большинство бизнесов. Это только «внутренняя» сторона безопасности цифровых публичных данных, но есть и более общая для сообщества в целом.

Проблема безопасности скрывается не только в самих публичных данных, но в возможностях использовать данные для осуществления различного вида преступлений.
Интеллектуальные преступники вполне могут использовать разнообразные данные о местонахождении жертвы, о его материальном состоянии, о локализации неблагоприятных для жертвы мест. Публичные данные могут стать не основной, но связующей информацией для шантажа. Утечка важной информации провоцирует активность мошенников и аферистов. Кроме того, сам факт публикации подложных данных (пусть и весьма качественных) может подтолкнуть к действию не только преступников, но и создать социальную напряженность. Манипуляция общественным мнением с помощью «как бы фактических достоверных данных» вполне вероятна и будет более тонким, но профессиональным и достоверным (убедительным) способом управлять социальными группами. Посредники для этого уже есть – социальные сети.

Требуются специальные меры защиты добропорядочных бизнесов, некоммерческих организаций и граждан от попыток воспользоваться публичными данными в противозаконных целях в отношении них. Государственные регуляторы уже идут по этому пути начав с персональных данных. Конечно же, институт государственной и коммерческой тайны существовал до глобальной информатизации и будет существовать, но вот с цифровыми публичными данными ситуация несколько иная: требуется не защита сведений от распространения, а защита субъектов от неправомерного использования свободно распространяемых данных. А это совсем другая история.

Со своей стороны, в целях повышения собственной безопасности, бизнесы могут и даже должны расширять круг задач и технологии риск-менеджмента, особенно те, которые активно участвуют в поставке или получении публичных данных. Появляются новые риски, которые следует выявлять, оценивать, контролировать, компенсировать и устранять.
Соблюдение законодательства в сфере публикации данных – это сложный вопрос безопасности, который завязан на множество НПА профильных, непрофильных, предметных и прочих. На самом деле вероятность нарушить то или иное нормативное регулирование достаточно велика. И вопрос не в том, чтобы сделать всё чисто и правильно с первого раза, а в том, чтобы как можно быстрее реагировать на претензии и устранять нарушения пока они не нанесли серьезный материальный и моральный ущерб.

Knowledge-mining на поле публичных данных

Развитие системы публичности данных и постепенное насыщение глобальной информационной сети цифровыми наборами, пригодными для работы, ставит достаточно сложный, но интересный вопрос о добыче знаний. Это некая технология и одновременно стратегия постепенного сбора, обработки и анализа цифровых данных для получения новых знаний.

Примерная схема:

  1. Определяемся с проблематикой – формулируем предметную область, точку зрения, целевые показатели, критерии и т.д.
  2. Находим «точку входа» – определяем ограниченный круг источников данных и целевых наборов публичных данных, которые подлежат переработке.
  3. Получаем и обрабатываем данные – принимаем данные и выполняем все необходимые процедуры подготовки и анализа данных.
  4. Формализуем полученные знания – по итогам обработки и анализа данных осуществляем построение гипотез, проверяем их по возможности, строим выводы и формулируем обоснования, регистрируем факты и явления, визуализируем полученные знания и описываем их формально.
  5. Определяем «проблемные точки» – находим в полученных знаниях спорные места требующие доказательства или расширенного изучения и выбираем наиболее важные и интересные.
  6. Находим «точки расширения» – выбираем дополнительные источники цифровых данных и сами наборы, которые позволяет в той же предметной области дополнить ранее собранные
  7. Дополняем имеющиеся данные – принимаем новые данные и выполняем повторно процедуры подготовки и анализа данных по предыдущим или по новым схемам
  8. Расширяем формализованные знания – по итогам повторной обработки и анализа достраиваем гипотезы и доказываем их на большем массиве данных, доформулируем выводы и обоснования, расширяем депозитарий фактов и явлений, обновляем на новом качественном уровне знания и их визуализацию.
  9. Снова определяем «проблемные точки»возвращаемся в цикле на этап 5, но уже на более компетентном уровне.

Так или примерно так выглядит процесс добычи знаний из публичных данных в глобальной сети. Конечно же линейность и лаконичность описания ничуть не характеризует простоту добычи полезного эффекта из «пластов цифры».

Самое интересное, что добыча знаний из публичных данных в глобальном информационном пространстве – это бесконечный процесс с возможностью неоднократного осуществления его на одном и том же ресурсе. Если для обычной добычи ресурсов существует только единственная возможность переработки первичного сырья, то для добычи нематериальных знаний, ничто не мешает использовать одни и те же наборы данных многократно – причем, сколько угодно раз перемалывая «цифру».

Возможно даже термин «добыча знаний» дает не совсем верное представление об описанном процессе. Понятие добычи связано обычно с материальными ресурсами (сырьем) и формирует некую такую механистическую картину, в то время как извлечение полезных знаний базируется больше на методологии и научном творчестве, на таланте исследователя и некоторой доле удачи. Тем не менее, как процесс извлечения чего-то полезного из некоторого совокупного объема, из сплошной и сложной массы, представление о добыче знаний вполне убедительно.

Для того, чтобы добыча знаний велась конструктивно и не превратилась в «адский труд в каменоломнях» немало усилий стоит приложить поставщикам «сырья». Издание качественных публичных данных помогает избегать множества проблем, но главное – избегать непроизводительных расходов на доведение данных до нужного корректного состояния.
Перспективы развития публичных данных - 3
И когда мы затронули поставщиков публичных данным, нам приходится немедленно вспоминать про основную мотивацию свободного раскрытия данных, которая вынуждает уже говорить не только о прямой добыче знаний, но и о косвенной.

Всё что было описано выше – это прямая добыча знаний из публичных данных прямыми пользователями.
Косвенная добыча знаний из публичных данных заключается в получении поставщиком новых знаний, созданных получателями на основе его данных. Косвенная добыча знаний реализуется механизмами и технологиями обратной связи с пользователями. В этом случае поставщик вынужден развивать сообщество и систему не столько работы с его данными, сколько знания в целевой предметной области на основе доступа к публичным данным.
Соответственно, для пользователя и для поставщика публичных данных концепция «knowledge-mining» имеет одинаково важное значение, но реализуется иными способами и постепенно формируется в мощные технологические направления развития.

Лаборатория данных

Раз уж публичные данные полезны и привлекательны, то вероятно они способны сформировать новые рынки с новыми потребителями и продуктами. Обозначим условно бизнес в сфере публичных данных понятием «лаборатория данных».
Перспективы развития публичных данных - 4
Каким может быть спектр услуг предоставляемых подобной «лабораторией»:

  • разработка и продажа специализированных компетенций и инструментов для работы с публичными данными;
  • исследования источников публичных данных и отдельных наборов, выработка экспертных рекомендаций по источникам и наборам;
  • аудит публичных данных по качеству, количеству, метаданным и контексту, а также аудит источников наборов цифровых данных;
  • формирование компетенций и базы знаний в области публичных данных;
  • ведение реестра открытых и разделяемых данных (с проверкой по параметрам и возможностями подавать заявки на включение);
  • подготовка и тренинг специалистов в сфере открытия и разделения данных;
  • рекомендации для физических лиц по делегированию данных;
  • агрегирование и консультирование по нормативно-правовым актам;
  • формализация основ (регламентов, стандартов, типовых документов) в сфере публичных данных;
  • прямой предметный анализ данных по заказу и по собственной программе исследований;
  • снижение барьеров на входе в бизнес по работе с публичными данными (как для поставщиков, так и для получателей);
  • построение пакетных сервисов получения публичных данных через API;
  • инициирование проектов на основе пакетов данных, показательные примеры и идеи, заявки и оценка инициатив;
  • исследование рисков, связанных с публичностью данных, и выработка рекомендаций, способов минимизации, методик устранения последствий неблагоприятных ситуаций и т.д.;
  • инициатива создания и активное участие в развитии сообщества публичных данных как одного из направлений цифровой экономики;
  • развитие концепции публичных данных и её популяризация.

Исходя из вышеперечисленного становится понятным, что «лаборатория данных» является скорее функциональной подсистемой, хотя может быть реализована через самостоятельный бизнес. И это бизнес по созданию и (или) поддержке новых проектов (инициатив) в области публичных данных.

В фокусе не продажа данных, а продажа знаний о публичных данных, инструментов для их публикации и применения в полном или специализированном комплекте: программные приложения, техдокументация, обучение, шаблоны, приемы, лучшая практика и др.

Лаборатория данных представляет собой новый тип научно-исследовательских экономических субъектов, которые строят свою деятельность на нематериальных активах и работают в области открытых знаний. Чтобы публичные данные стали по-настоящему доступны всем желающим нужны сервисы их обработки и представления, их аудита и локализации. Эта задача «лабораторий» основана на необходимости сокращения транзакционных издержек в данной области. Что становится возможным только на централизации и автоматизации некоторых обязательных взаимодействий объектов в рамках модели бизнеса.

Другой особенностью подобной организации является информационная открытость в сфере обработки, анализа и распространения вторичных данных (сведений). Закрывать функционал и результаты лаборатории данных можно только в части разработки специальных компетенций и инструментов, но в целом, для поддержания активного развития, её придется сделать достаточно публичной, т.е. информационно открытой для неограниченного или условно-ограниченного круга лиц по широкому спектру вопросов.

Организации, подобные лаборатории данных, позволят снижать для других участников целевых процессов издержки на увязанные транзакции по публикации наборов цифровых данных и (или) их имплементации. Они позволят создать единый высокий уровень конкурентоспособности при использовании открытых, разделяемых и делегируемых данных, задавая таким образом некоторый запас прочности рынка по соответствующему направлению.

Портал открытых и разделяемых данных

Публичные данные, в особенности, открытые и разделяемые, хорошо бы собирать в одном месте. Некое общее упорядоченное и даже управляемое хранилище – портал цифровых открытых и разделяемых данных.

Портал, как централизация публичных данных – это важный ресурс, который должен развиваться активно и широко. Но вопрос, кто будет его развивать не совсем очевиден. Реализация на государственном уровне ограничится только открытыми данными, что будет конечно же правильным. Нет никакой необходимости от имени государственных структур публиковать данные отдельных коммерческих организаций или даже предоставлять им место для этого. Взятие же на себя отдельным бизнесом ответственности за создание единого портала разделяемых данных будет достаточно амбициозной и затратной задачей.

На портале публичных данных возможно размещение:

  • копий наборов опубликованных цифровых данных;
  • ссылок на опубликованные цифровые данные на других сетевых ресурсах;
  • ссылок на API по которым можно получить данные;
  • посреднических API по которым можно получить данные хранимые на портале или данные опубликованные с помощью сторонних программных интерфейсов.

Причем доступ к данным портала также можно реализовать альтернативно статическим и/или динамическим способами. То есть пользователи, которые готовы получать данные с помощью специальных программных инструментов воспользуются API, а все прочие простой загрузкой файлов.

Очевидно, что ценность портала многократно увеличивается, если он не просто перечисляет некие гипотетические цифровые наборы, а дает подробную им характеристику.
Иными словами, порталы должны сопровождать каждый набор паспортом данных с описанием качества набора данных, с указанием источника, ключевых метаданных и в привязке к контексту. Если же при этом всё это сопровождается экспертной оценкой публичных данных и аудитом не только структуры и формата, но и содержания, то подобный портал безусловно будет пользоваться успехом. Однако это достаточно трудоемко, а вариант с хранением копий публичных данных непосредственно на портале требует к тому же соответствующих технических ресурсов.

Один из возможных путей оптимизации функционала порталов публичных данных – это каталог. В отличии от полноценного портала, каталог лишь включает некие ссылки на прочие сетевые ресурсы и сопровождает их необходимым ограниченным описанием. Как один из вариантов упорядочивания наборов цифровых данных, каталог успешно может применяться, но как полноценная система открывающая доступ к разнообразным коллекциям и пакетам цифровых данных он много проигрывает портальной модели.

К сожалению, поисковые системы пока достаточно хорошо ищут простую текстовую информацию по запросу, но не сориентированы на поиск наборов данных или данных внутри наборов. Тем не менее, в настоящее время уже появились не совсем полнофункциональные порталы публичных данных (в понимании данной публикации), а скорее их прототипы и экспериментальные образцы. Информационная среда в глобальной сети развивается достаточно быстро и возможно, когда публичные данные наберут полную силу мы увидим несколько крупных проектов объединяющих их по тематическому или региональному принципу.

И тем не менее даже публичные данные организованные в каталоги или собранные на порталах остаются полем деятельности крупного бизнеса или отдельных экспертов-аналитиков. Для их эффективного применения в рамках среднего или малого бизнеса недостаточно предоставить прямой доступ к «открытой цифре», придется оснастить менеджеров результативными инструментами и, что не менее важно, передать им соответствующие компетенции.

Сеть публичных данных

Рано или поздно, но публичные данные вынужденно перейдут на другой качественный уровень.
Они преобразятся в стандартные структуры.
Их обрежут до общепринятых форматов.
Для них создадут удобные производительные места хранения.
И, конечно же, их свяжут между собой разнообразными управляемыми ссылками.
С ростом связывающих ссылок между различными наборами публичных данных, как общих, так и внутриструктурных, оформится целая сеть цифровых публичных данных. Для развития подобной сети придется выработать ряд практически значимых стандартов, как минимум по формату и содержимому межпакетных и внутриструктурных ссылок. Понадобятся и стандарты для качественного создания метаданных и увязки с контекстной информацией.

Сеть – это на порядок более сложная модель публичных данных и требования к ним повышаются в основном в части их снабжения высококачественными и полными метаданными.
Это в свою очередь требует развития такого направления как «цифровые метаданные».
В отличии от порталов, в рамках сети не только группируются публичные данные, но они связываются, дополняются, обогащаются. Причем связывание возможно и правомерно любых типов данных: открытых, разделяемых и делегируемых. Главное, чтобы эта связь осуществлялась по заданным правилам и решалась на основе понятных процедур.
Но сеть – это модель взаимосвязи данных, но не «точка входа» в наборы связанных данных. Порталы должны представлять такие «точки входа» и давать срез по тематике, структуре и формату публичных данных.

Сообщества публичных данных – это необходимая движущая сила в области формирования системы публичных данных и поиска новых знаний, это воплощение идеи сети публичных данных на уровне взаимодействия заинтересованных лиц.
Цель подобных сообществ: быстро и компетентно создавать и передавать эффективные решения в сфере свободных распространяемых цифровых данных. Находясь в сообществе гораздо легче и удобнее обмениваться заинтересованным пользователям, экспертам и аналитикам полученными результатами, наборами данных и их оценкой.

Поставщики заинтересованы в сообществе потому что оно привлекает новых пользователей и позволяет системно налаживать обратную связь.

Получатели заинтересованы в сообществе потому что оно формирует среду для развития компетенций и инструментов, а также заставляет поставщиков всерьез рассматривать потенциал модели публикации цифровых данных.

Появление сети не снимает потребность в бизнесах – лабораториях, которые работают в области публичных данных. Распределенная по сети «цифра» должна быть описана, структурирована, проверена на соответствие требованиям, дополнительно увязана с контекстом и альтернативой. Должны быть выработаны рекомендации по применению (имплементации) данных. Кроме того, остается ещё большое направление по созданию компетенций и инструментов работы с публичными данными объединенными в масштабную сеть.

Публичные данные – часть новой цифровой экономики

Объемы данных растут уверенно и интенсивно. Количество источников настолько велико и становится по-настоящему разнообразным: от отдельных граждан, до автономных физических или программных роботов. Доступ к данным свободен и свободны методы их анализа.

Выдвигая и тестируя гипотезы на массивах данных организуется процесс познания на ином качественном уровне с оптимизацией экономических расходов и управленческих процедур.
В результате появляются новые модели и новые решения старых проблем и удовлетворения насущных потребностей. Будет ещё больше неудачных проектов и стартов, ещё больше ошибочных выводов и критических замечаний, больше манипуляций с данными. Но в итоге открытость должна повысить независимость и объективность исследований и генерирования новых знаний.

В связи с этим возникают не только материальные или технологические проблемы. Психология «освобождения» данных связана в том числе с боязнью цензуры, с опасениями утечки значимых данных, с раскрытием коммерческой информации, с обострением конкуренции научных и исследовательских групп.

Публичные данные – это большая и важная часть новой модели цифровой экономики. И пора серьезно взяться за работу, в том числе, в этой части.
Цифровой мир заставит измениться бизнес и общество, он вынудит обмениваться все большими наборами данных для совместной эффективной деятельности. Некоторым придется кардинально пересмотреть свои подходы к ограничению распространения создаваемой информации и выбрать для себя открытый способ развития и роста или изолированную «песочницу» для примитивной деятельности по строительству «замков».
Публичные данные – не просто модный тренд или красивая терминология, а один из первых шагов к открытым знаниям эпохи цифровой экономики.

Автор: bizobj

Источник

Поделиться

* - обязательные к заполнению поля