Видовое разнообразие данных

Видовое разнообразие данных - 1

Термин «большие данные» давно уже звучит привычно, и многие даже понимают, что это такое на самом деле и как его использовать. В то же время, специалисты по анализу данных придумали множество других градаций собираемой информации, в зависимости от размера, востребованности, актуальности и так далее. Удивительно, но данные могут быть «быстрыми», «горячими», «длинными» и «медленными», даже «грязными». Хотя весь этот аналитический зоопарк и не помог многочисленным аналитикам правильно предсказать решение британцев выйти из ЕС и победу Трампа.

Большие данные — это не просто очень большие массивы информации, но совокупность подходов, методов и инструментов обработки различных данных колоссальных объёмов.
Большие данные — не просто сведения, это социально-экономический феномен, который обязан своим появлением необходимости анализировать огромные массивы информации в мировом масштабе.

Big Data опираются на три V: volume (объём), variety (разнообразие) и velocity (скорость). С объёмом всё понятно. Разнообразие зависит от широты спектра источников, питающих базы данных. А скорость вообще главный показатель современного мира, который не останавливается ни на секунду.

А можно ли, к примеру, считать «большими данными» соцопросы, пусть даже охватывающие тысячи человек? Объём информации, которую можно получить из всевозможных опросов достаточно велик, но всё же не настолько, поэтому её можно отнести скорее к «средним данным ^[1]». Наверное, если бы предвыборная аналитика охватывала миллионы респондентов, то это уже были бы «большие данные». Также Big Data может складываться из кирпичиков «маленьких данных ^[2]».

Одним из трендов сегодня являются «быстрые данные ^[3]». В современном мире всё происходит молниеносно. В приложениях и социальных сетях информация, которой 1-2 часа, уже не актуальна, на кону каждая секунда. Быстрые данные важны и для банковских приложений, и для приложений социальных сетей, и особенно для мессенджеров. Каждую секунду пользователи получают новые уведомления, на основе которых принимают важные для себя решения.

Для того, чтобы накопить «медленные данные ^[4]», потребуется достаточно много времени. В отличие от быстрых данных, которые можно получить с помощью моментального опроса, медленные накапливаются буквально по крупице. Например, вы проводите опрос участников конференции по разработке. Каждый участник опрашивается до, во время и после мероприятия. Затем вся информация очень тщательно обрабатывается и суммируется.

А когда длительность накопления начнёт измеряться веками, медленные данные превратятся в «длинные ^[5]». Так как эпоха Big Data началась сравнительно недавно, то сегодня длинные данные нужно искать не в интернете, а в книгах, манускриптах, на стенах памятников архитектуры и при археологических раскопках. Исторический аспект может оказаться очень важным для конкретного исследования!

Хотя данные и не пирожки, они могут быть «горячими» и «холодными» ^[6]. Здесь работает принцип «свежести»: более «свежие» — горячие — данные представляют бо̒льшую ценность. Для простого пользователя долгожданный комментарий в мессенджере «свежестью» в 10 секунд более важен, чем уже «холодный» комментарий, созданный 2 часа назад. Конечно, он ещё может быть полезен, например, чтобы уточнить какой-то факт из переписки: вспомнить название предложенной другом книги или фильма, уточнить время встречи, и так далее. Доступ к горячим данным должен быть постоянным. Холодные данные нужны нам не так часто, поэтому и постоянный доступ к ним — отнюдь не первая необходимость.

Помимо характеристики размера, скорости или температуры, данные могут классифицироваться и по их чистоте. «Грязными ^[7]» называют такие данные, которые либо ошибочны, либо содержат неполную или непоследовательную информацию, и обычно они практически бесполезны. Грязные данные составляют большую часть информации, накопленной во многих компаниях. В то же время здесь могут попадаться настоящие информационные сокровища — ценные долгосрочные идеи. Но от грязных данных хватает и неприятностей. Как утверждают в компании GovTechWorks, такая неструктурированная и нерелевантная информация обходится американским компаниям в $6 миллиардов ежегодно!

Видовое разнообразие данных - 2

Термин «ответственные данные ^[8]», описывает ситуацию, когда накапливается только достоверная информация, которая берётся из проверенных источников, хранится и передаётся с соблюдением строгих мер безопасности.

«Толстые данные ^[9]» — это следующий шаг после того, как мы наиграемся с big data: помимо количественных характеристик здесь учитываются и качественные. То есть одних только сухих цифр в гигантских объёмах уже недостаточно для глубокого понимания тенденций и протекающих процессов, для полноты анализа необходимо принимать во внимание такие вещи, как, например, человеческие эмоции.

Большие данные правят миром

При таком разнообразии определений возникает вопрос: какие же они на самом деле, эти данные? В первую очередь, большие, гигантские! Big Data собираются рядом с нами, вокруг нас и даже о каждом из нас. Маленькие песчинки медленно и верно формируют их.

На память сразу приходит популярная фраза «Большой брат следит за тобой». Из собираемых повсеместно обрывков информации складываются определенные базы данных, используемые для тех или иных исследований и манипулирования общественным мнением. Впоследствии вся полученная информация анализируется, и происходит так называемое гадание об исходе важных событий. Это гадание порождает всевозможные прогнозы по поводу побед на выборах, изменениям политической обстановки в стране, или колебаниях популярности какой-либо музыкальной группы среди молодежи.

Видовое разнообразие данных - 3

Звание чемпионов по сбору Big Data заслужили такие три кита, как Google, Facebook и Amazon. Эти корпорации фиксируют малейший щелчок мышки каждого пользователя их порталов. И всё это ради глобального сбора информации. На большие данные возлагаются серьёзные надежды. Исследователи предрекают их огромное влияние на все отрасли человеческой жизни и деятельности. Не обошла эта участь и медицину, и науку.

Чем же Big Data могут быть полезны в медицине? Дело тут даже не в размере накопления информации, а в методиках её обработки и анализа. Объём медицинских данных в ряде сфер уже давно достиг размеров, что их проблематично не то что обрабатывать, а даже хранить. Самый яркий пример — расшифровка человеческого генома, состоящего более чем из 3 миллиардов знаков. На эту работу под эгидой Национальной организации здравоохранения США ушло 13 лет (с 1990 года по 2003-й). В 2017-м же, благодаря росту мощности компьютеров и развитию теоретического и программного инструментария, на подобную задачу потребуются недели, а то и дни.

Основной задачей больших данных в медицине является создание максимально полных и удобных реестров медицинской информации с возможностью взаимного обмена, что позволит повсеместно ввести полные электронные карты пациентов, содержащих всю медицинскую историю с момента рождения. Это позволит значительно оптимизировать работу учреждений здравоохранения.

Но давайте вернёмся к последним нашумевшим событиям, которые в прямом смысле этого слова перевернули мировой интернет — победа Дональда Трампа на выборах. Хотя его победа оказалась неожиданностью для множества людей, в том числе аналитиков и политтехнологов, вероятно, во многом это всё же закономерный результат грамотного использования больших данных.

Швейцарский журнал Das Magazin ^[10] утверждает, что эту победу обеспечили пара ученых, Big Data и современные технологии. Некто Михаль Косински разработал уникальную систему, которая позволяет выяснить максимум информации о человеке только лишь по его лайкам в соцсетях — так называемый «микротаргетинг». Позднее разработка Косински, против его желания, начала использоваться в крупных политических играх. Позже та же система сработала в предвыборной кампании американского бизнесмена. Никто и не догадывался о связи политика с аналитической компанией, ведь на столе Дональда нет даже компьютера. Но нынешний президент США выдал себя сам. Он написал в своём аккаунте Твиттер, что скоро его будут называть Mr. Brexit.

В своей предвыборной кампании Хиллари Клинтон действовала традиционно — обращалась к разным группам населения страны, составляя отдельные обращения к чернокожему населению и женщинам. Cambridge Analytica действовали по-другому. Закупив базы данных совершеннолетних жителей США, они изучали каждого из них по методу OCEAN, учитывая личные предпочтения и интересы. В зависимости от своего характера и склада ума, каждому человеку из баз данных отправлялись послания с призывом проголосовать за клиента Cambridge Analytica, причём обоснование было подобрано в зависимости от ранее построенного индивидуального профиля адресата. Некоторые из сообщений даже были построены на принципе противоречия, и предлагали голосовать за Хиллари.

Косински, учёный, придумавший систему микротаргетинга, пока лишь наблюдает за таким использованием его разработки со стороны. По словам Михаля, не его вина в том, что изобретение стало бомбой в чужих руках. Надо подчеркнуть, что публикация швейцарского журнала подверглась критике со стороны многочисленных европейских СМИ, которые заявляют о бездоказательности приведённой информации.

Пока обсуждается вопрос о том, действительно ли большие данные повлияли на выборы в США, эти данные продолжают изучаться и систематизироваться. Берегитесь социальных сетей — кто знает, за кого вы ещё проголосуете или что побежите покупать, испытав на себе воздействие больших данных?

Автор: ASUS Russia

Источник ^[11]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/blog-kompanii-asus-russia/249531

Ссылки в тексте:

[1] средним данным: https://hbr.org/2013/03/nonprofits-master-medium-data-1

[2] маленьких данных: http://www.eweek.com/enterprise-apps/small-data-analysis-the-next-big-thing-advocates-assert.html

[3] быстрые данные: http://www.onstrategies.com/blog/2012/03/11/fast-data-hits-the-big-data-fast-lane/

[4] медленные данные: http://www.smooththepath.net/2016/04/04/slow-data-vs-fast-data/

[5] длинные: https://www.wired.com/2013/01/forget-big-data-think-long-data/

[6] «горячими» и «холодными»: http://insideanalysis.com/2013/06/redefining-hot-and-cold-data/

[7] Грязными: https://www.govtechworks.com/dirty-data-got-you-down-clean-it-up/#gs.DhsrGio

[8] ответственные данные: https://www.theengineroom.org/responsible-data/

[9] Толстые данные: http://bloomreach.com/2014/05/big-data-is-yielding-to-thick-data-and-thats-a-good-thing/

[10] Das Magazin: https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/

[11] Источник: https://geektimes.ru/post/286928/

Нажмите здесь для печати.