- PVSM.RU - https://www.pvsm.ru -

Microsoft удалила крупнейшую в мире базу лиц MS Celeb, но та уже разошлась по интернету

Microsoft удалила крупнейшую в мире базу лиц MS Celeb, но та уже разошлась по интернету - 1

Microsoft убрала из интернета свою базу данных на 10 миллионов лиц MS Celeb, пишет [1] Financial Times. Фотографии под лицензией Creative Commons использовались для обучения систем распознавания лиц учёными со всего мира. К сожалению, среди них оказались военные подразделения и китайские фирмы SenseTime и Megvii, которые специализируются на разработке систем видеонаблюдения. Вероятно, это могло вызвать недовольство в высших эшелонах власти и породить обвинения в адрес IT-компании, которая якобы оказывает техническое содействие потенциальному врагу.

База данных MS Celeb вышла в 2016 году. Microsoft описывает её как крупнейший общедоступный набор данных распознавания лиц в мире, содержащий более 10 млн изображений почти 100 000 человек.

Фотографии людей использовались без согласия: их собирали в интернете из поисковых систем и видеороликов, опубликованных в соответствии с условиями лицензии Creative Commons, которая позволяет использование фотографий в научных целях.

Microsoft убрала базу данных вскоре после апрельской публикации статьи [2] Financial Times о том, кто конкретно пользуется этими данными в неблаговидных целях. Компания сказала: «Сайт предназначен для научных целей. Он запущен сотрудником, который больше не работает с Microsoft, а теперь база удалена из публичного доступа».

После статьи FT из открытого доступа исчезли ещё два набора данных, включая Duke MTMC [3] от университета Дьюка и набор данных Стэнфордского университета под названием Brainwash [4].

База Brainwash собрана из кадров камеры видеонаблюдения кафе Brainwash в Сан-Франциско. Представители Стэнфордского университета сказали, что убрали базу данных после просьбы одного из авторов исследования, для которого она использовалась.

Все три набора данных обнаружил в открытом доступе берлинский исследователь Адам Харви. На сайте Megapixels [5] он публикует ссылки на десятки таких наборов данных, приводит детальную информацию об их составе и о том, как они используются. Например, набор данных MS Celeb использовали несколько коммерческих организаций, включая IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime и Megvii. Две последние — китайские поставщиками оборудования для государственной системы видеонаблюдения в Синьцзяне, где уйгуров и других мусульман содержат в лагерях для интернированных.

Исследование Харви показало, что Microsoft сама использовала набор данных для обучения алгоритмам распознавания лиц. Компания назвала набор данных MS Celeb с целью указания, что собранные фотографии — снимки общественных персон. Но на самом деле это далеко не так. Харви обнаружил, что набор данных включал многих людей, которые вряд ли ожидали себя увидеть в этой базе, в том числе журналистов, которые пишут на темы безопасности и Джули Брилл, бывшего комиссара FTC, ответственную за защиту приватности потребителей.

«Microsoft использовала термин „знаменитость”, чтобы включить в базу людей, которые просто работают в интернете и представлены здесь, — говорит Харви. — Многие люди в списке даже известные критики этой самой технологии, которую Microsoft разрабатывает, используя их биометрическую информацию».

«Я ни в коем случае не публичный человек и никоим образом не отказывался от своего права на сохранение конфиденциальности, — сказал Адам Гринфилд, журналист на тему IT и информационной безопасности, которого включили в набор данных. — Мне это говорит о глубоком непонимании [компанией Microsoft], что такое конфиденциальность».

Эксперты допускают, что Microsoft нарушила европейский закон GDPR, распространяя набор данных MS Celeb после вступления в силу GDPR в прошлом году. «Вероятно, они убрали базу, потому что их юристы выразили озабоченность, что у них нет оснований для обработки данных этой категории в соответствии со статьей 9 закона GDPR, — сказал Майкл Вил, исследователь технологической политики в Институте Алана Тьюринга. — Они могут не иметь права на обработку биометрических данных в целях „уникальной идентификации физического лица”… Особенно когда набор данных начали использовать не только в академических целях, но и для коммерческих продуктов. Есть основания полагать, что люди в наборе данных не могут рассматриваться как явно и чётко согласившиеся на обнародование своих лиц».

Microsoft заявила, что не знает о каких-либо последствиях GDPR, а сайт удалён в связи с завершением исследовательского проекта.

Хотя Microsoft убрала базу данных, она по-прежнему доступна исследователям и компаниям, которые скачали её раньше. Харви говорит, что набор данных по-прежнему используется и распространяется через другие источники: «Вы не можете заставить исчезнуть набор данных. Как только вы его опубликуете и люди его скачают, он существует на жёстких дисках по всему миру, — сказал он. — Теперь он полностью отделён от любых лицензий, правил или полномочий, которыми ранее владела Microsoft. Люди публикуют его на GitHub, размещают файлы на Dropbox и Baidu Cloud, поэтому нет никакого способа помешать людям публиковать эти данные и использовать в своих целях».

Автор: alizar

Источник [6]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/open-source/320190

Ссылки в тексте:

[1] пишет: https://www.ft.com/content/7d3e0d6a-87a0-11e9-a028-86cea8523dc2

[2] статьи: https://www.ft.com/content/cf19b956-60a2-11e9-b285-3acd5d43599e

[3] Duke MTMC: http://vision.cs.duke.edu/DukeMTMC/#data-set

[4] Brainwash: https://purl.stanford.edu/sx925dc9385

[5] Megapixels: https://megapixels.cc/datasets/

[6] Источник: https://habr.com/ru/post/455232/?utm_campaign=455232&utm_source=habrahabr&utm_medium=rss