Специалисты MIT обнаружили ошибки в наборах данных, используемых для тестирования ИИ

в 10:46, , рубрики: Новости

Команда исследователей, возглавляемая специалистами из Массачусетского технологического института (MIT), изучила десять наборов данных, чаще всего используемых для тестирования систем машинного обучения. Ученые обнаружили, что около 3,4% данных были неточными или неправильно маркированными. Это могло вызвать проблемы в системах искусственного интеллекта, которые используют эти наборы данных.

Наборы данных, на каждый из которых есть ссылки более чем в 100 000 работ, включают текстовые материалы, изображения и видео из групп новостей, магазина Amazon, сервиса YouTube и базы фильмов IMDb. Среди ошибок — отрицательные отзывы о товарах, ошибочно помеченные как положительные, неверное описание того, что изображено на иллюстрациях,  неточное описание содержания звукозаписей.

Специалисты MIT обнаружили ошибки в наборах данных, используемых для тестирования ИИ

Показательно, что для обнаружения возможных ошибок исследователи тоже использовали методы машинного обучения и соответствующие программные инструменты.

Остается добавить, что некоторые ошибки можно считать незначительными, а порой следует скорее говорить о неоднозначности входных данных. Тем не менее, в одном из наборов данных — тесте QuickDraw — ошибки есть примерно в 10% набора. Чему может научиться ИИ на таких данных — остается только догадываться.

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js