- PVSM.RU - https://www.pvsm.ru -
Команда исследователей, возглавляемая специалистами из Массачусетского технологического института (MIT), изучила десять наборов данных, чаще всего используемых для тестирования систем машинного обучения. Ученые обнаружили, что около 3,4% данных были неточными или неправильно маркированными. Это могло вызвать проблемы в системах искусственного интеллекта, которые используют эти наборы данных.
Наборы данных, на каждый из которых есть ссылки более чем в 100 000 работ, включают текстовые материалы, изображения и видео из групп новостей, магазина Amazon, сервиса YouTube и базы фильмов IMDb. Среди ошибок — отрицательные отзывы о товарах, ошибочно помеченные как положительные, неверное описание того, что изображено на иллюстрациях, неточное описание содержания звукозаписей.
Показательно, что для обнаружения возможных ошибок исследователи тоже использовали методы машинного обучения и соответствующие программные инструменты.
Остается добавить, что некоторые ошибки можно считать незначительными, а порой следует скорее говорить о неоднозначности входных данных. Тем не менее, в одном из наборов данных — тесте QuickDraw — ошибки есть примерно в 10% набора. Чему может научиться ИИ на таких данных — остается только догадываться.
Источник [2]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/362866
Ссылки в тексте:
[1] Image: https://www.pvsm.ru/img/n1/news/2021/2/1/ExnmIouWQAInbTU_large.jpg
[2] Источник: https://www.ixbt.com/news/2021/03/29/specialisty-mit-obnaruzhili-oshibki-v-naborah-dannyh-ispolzuemyh-dlja-testirovanija-ii.html
Нажмите здесь для печати.