Для обучения GPT-4 компания OpenAI транскрибировала более миллиона часов видео с YouTube

Недавно мы сообщали о том, что компании, создающие большие языковые генеративные модели, сталкиваются с проблемой недостатка качественных данных для обучения своих ИИ ^[1]. Как сообщается, OpenAI частично решила проблему благодаря YouTube.

Ещё для обучения GPT-4 компания создала модель транскрипции аудио Whisper и в итоге перевела в текст более миллиона часов видео с YouTube. The New York Times говорит, что OperAI прекрасно понимала, что это серая зона с юридической точки зрения, но всё равно пошла на это. Вполне возможно, сейчас для обучения GPT-5 компания пользуется в том числе этим же методом.

Источник говорит, что уже для GPT-4 компания OpenAI фактически исчерпала все запасы качественных данных для обучения, причём ещё в 2021 году.

Источник ^[3]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/390859

Ссылки в тексте:

[1] проблемой недостатка качественных данных для обучения своих ИИ: https://www.ixbt.com/news/2024/04/02/i-celogo-interneta-malo-dlja-sozdanija-bolshih-jazykovyh-modelej-novogo-pokolenija-vkljuchaja-gpt5-poprostu-ne-hvataet.html

[2] Image: #

[3] Источник: https://www.ixbt.com/news/2024/04/07/gpt-4-openai-youtube.html

Нажмите здесь для печати.