Современное обучение нейросетей часто напоминает алхимию. У нас есть работающие рецепты, но как именно статистическая модель превращает терабайты текста в понимание до сих пор непонятно.
Почему возможно сублиминальное обучение (передача паттернов через шум)? Почему обучение на синтетических данных приводит к деградации, даже если данные кажутся качественными?







