Как известно из простеньких курсов по DS, есть два алгоритма инициализации весов в скрытых слоях нейронных сетей, будто свертки или полносвязные слои. В первые, когда лично я про них узнал, не сразу понял суть различия принципов их работы. В этой статье я попробую обойтись без сложной математики ( базовые выкладки мат.стата все равно будут, крепитесь) и показать на простых примерах разницу между этими двумя.
Почему нам вообще нужны какие-либо алгоритмы?
