Современное машинное обучение — это алхимия: есть рабочие рецепты, но нет строгой теории. Мы знаем, что dropout помогает, batch norm стабилизирует, а learning rate = 3e-4 часто работает лучше всего — но почему? Разбираемся, что происходит в обучении нейросетей, и почему путь от алхимии к науке лежит через эксперименты
С каждым месяцем нейросети становятся всё умнее, но каждый шаг, такое ощущение, даётся всё сложнее и сложнее. Попробуем посмотреть со стороны, что происходит в обучении нейросетей.


