Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.
В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.
Для начала давайте взглянем на архитектуру Vision Transformer: