Главная

Рубрика «gelu»

Стресс-тест функций активации: GELU vs Tanh

2026-01-25 в 9:17, admin, рубрики: gelu, tanh, искусственный интеллект

В современных нейросетях, включая LLM на базе Transformer, стандартом стали неограниченные функции активации — ReLU и GELU. Их основное преимущество, хорошая проходимость градиентов и быстрое обучение глубоких моделей.

Однако на практике наблюдается проблема: при появлении доминирующих паттернов или высокочастотного шума во входном контексте (длинные диалоги, шумные данные, повторяющиеся или доминирующие токены) модели становятся нестабильными и склонными к деградации генерации и галлюцинациям.

В этой статье я попытался выяснить, может ли быть связан принципиально выбор функции активации с галлюцинациями LLM.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «gelu»

Стресс-тест функций активации: GELU vs Tanh

Читать полностью »