Представьте, что вам дают 10 терабайт текста и говорят запихнуть это в файл на 70 гигабайт. Да так, чтобы потом по любому вопросу можно было восстановить нужный кусок. Не точно, но близко, и не побайтово, но чтобы по смыслу билось.
Вы бы сказали: «так это же lossy-компрессия, часть данных неизбежно потеряется».
И были бы правы, потому что именно это делает LLM.
Предсказание = сжатие (и это не метафора)
Тут нужно кое-что объяснить, и это самое важное в статье.
Клод Шеннон доказал в 1948 году: предсказание следующего символа и сжатие данных — математически одно и то жеЧитать полностью »




