Если использовать нейросеть как «большой словарь токенов» для архиватора, то можно разработать архиватор с рекордным коэффициентом сжатия. Например, сейчас в мировом бенчмарке Large Text Compression Benchmark (LTCB) лидирует компрессор NNCP, в котором Фабрис Беллар реализовал примерно такую идею:
|
Результаты LTCB на текстовом корпусе enwik9 (первые 1 000 000 000 байт текста англоязычной Википедии — |
||||
