Почему галлюцинируют нейросети [и что с этим делают]

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны.

Сегодня мы обсудим, как современные исследователи решают проблему галлюцинаций LLM, какие методы для этого применяют и как выгодно использовать ^[1] виртуальную инфраструктуру с GPU для обучения нейросетей.

Работа с данными

Одним из факторов, вызывающих галлюцинации в LLM, является характер обучающей выборки. Как правило, крупные модели вроде Llama или ChatGPT обучают на масштабных сводах данных, собранных по разным источникам. Проверить фактическую корректность информации в таком объеме проблематично. Однако, если обучающие данные содержат ошибки, модель может запомнить некорректные паттерны и воспроизводить их в общении с пользователями (галлюцинировать).

Существуют специальные модели, способные обнаруживать такого рода галлюцинации. Они сравнивают ответы нейросети с проверенной информацией и указывают на ошибки. Но их эффективность также зависит от качества исходных данных. Кроме того, такие «детекторы» обучают на узкоспециализированных сводах информации. В итоге они зачастую эффективны в той или иной целевой области, но далеко не всегда масштабируются на широкий контекст и соответствующие задачи.

Решением проблем, связанных с галлюцинациями, вызванными некачественными обучающими данными, занимаются десятки специалистов — как в исследовательских институтах, так и частных организациях. Так, летом этого года команда из энергетической компании Galileo Technologies разработала ^[2] модель под названием Luna. Её цель — выявлять галлюцинации в LLM для промышленного применения.

Эта модель содержит 440 млн параметров и основана на архитектуре DeBERTa ^[3]. Она прошла тонкую настройку на основе тщательно отобранных данных RAG. Ключевая особенность модели — новый подход к разбиению (chunking). Текст разбивается на части, содержащие вопрос, ответ и набор контекстных токенов. Такой подход позволяет запомнить больше контекста и снижает вероятность появления ложных положительных результатов при выявлении галлюцинаций.

В своей научной работе команда специалистов отмечает ^[4], что Luna способна обрабатывать до 16 тыс. токенов за несколько миллисекунд. В задачах генерации текста (на датасете RAGTruth ^[5]) модель Luna показала результаты, сопоставимые с теми, что выдают решения на базе GPT-3.5. В общем рейтинге Luna уступает только модели Llama-2-13B, но у последней в разы больше параметров (13 млрд против 440 млн). Разница влияет на возможности решений и корректность ответов.

Примером другой модели для выявления галлюцинаций может быть open source решение Lynx от команды, в которую вошли инженеры из Стэнфорда и пары коммерческих организаций. Соответствующую статью они опубликовали ^[6] в июле этого года. Специалисты сфокусировались на сложных для обнаружения галлюцинациях. Они дообучили Llama-3-70B на наборах данных PubmedQA, DROP и FinanceBench, самостоятельно внедрив в них некоторые искажения. Эти своды информации покрывают области знаний вроде медицины и финансов, где нейросети часто испытывают трудности.

Команда также представила бенчмарк HaluBench для оценки качества выявления галлюцинаций, который состоит из 15 тыс. примеров корректных и некорректных ответов. Модель Lynx с 70 млрд параметров в среднем оказалась на 1% точнее, чем GPT-4o. В узкоспециализированных задачах разница была более заметна: Lynx показала себя на 8,3% лучше в определении некорректных ответов, чем GPT-4o.

Обработка фактов

Когда LLM сталкивается со словами или фразами, имеющими несколько значений, то может их путать и тем самым галлюцинировать. Чтобы бороться с семантическими галлюцинациями, разработчик Майкл Келвин Вуд предложил подход под названием Fully-Formatted Facts. Он подразумевает преобразование входных данных в компактные и самодостаточные утверждения. Они должны быть правдивы, не конфликтовать с другими и представлять собой простые, законченные предложения.

Сам по себе подход Fully-Formatted Facts — это новая и коммерческая разработка, поэтому о внутренней реализации известно немного. Хотя на старте разработчик использовал библиотеку Spacy для распознавания именованных сущностей (NER), а затем перешел на LLM, которая помогает превращать текст на входе в деривативы, лишенные двусмысленности, сохраняя писательский стиль оригинального документа. В тестах на сторонних датасетах вроде RAGTruth, модель FFF полностью исключила галлюцинации в GPT-4 и GPT-3.5 Turbo на вопросно-ответных задачах.

Статистические методы

Иногда нейросети выдают разные ответы на один и тот же вопрос. Этот тип галлюцинаций называют конфабуляцией — ложными воспоминаниями, в которых факты (порой видоизмененные) сочетаются с вымышленными событиями. В таких ситуациях трудно определить, действительно ли система ИИ не обладает необходимыми знаниями или просто не может правильно сформулировать ответ.

Исследователи из Оксфордского университета, при поддержке Института Алана Тьюринга, опубликовали ^[7] научную работу в журнале Nature, в которой представили модель, способную обнаруживать такого рода галлюцинации.

Решение построено на базе статистических методов, оценивающих неуверенность ответов нейросети с помощью анализа энтропии. Основная идея заключается в том, чтобы измерять неуверенность на уровне смыслов, а не отдельных словосочетаний или фраз.

Новый метод позволяет ^[8] выявлять ситуации, когда запрос может привести к конфабуляции, и своевременно предупреждать пользователей о возможной ненадежности ответа. В то же время такой подход может помочь системам, работающим на основе LLM, избегать ответов на вопросы, которые могут спровоцировать галлюцинации. Одно из преимуществ подхода заключается в том, что он адаптируется к различным наборам данных и не требует предобучения.

Что дальше

LLM обучают на масштабных сводах данных, а любая сложная система неизбежно содержит «слепые пятна» и ситуации, в которых она не способна сгенерировать корректный ответ. С другой стороны, у методов выявления LLM-галлюцинаций тоже есть ряд особенностей и недостатков.

Например, подход с оценкой энтропии основывается на предположении, что свойства распределения выходных данных уже известны. Так, на вопрос «Чем известен Том Круз?» можно дать самые разные ответы. Каждый из них отличается в семантическом смысле, но будет верным. В целом можно с уверенностью говорить о том, что работа над оценкой и устранением галлюцинаций в нейросетях будет продолжаться и закрепится в роли одной из наиболее востребованных ниш на рынке.

Несмотря на достигнутый прогресс, впереди еще много сложностей. С учетом стремительного развития технологий, вероятно, потребуется регулярно внедрять новые подходы и решения. Модели становятся сложнее, и для поддержания их надежности нужно постоянно адаптировать методы обучения и контроля качества.

Ускорить тренировку моделей помогут облачные GPU-ускорители — теперь ^[1] со скидкой 25%.

Автор: randall

Источник ^[9]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/ii/401550

Ссылки в тексте:

[1] использовать: https://mws.ru/promo/gpu/?utm_source=habr.com&utm_medium=owned_media_hallucinategpu&utm_content=article&utm_term=hallucinategpu

[2] разработала: https://siliconangle.com/2024/06/06/ai-accuracy-startup-galileos-new-llm-family-designed-evaluate-llms/

[3] DeBERTa: https://github.com/microsoft/DeBERTa

[4] отмечает: https://arxiv.org/pdf/2406.00975

[5] RAGTruth: https://github.com/ParticleMedia/RAGTruth

[6] опубликовали: https://arxiv.org/pdf/2407.08488

[7] опубликовали: https://www.nature.com/articles/s41586-024-07421-0

[8] позволяет: https://www.ox.ac.uk/news/2024-06-20-major-research-hallucinating-generative-models-advances-reliability-artificial

[9] Источник: https://habr.com/ru/companies/mws/articles/855968/?utm_campaign=855968&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.