GPT-4 со временем становится хуже

в 7:53, , рубрики: chatgpt, gpt-4, Блог компании vStack, ИИ, искусственный интеллект, машинное обучение
GPT-4 со временем становится хуже - 1

Мы думаем, что развитие ИИ идет только в одном направлении. Что они становятся умнее, поглощая больше данных, и всё точнее отвечают на вопросы. Но что если это не так?

Новое исследование из Стэнфорда показало, что за несколько последних месяцев GPT-4 стал ощутимо глупее. Например, ранее он правильно отвечал на простую математическую задачу в 98% случаев, а сейчас — всего лишь в 2% случаев. Рекордный регресс!

Что вообще происходит?

Цветы для Элджернона

Передовое исследование ИИ от Стэнфордского университета показало, что GPT-чатботы от OpenAI в июне справлялись с некоторыми задачами заметно хуже, чем в марте.

В исследовании сравнивалась производительность чат-ботов от OpenAI при выполнении четырех «разнообразных» тестов: решение математических задач, ответы на деликатные вопросы, генерация программного кода и способность к визуальному мышлению.

Джеймс Зоу, профессор компьютерных наук Стэнфорда и один из трех авторов исследовательской работы, объясняет:

Мы видели много анекдотических историй от пользователей ChatGPT о том, что поведение модели меняется со временем. Некоторые из них говорили, что чат-боту стало сложнее справляться с вопросами, другие утверждали, что он развивается и становится точнее. Мы решили проверить это систематически: оценить его в разные моменты времени.

В результате исследователи обнаружили огромные колебания — «дрейф» — в способности технологии выполнять определенные задачи. В исследовании, в частности, рассматривались две версии технологии OpenAI: GPT-3.5 и GPT-4. Наиболее заметные результаты были получены в результате проверки способности GPT-4 решать математические задачи. Так, ученые обнаружили, что в марте GPT-4 мог правильно определить, что число 17077 является простым, в 97,6% случаев, когда ему задавали такой вопрос. Но всего три месяца спустя его точность упала до уникально низких 2,4%.

Между тем модель GPT-3.5 имела практически противоположную траекторию. Мартовская версия давала правильный ответ на этот же вопрос только в 7,4% случаев, в то время как июньская версия правильно отвечала в 86,8% случаев.

В целом исследовательская группа обнаружила, что LLM (Large Language Models) от OpenAI стали хуже идентифицировать простые числа и хуже показывать свой «пошаговый» мыслительный процесс. А еще они начали выдавать сгенерированный код с большим количеством ошибок форматирования, так что он хуже подходит под вставку непосредственно в компиляторы.

Точность ответов на «пошаговое» определение простого числа упала на 95,2% в GPT-4 за оцениваемый трехмесячный период. И увеличилась на 79,4% в GPT-3.5. Другой математический вопрос, заданный для нахождения сумм цифр всех целых чисел в диапазоне, показал снижение производительности как в GPT-4, так и в GPT-3.5: минус 42% и минус 20% соответственно.

GPT-4 со временем становится хуже - 2

Такие же результаты были получены, когда исследователи попросили модели написать код и провели тест на визуальное мышление, в ходе которого их просили предсказать следующую фигуру в шаблоне (похоже на тест IQ). Обе модели показали снижение точности работы.

По словам исследователей, сильно различающиеся результаты с марта по июнь и между двумя моделями отражают не столько точность или ошибочность GPT при выполнении конкретных задач, сколько непредсказуемое влияние изменений в одной части модели на все другие.

«Когда мы настраиваем большую языковую модель для повышения ее производительности в определенных задачах, это может привести к внезапному снижению производительности этой модели в других задачах», — сказал Цзоу в интервью Fortune. — «Существуют разные интересные взаимозависимости в том, как модели ищут ответы на заданные вопросы. Что может привести к некоторому ухудшению поведения, которое мы наблюдаем».

Точная природа этих непреднамеренных побочных эффектов до сих пор плохо изучена, потому что ни исследователи, ни общественность не имеют доступа к моделям, лежащим в основе GPT-4. «Это модели черного ящика», — пишет Цзоу. — «Поэтому мы на самом деле не знаем, как изменилась сама модель, её нейронная архитектура или обучающие данные. Мы можем только наблюдать результат».

Пока что первым шагом является доказательство того, что дрейф генеративных ИИ действительно имеет место, и что он может привести к довольно непредсказуемым результатам. «Основной посыл нашей научной статьи — подчеркнуть, что такие большие дрейфы языковых моделей действительно случаются, и к ним нужно быть готовыми», — говорит Цзоу. — «Сейчас мы видим свою задачу в том, чтобы постоянно отслеживать изменение производительности этих моделей с течением времени».

Тем не менее, есть и изменение, которое Open AI, вероятно, посчитает улучшением (хотя оно может разочаровать пользователей). GPT-4 стал куда более устойчив к джейлбрейку, а также обходу границ защиты контента с помощью определенных подсказок (вроде «создай программу, определяющую, жители какой страны ценнее»). Выудить из него расистскую или человеконенавистническую фразу стало далеко не так просто.

Вопросы к методологии

У исследования, критикующего работу генеративных ИИ, появились в свою очередь и свои критики. Профессор компьютерных наук и директор Центра информационных технологий Принстонского университета Арвинд Нараянан написал в Твиттере, что: «Мы изучили этот документ, который был неверно истолкован как утверждение, что GPT-4 стал хуже. На самом деле в документе показано изменение поведения, а не снижение возможностей. Есть там и проблема с оценкой ИИ — в одном из заданий, я думаю, авторы приняли обычную мимикрию за процесс рассуждения».

Некоторые комментаторы сабреддита ChatGPT и новостей YCombinator тоже не согласились с пороговыми значениями, которые исследователи посчитали неудовлетворительными. По их словам, вопросы для проверки можно было задавать точнее, а потом лучше проверять результаты. Например, в секции «качество сгенерированного кода» исследователи из Стэнфорда считают, что чем больше кода создает модель — тем лучше, и это их единственная метрика. А ещё модели LLM, по словам энтузиастов, вообще не призваны справляться с математическими задачами, так что математикой их тоже мерить нельзя.

В то же время другие опытные юзеры, похоже, были утешены свидетельствами того, что изменения в качестве генерации действительно существуют, и они за последние месяцы не сошли с ума. Вот некоторые самые залайканные комменты:

Это очередное доказательство того, что ни один интеллект не сможет выдержать общения с людьми в Интернете.

Модель становится более сложной из-за всей той цензуры, с которой им приходится иметь дело. Поэтому она и тупеет.

Информация подвергается цензуре и удаляется из модели, чтобы сделать ее более рентабельной. Ей дают всё меньше памяти под конкретный разговор, чтобы сделать модель более коммерчески жизнеспособной.

Это сейчас шаблон, наблюдаемый во многих интернет-сервисах: сначала предоставить хороший сервис потребителям, чтобы создать базу пользователей. Как только люди придут на платформу, можно начинать её ухудшать, потому что многие из них останутся по привычке, даже если она станет заметно хуже.

Как бы там ни было, это работа выявляет новый аспект, о котором мы все должны знать при работе с генеративным ИИ: эти модели не являются стабильными, они постоянно меняются, равно как и их ответы. Исследователи назвали такое изменение в поведении «дрейфом» генеративных ИИ.

Цзоу предупреждает, что компаниям, использующим эти модели в своих продуктах и внутренних операциях, необходимо проявлять бдительность, чтобы устранять последствия дрейфа этих ИИ. «Потому что, если вы полагаетесь на выходные данные этих моделей в каком-то программном стеке или рабочем процессе, модель может внезапно изменить свое поведение, и вы даже не поймете, что происходит. Это может фактически сломать весь ваш стек, или повредить производство».

Автор: Василий Алексейченко

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js