- PVSM.RU - https://www.pvsm.ru -

Недавно в журнале Nature вышла статья [1], которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим . Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!
Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака - это что-то живое, а стул - нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты - основа нашего
Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов - от животных до техники - и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:
Люди - тысячи участников с платформы Amazon Mechanical Turk.
Языковая модель (ChatGPT-3.5) - она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).
Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.
Из этих ответов учёные построили «ментальные карты» - математические представления, где каждый объект - это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.
Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы - они следовали логике, похожей на человеческую.
Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое - еду, третье - технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» - то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!
Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:
Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому
Люди - мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.
ChatGPT - педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».
Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого
Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш
Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории - животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.
Анализируя нейросети, мы можем лучше понять, как работает наш собственный
Что такое понимание? Нужен ли биологический
Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:
Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.
Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.
Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково.
Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.
Это исследование - настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие - и на уровне поведения, и на уровне активности
Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования - это шаги к разгадке.
Присоединяйтесь к нашему тг-каналу: [3] обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.
Автор: Nikta3
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/ii/424921
Ссылки в тексте:
[1] журнале Nature вышла статья: https://www.nature.com/articles/s42256-025-01049-z
[2] мышлением: http://www.braintools.ru
[3] тг-каналу:: https://t.me/nikta_ai
[4] Источник: https://habr.com/ru/articles/927060/?utm_campaign=927060&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.