- PVSM.RU - https://www.pvsm.ru -
Отчёт вот [1]. Теперь давайте смотреть, а не читать.
Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации
Если вы пьяны, он пересчитает пиво и сверит с чеком:
Собственно, важное:
Давайте к деталям.
Можно парсить текст с фото:
Это традиционный навык, но здесь он очень впечатляет. Капче, кажется, хана:
Правда, не всё потеряно для капчи, с математикой, как обычно, не очень:
Таблицы:
Перевод и общее понимание:
Очень, очень хорошая работа с указателями. Можно обводить, показывать корявыми стрелочками, делать системные рамочки, всё очень хорошо фокусирует внимание. Можно хоть делить счёт по фотографии стола:
Хорошо строит взаимосвязи по кадрам, мини-обучение внутри промпта отлично работает (как и на текстовой версии). Здесь пока много ошибок по отчёту, но это одна из самых многообещающих способностей:
Распознаёт людей:
И даже абстракции:
Точно так же он отлично определяет достопримечательности по фото и еду:
Уверенно читает КТ:
Но жертвы будут:
С лёгкими, кстати, традиционно справляется хорошо.
Показывает общее понимание ситуации. Это, пожалуй, одна из самых удивительных вещей, потому что на этом свойстве строится много других сложных навыков. Слишком рано, слишком рано это появилось в нашем мире!
Вот комплексная задача: пересчитать людей и подписать каждого:
Хорошее мультимодальное понимание ситуации:
Но тут надо сказать, что вполне возможно, что по известной картинке он просто знает текстовое описание мема и толкует его.
Аналогичная ситуация, где можно решить и без картинки:
А вот это уже куда интереснее. Здесь нужно просто сделать выводы о том, что в сцене. Похоже, сначала ввод преобразуется в векторную модель (подробное описание в виде вектора, аналог огромного текстового описания от судмедэксперта), а потом по вектору уже применяются логические операции:
И вот:
Прогноз действий в видео(!):
Если вы думаете, что это всё, то нет. Смотрите:
Сочетание с указателями:
Пересказать видео? Не вопрос:
Этой фигнёй вы его не обманете:
Да и вообще не обманите, как он научится воспринимать видео в контексте допроса:
Манипулировать тоже уже умеет:
Невинная игра «найди 5 различий» превращается в поиск дефектов между идеальной векторной моделью объекта и образцом:
Но жертвы будут:
Определение корзины пока страдает без узкой базы того, что есть в магазине (рядом есть примеры с сужением базы, они точнее):
А вот это уже интересно:
Организационный порядок:
И попугай за рулём:
Фильтры, то есть смешение образца с идеей:
Очень, очень хорошие возможности для различной роботизации.
Вот для RPA:
А вот, например, гипотезы поиска холодильника:
Он и вас найдёт, дайте только ему одежду и мотоцикл.
Ещё раз, отчёт вот [1]. Уже видно, кого и сколько можно будет уволить из-за 4V. Это вам не ChatGPT, для работы с которым нужно сильно много думать и формулировать задачу. Этому можно просто показать, и он разберётся.
Ещё раз главное:
Про математику надо пояснить отдельно. Кажется, это общий недостаток всех LLM, потому что они учатся по примерам с решениями и пытаются уловить какие-то ускользающие от нас закономерности, но не сами принципы арифметических операций. И даже если учить модели на детализированных сетах с арифметикой и пошаговым разбором примеров, получится не очень. Вот тут у нас чуть больше деталей про этот китайский опыт [2]. Если что, мы с Milfgard [3] собираем в том числе новости про LLM в этом канале. Называется «Ряды Фурье». Всегда хотел это сказать, вступайте в ряды Фурье!
UPD: и там же второй фломастер — робо-API к физическому миру [4].
А что касается тендеций LLM, кажется, нам всем хана.
Автор: Ilia Martyn
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/387459
Ссылки в тексте:
[1] вот: https://arxiv.org/pdf/2309.17421.pdf
[2] больше деталей про этот китайский опыт: https://t.me/Fourier_series/14
[3] Milfgard: https://habr.com/ru/users/milfgard/
[4] робо-API к физическому миру: https://t.me/Fourier_series/30
[5] Источник: https://habr.com/ru/companies/orbita/articles/765156/?utm_source=habrahabr&utm_medium=rss&utm_campaign=765156
Нажмите здесь для печати.