Рубрика «машинное обучение» - 3

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!

Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.

Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.

Содержание:

  • Архитектура трансформера

  • Механизм внимания

  • Позиционные эмбеддинги

  • Токенизация

  • Трансформерные архитектуры (BERT, GPT и тд)

  • Полезные материалы

Читать полностью »

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.

Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.

На сегодня существует две версии этого теста. Так о чем же он?

ARC-AGI-1

История начинается в 2019 году со статьиЧитать полностью »

Привет Хабр, меня зовут Эдуард, и я хочу поделиться своими наблюдениями о том, как статистические алгоритмы извлекают грамматику из текстов.

Введение

Создание языковых моделей для низкоресурсных языков — задача, где успех определяется не столько вычислительной мощностью, сколько правильной подготовкой данных. Особенно это критично для морфологически богатых языков, таких как кабардинский, адыгейский, чеченский или дагестанские языки, где одна словоформа может содержать информацию о лице, времени, виде, пространственных отношениях и множестве других грамматических категорий.

Читать полностью »

Решая соревнования на Kaggle начинаешь замечать паттерн. Baseline сделать просто: загрузить данные, запустить CatBoost или LightGBM, получить baseline метрику. Это занимает полчаса. Но чтобы попасть в топ решений, нужно перепробовать десятки вариантов препроцессинга, сотни комбинаций фичей и тысячи наборов гиперпараметров.

Читать полностью »

Стать Middle NLP Engineer за 6 месяцев — реально.

Не за два года, не через бесконечные курсы — а за полгода нормальной учебы.

Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.

Почему это реально:

  • Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрее

  • После нахождения первой работы я вырос до Senior за год;

  • Я регулярно провожу собеседования и знаю реальные требования;

  • Уже помог нескольким людям войти в профессию.

Читать полностью »

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».

Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

Читать полностью »

Всем привет! Меня зовут Саша, работаю ведущим аналитиком в Озон Банке. По мотивам доклада на онлайн-дне МатеМаркетинга'25 было решено написать данную статью, пересказывающую основные идеи доклада о семплировании Томпсона

Решаемая задача

Представьте: вы пришли в казино с кучей игровых автоматов.

  • Вы хотите найти тот, в котором вероятность выигрыша наибольшая, проверяя автоматы путем игры в них.

  • Каждая итерация проверки платная - вы хотите крутить "плохие" автоматы как можно меньше

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js