Рубрика «машинное обучение»

Привет Хабр, меня зовут Эдуард, и я хочу поделиться своими наблюдениями о том, как статистические алгоритмы извлекают грамматику из текстов.

Введение

Создание языковых моделей для низкоресурсных языков — задача, где успех определяется не столько вычислительной мощностью, сколько правильной подготовкой данных. Особенно это критично для морфологически богатых языков, таких как кабардинский, адыгейский, чеченский или дагестанские языки, где одна словоформа может содержать информацию о лице, времени, виде, пространственных отношениях и множестве других грамматических категорий.

Читать полностью »

Решая соревнования на Kaggle начинаешь замечать паттерн. Baseline сделать просто: загрузить данные, запустить CatBoost или LightGBM, получить baseline метрику. Это занимает полчаса. Но чтобы попасть в топ решений, нужно перепробовать десятки вариантов препроцессинга, сотни комбинаций фичей и тысячи наборов гиперпараметров.

Читать полностью »

Стать Middle NLP Engineer за 6 месяцев — реально.

Не за два года, не через бесконечные курсы — а за полгода нормальной учебы.

Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.

Почему это реально:

  • Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрее

  • После нахождения первой работы я вырос до Senior за год;

  • Я регулярно провожу собеседования и знаю реальные требования;

  • Уже помог нескольким людям войти в профессию.

Читать полностью »

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».

Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

Читать полностью »

Всем привет! Меня зовут Саша, работаю ведущим аналитиком в Озон Банке. По мотивам доклада на онлайн-дне МатеМаркетинга'25 было решено написать данную статью, пересказывающую основные идеи доклада о семплировании Томпсона

Решаемая задача

Представьте: вы пришли в казино с кучей игровых автоматов.

  • Вы хотите найти тот, в котором вероятность выигрыша наибольшая, проверяя автоматы путем игры в них.

  • Каждая итерация проверки платная - вы хотите крутить "плохие" автоматы как можно меньше

Читать полностью »

За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.

Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.

Методология исследования

Я мониторил три ключевых источника tech-новостей:

Введение

Все ML-инженеры знают о линейной регрессии. Это та самая база, с которой начинает изучение алгоритмов любой новичок. Но вот парадокс: даже многие «прожженные» инженеры не всегда до конца понимают ее истинную работу под капотом.

А именно — какая у «линейки» статистическая связь с Методом Максимального Правдоподобия (MLE) и почему она так сильно «любит» MSE и нормальное распределение. В этой статье мы как раз в этом и разберемся.

Освежаем в памяти Линейную регрессию

Линейная регрессия это как “Hello world” в мире классического машинного обучения.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js