Рубрика «pytorch» - 3

Мы решили задачу омографов и ударений в русском языке - 1

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Читать полностью »

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.

Читать полностью »

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.

Но начать стоит с малого.

Базовая модель

Читать полностью »

Историческое сравнение версий

Историческое сравнение версий

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информациейЧитать полностью »

Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.

В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.

Для начала давайте взглянем на архитектуру Vision Transformer:

Читать полностью »

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.

Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4iЧитать полностью »

Airsim умер, да здравствует GRID - 1

Проблема, с которой часто встречаются разработчики, в том числе и компании, заключается в обучении дронов и роботов. До недавнего времени эту проблему позволяла решить Aerial Informatics and Robotics Platform (AirSim), и данная статьяЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js