Рубрика «data science» - 2

Доброго времени суток, «Хабр»!

В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.

Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.

Читать полностью »

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

 Всем добрый день!

Читать полностью »

Рабочие станции для ML и Data Science

Рабочие станции для ML и Data Science

Внимание: опасный эксперимент!Читать полностью »

Известный эффект Манделы (сгенерирована Nano Banana)

Известный эффект Манделы (сгенерирована Nano Banana)

Закройте глаза и вспомните знаменитое новогоднее обращение Бориса Ельцина 31 декабря 1999 года. В голове сразу звучит хриплый голос и культовая фраза «Я устал, я ухожу».

Читать полностью »

Всем привет!

Сегодня я расскажу, как наша студенческая команда из СПбПУ разработала систему для сбора и анализа данных о российском IT-рынке труда с помощью платформы hh.ru. Вместо громоздкого монолита мы построили модульное асинхронное приложение на Python, сфокусировавшись на высокой производительности при массовом сборе данных, устойчивости к ошибкам и построении чёткого аналитического конвейера.

Читать полностью »

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к специалистам.

Читать полностью »

Обезьянья предобработка данных

Обезьянья предобработка данных

Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »

Стать Middle NLP Engineer за 6 месяцев — реально.

Не за два года, не через бесконечные курсы — а за полгода нормальной учебы.

Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.

Почему это реально:

  • Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрее

  • После нахождения первой работы я вырос до Senior за год;

  • Я регулярно провожу собеседования и знаю реальные требования;

  • Уже помог нескольким людям войти в профессию.

Читать полностью »

Надеюсь, все знают что такое RAG :) Для тех, кто не знает: это такая система, которая позволяет искать информацию и отвечать на вопросы по внутренней документации.

Архитектура RAG может быть как очень простой, так и весьма замысловатой. В самом простом виде она состоит из следующих компонентов:

  • Векторное хранилище — хранит документы в виде чанков - небольших фрагментов текста.

  • Ретривер — механизм поиска. Получает на вход искомую строку и ищет в векторном хранилище похожие на нее чанки (по косинусному сходству).

  • Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js