Рубрика «data science» - 2

Компрессор для данных или как я написал свой первый custom transformer

2026-01-25 в 11:16, admin, рубрики: compression, custom transformer, data science, outliner, preprocessing, sklearn, transformer, анализ данных, выбросы

Компрессирование стационарного временного ряда

Читать полностью »

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до оффера

2026-01-25 в 8:22, admin, рубрики: data analysis, data science, ml, вакансия, команда, команда мечты, переработки, плюшки, редфлаги, собеседование

Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.

Читать полностью »

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

2026-01-17 в 18:23, admin, рубрики: AI, ai engineering, data science, github, machine learning, python, rag, Райффайзенбанк, соревнование, хакатон

Привет! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...

Читать полностью »

Титаник глазами новичка в 2026

2026-01-17 в 13:08, admin, рубрики: AI, data science, kaggle, kaggle competition, ml, titanic

Всем привет! В этой небольшой статье хочу поделиться своим первым опытом работы с ML-моделями.

С чего все началось?

В начале 3 семестра я попал на проект ВУЗа, связанный с НС. Прошел курс по сеткам, пробежался по Pytorch и приступил к задачам на проекте. В процессе своего спринта решил параллельно изучать классический ML, где собственно выяснил, что "Hello world!" в мире машинного обучения является работа с датасетом титаник (предсказать выжил ли пассажир или нет). После этого ознакомился с Kaggle и полетел!

Titanic - Machine Learning from Disaster

При открытии "компетитив" сразу же наткнулся на тот самый Читать полностью »

Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)

2026-01-17 в 10:21, admin, рубрики: data science, hr-tech, nlp, анализ вакансий, анализ данных, выгорание, карьера, корпоративная культура, поиск работы, рынок труда

Рынок лимонов и барышни в мишуре

Современный найм болен экстремальным дисбалансом данных. У соискателя на руках только описания вакансий и надежда на лучшее, а у работодателя — служба безопасности, полиграф, ATS-системы и психологические тесты. Асимметрия чудовищная.

Фактически, это реализация экономической модели «Рынка лимонов» Джорджа Акерлофа в масштабе целой страны. Покупатель (соискатель) не может оценить качество товара (вакансии) до подписания оффера. Из-за этого рынок заполняется «лимонами» — предложениями, не отражающими действительность. Может, это будет "не так плохо", но точно не то.

Читать полностью »

Эволюция .NET-разработчика: взгляд рынка на грейды и компетенции (анализ 700+ вакансий)

2026-01-17 в 6:30, admin, рубрики: C#, c#.net, data science, junior, middle, senior, грейды, исследование

Все мы знаем стандартную лестницу: Junior, Middle, Senior. Но где на самом деле проходит граница? Почему в одном стартапе «сеньор» — это тот, кто вчера узнал про LINQ, а в кровавом энтерпрайзе от «мидла» требуют проектировать распределенные системы под нагрузкой в миллион RPS?

Я задалась вопросом оценки собственного грейда, когда уходила со своего первого места работы. Кто я для рынка? Почему мои знания на собесе в одной компании соответствуют чуть ли не уровню Senior, а в другой – покрывают максимум вакансию Junior’a?

Читать полностью »

Разметка данных: самая дорогая часть машинного обучения

2026-01-16 в 13:35, admin, рубрики: active learning, AI, data science, dataset, quality assurance, Weak Supervision, ИИ, машинное обучение, нейросеть, разметка данных

Доброго времени суток, «Хабр»!

В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.

Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.

Читать полностью »

Взгляд разметчика данных

2026-01-09 в 17:36, admin, рубрики: data science, аннотация данных, бинарная классификация, дата сайенс, качество данных, опыт работы, разметка данных, разметка изображений

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

Всем добрый день!

Читать полностью »

Рабочие станции для ML и Data Science — как собрать сервер под столом

2026-01-06 в 18:15, admin, рубрики: data science, рабочие станции, сервер, серверы

Внимание: опасный эксперимент!Читать полностью »

Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность

2026-01-02 в 23:01, admin, рубрики: chatgpt, data science, llm, Архитектура нейросетей, Галлюцинации нейросетей, искусственный интеллект, когнитивные искажения, Психология мышления, трансформеры, Эффект Манделы

Известный эффект Манделы (сгенерирована Nano Banana)

Закройте глаза и вспомните знаменитое новогоднее обращение Бориса Ельцина 31 декабря 1999 года. В голове сразу звучит хриплый голос и культовая фраза «Я устал, я ухожу».

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data science» - 2

Компрессор для данных или как я написал свой первый custom transformer

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до оффера

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

Титаник глазами новичка в 2026

С чего все началось?

Titanic - Machine Learning from Disaster

Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)

Рынок лимонов и барышни в мишуре

Эволюция .NET-разработчика: взгляд рынка на грейды и компетенции (анализ 700+ вакансий)

Разметка данных: самая дорогая часть машинного обучения

Взгляд разметчика данных

Рабочие станции для ML и Data Science — как собрать сервер под столом

Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность