Рубрика «data science»
Компрессор для данных или как я написал свой первый custom transformer
2026-01-25 в 11:16, admin, рубрики: compression, custom transformer, data science, outliner, preprocessing, sklearn, transformer, анализ данных, выбросы
Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до оффера
2026-01-25 в 8:22, admin, рубрики: data analysis, data science, ml, вакансия, команда, команда мечты, переработки, плюшки, редфлаги, собеседованиеПятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.
Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива
2026-01-17 в 18:23, admin, рубрики: AI, ai engineering, data science, github, machine learning, python, rag, Райффайзенбанк, соревнование, хакатонПривет! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...
Титаник глазами новичка в 2026
2026-01-17 в 13:08, admin, рубрики: AI, data science, kaggle, kaggle competition, ml, titanicВсем привет! В этой небольшой статье хочу поделиться своим первым опытом работы с ML-моделями.
С чего все началось?
В начале 3 семестра я попал на проект ВУЗа, связанный с НС. Прошел курс по сеткам, пробежался по Pytorch и приступил к задачам на проекте. В процессе своего спринта решил параллельно изучать классический ML, где собственно выяснил, что "Hello world!" в мире машинного обучения является работа с датасетом титаник (предсказать выжил ли пассажир или нет). После этого ознакомился с Kaggle и полетел!
Titanic - Machine Learning from Disaster
При открытии "компетитив" сразу же наткнулся на тот самый Читать полностью »
Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)
2026-01-17 в 10:21, admin, рубрики: data science, hr-tech, nlp, анализ вакансий, анализ данных, выгорание, карьера, корпоративная культура, поиск работы, рынок трудаРынок лимонов и барышни в мишуре
Современный найм болен экстремальным дисбалансом данных. У соискателя на руках только описания вакансий и надежда на лучшее, а у работодателя — служба безопасности, полиграф, ATS-системы и психологические тесты. Асимметрия чудовищная.
Фактически, это реализация экономической модели «Рынка лимонов» Джорджа Акерлофа в масштабе целой страны. Покупатель (соискатель) не может оценить качество товара (вакансии) до подписания оффера. Из-за этого рынок заполняется «лимонами» — предложениями, не отражающими действительность. Может, это будет "не так плохо", но точно не то.
Эволюция .NET-разработчика: взгляд рынка на грейды и компетенции (анализ 700+ вакансий)
2026-01-17 в 6:30, admin, рубрики: C#, c#.net, data science, junior, middle, senior, грейды, исследованиеВсе мы знаем стандартную лестницу: Junior, Middle, Senior. Но где на самом деле проходит граница? Почему в одном стартапе «сеньор» — это тот, кто вчера узнал про LINQ, а в кровавом энтерпрайзе от «мидла» требуют проектировать распределенные системы под нагрузкой в миллион RPS?
Я задалась вопросом оценки собственного грейда, когда уходила со своего первого места работы. Кто я для рынка? Почему мои знания на собесе в одной компании соответствуют чуть ли не уровню Senior, а в другой – покрывают максимум вакансию Junior’a?
Разметка данных: самая дорогая часть машинного обучения
2026-01-16 в 13:35, admin, рубрики: active learning, AI, data science, dataset, quality assurance, Weak Supervision, ИИ, машинное обучение, нейросеть, разметка данныхДоброго времени суток, «Хабр»!
В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.
Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.
Взгляд разметчика данных
2026-01-09 в 17:36, admin, рубрики: data science, аннотация данных, бинарная классификация, дата сайенс, качество данных, опыт работы, разметка данных, разметка изображенийДисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.
Всем добрый день!
Рабочие станции для ML и Data Science — как собрать сервер под столом
2026-01-06 в 18:15, admin, рубрики: data science, рабочие станции, сервер, серверы
Внимание: опасный эксперимент!Читать полностью »
Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность
2026-01-02 в 23:01, admin, рубрики: chatgpt, data science, llm, Архитектура нейросетей, Галлюцинации нейросетей, искусственный интеллект, когнитивные искажения, Психология мышления, трансформеры, Эффект Манделы
Закройте глаза и вспомните знаменитое новогоднее обращение Бориса Ельцина 31 декабря 1999 года. В голове сразу звучит хриплый голос и культовая фраза «Я устал, я ухожу».
