Рубрика «data science» - 3

Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность

2026-01-02 в 23:01, admin, рубрики: chatgpt, data science, llm, Архитектура нейросетей, Галлюцинации нейросетей, искусственный интеллект, когнитивные искажения, Психология мышления, трансформеры, Эффект Манделы

Известный эффект Манделы (сгенерирована Nano Banana)

Закройте глаза и вспомните знаменитое новогоднее обращение Бориса Ельцина 31 декабря 1999 года. В голове сразу звучит хриплый голос и культовая фраза «Я устал, я ухожу».

Читать полностью »

ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

2025-12-28 в 10:30, admin, рубрики: analytics, data science, machine learning, АБ-тесты, звук, метрики, модели, музыка, прогнозирование

Читать полностью »

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

2025-12-21 в 18:16, admin, рубрики: api, data science, hh.ru, python, sqlite, анализ данных, базы данных, визуализация данных, проектирование систем

Всем привет!

Сегодня я расскажу, как наша студенческая команда из СПбПУ разработала систему для сбора и анализа данных о российском IT-рынке труда с помощью платформы hh.ru. Вместо громоздкого монолита мы построили модульное асинхронное приложение на Python, сфокусировавшись на высокой производительности при массовом сборе данных, устойчивости к ошибкам и построении чёткого аналитического конвейера.

Читать полностью »

Выбираем между DS и AI

2025-12-19 в 17:49, admin, рубрики: AI, data science, искусственный интеллект, машинное обучение

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к специалистам.

Читать полностью »

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

2025-12-09 в 21:25, admin, рубрики: data science, exploratory data analysis, feature engineering, machine learning, numpy, pandas, sklearn, statistics

Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »

Оптимальный путь в NLP: как стать Middle за полгода

2025-11-23 в 17:09, admin, рубрики: data science, ml system design, nlp, python, rag, машинное обучение, нейронные сети, обучение программированию, трансформеры

Стать Middle NLP Engineer за 6 месяцев — реально.

Не за два года, не через бесконечные курсы — а за полгода нормальной учебы.

Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.

Почему это реально:

Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрее
После нахождения первой работы я вырос до Senior за год;
Я регулярно провожу собеседования и знаю реальные требования;
Уже помог нескольким людям войти в профессию.

Читать полностью »

Пример реализации агентного RAG’а

2025-11-16 в 18:31, admin, рубрики: AI, data science, encoder, llm, MCP, mcp-server, rag, tools

Надеюсь, все знают что такое RAG :) Для тех, кто не знает: это такая система, которая позволяет искать информацию и отвечать на вопросы по внутренней документации.

Архитектура RAG может быть как очень простой, так и весьма замысловатой. В самом простом виде она состоит из следующих компонентов:

Векторное хранилище — хранит документы в виде чанков - небольших фрагментов текста.
Ретривер — механизм поиска. Получает на вход искомую строку и ищет в векторном хранилище похожие на нее чанки (по косинусному сходству).
Читать полностью »

Анализ EEG-датасетов с Kaggle: от сигнала до ML-модели

2025-10-30 в 19:06, admin, рубрики: data science, EEG, kaggle, python

Электроэнцефалография (ЭЭГ) — это неинвазивный метод регистрации электрической активности мозга через электроды на поверхности головы. За последние годы ЭЭГ-данные перестали быть исключительно медицинской прерогативой и прочно вошли в мир data science. Сегодня их используют в нейромаркетинге для оценки реакций на рекламу, в когнитивных исследованиях для измерения внимания и памяти, в разработке Brain-Computer Interface (BCI) и даже в спортивной аналитике.

Популярность ЭЭГ объясняется несколькими факторами:

Доступность: относительно недорогие портативные устройства (Emotiv, Muse, OpenBCI)
БезопасностьЧитать полностью »

Облачные AI-платформы: сравнение AWS, GCP и Azure для ML-задач

2025-10-30 в 12:27, admin, рубрики: amazon, amazon s3, azure, data science, Google Cloud Platform, machinelearning, ml

Читать полностью »

Краткий обзор 10 локальных UI для LLM

2025-10-24 в 17:03, admin, рубрики: agents, data science, huggingface, llm, nlp, Ollama, rag, tools

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.

Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):

Информация

Комментарии

Рекомендуем

Рубрика «data science» - 3

Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность

ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Выбираем между DS и AI

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Оптимальный путь в NLP: как стать Middle за полгода

Пример реализации агентного RAG’а

Анализ EEG-датасетов с Kaggle: от сигнала до ML-модели

Облачные AI-платформы: сравнение AWS, GCP и Azure для ML-задач

Краткий обзор 10 локальных UI для LLM