Поиск аномалий(Outlier Detection) является важной темой в машинном обучении. Алгоритмы такого типа актуальны и используются повсеместно: Кибербез, Банковские системы, предобработка данных, медицина, анализ логов, контроль качества и это лишь малая часть всего списка.Сегодня мы с вами познакомимся с двумя такими алгоритмами, сравним их и посмотрим результаты нашей работы.В нашем исследовании оценивать алгоритмы мы будем по метрикам Recall(реальная доля тех, кого правильно пометили как аномалию), Precision(Показывает долю истинно положительных результатов среди всех, которые модель пометила как положительные)Читать полностью »
Рубрика «scikit-learn»
Поиск аномалий: статистика или ML? Выбираем лучшее
2026-02-14 в 10:16, admin, рубрики: algorithms, anomaly detection, isolation forest, machinelearning, mathematica, python, scikit-learn, машинное обучение, поиск аномалийСравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»
2025-12-22 в 18:54, admin, рубрики: huggingface, nlp, NLTK, python, scikit-learn, torch, Transformers, литература, нейросети, поэзия"Бородино" Лермонтова и "Ледовое побоище" Симонова две классические военно-патриотические поэмы, были созданы по мотивам крупных военных событий, но по-разному описывают ратный подвиг русского воина. Мне стало интересно сравнить два произведения объективно, использовать для анализа предобученные эмбеддинги и визуализировать результат.
Для работы я использовал библиотеку transformers для загрузки и применения предобученной модели LaBSE. Библиотека torch понадобилась мне для работы с нейросетевой моделью. scikit-learn я использовал для снижения размерности с помощью PCA и t-SNE.
Лучшие фреймворки для машинного обучения в 2025 году
2025-09-25 в 7:46, admin, рубрики: catboost, jax, LightGBM, ml, pytorch, scikit-learn, TensorFlow, xgboost, фреймворкиСегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
Нейросеть приближается к опыту профессионального дерматолога
2025-07-03 в 14:21, admin, рубрики: opencv, scikit-learn, красота и здоровье, медицина, нейросети, поиск по изображениям, приложения, разработка приложений, свёрточные сети, стартапыНаконец наступило лето, а с ним и пора отпусков. Уезжая на южные моря, не забывайте: большинство из нас имеет типичную для северянина кожу с пониженным содержанием меланина — пигмента, отвечающего за защиту от ультрафиолета. Если кожа отреагировала непонятным новообразованием, вызывающим опасения, теперь можно проконсультироваться с искусственным интеллектом. Он предварительно осмотрит кожу и посоветует, бежать ли ко врачу, за которым, конечно, всегда последнее слово. К слову, данная медицинская ИИ-технология, как и публикация, не является медицинской рекомендацией: диагноз ставит лечащий врач.
Фундаментальные вопросы по ML-DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация
2025-06-15 в 2:10, admin, рубрики: data science, machine learning, ml-интервью, naive bayes, python, scikit-learn, SVM, Алгоритмы, линейная регрессия, регуляризацияУ каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.
Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!
Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом.
Будет здорово получить ваши задачи и в следующих выпусках разобрать!
Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви
2025-04-16 в 20:06, admin, рубрики: AI-Product, api, chatgpt-4, data science, flask, logistic regression, ml, python3, scikit-learnВ этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта.
Кто я и зачем мне это было нужно
Мне 51 год, и я работаю тестировщицей в банке. По образованию я экономист. У меня нет особых навыков программирования. Были попытки учить Python и Java, но без практического применения. По работе немного пишу на JS для авто-тестов в Cypress фреймворке, тестирую UI и API — так что базовое понимание, как всё устроено, у меня есть.
Решение задачи классификации при помощи Deep Learning и классического Machine Learning
2024-12-30 в 22:15, admin, рубрики: benchmark, scikit-learn, TensorFlowНебольшой бенчмарк (вроде этого): генерируем данные, потом тренируем на них нейросеть (DL - deep learning) и статистические модели (ML - machine learning). Оценивать результат будем по точности (Confusion Matrix) и контурному графику Decision Boundary, а также по времени тренировки. Мы классифицируем синтетические данные тремя способами (на разном количестве данных, от 1000 до 100 000 примеров):
-
DL модель с одним слоем из 8 нейронов
-
Support Vector Classifier
-
Decision Tree Classifier
Как можно ускорить Python сегодня
2022-12-31 в 10:00, admin, рубрики: cupy, gpgpu, gpu, intel, numba, python, ruvds_перевод, scikit-learn, Блог компании RUVDS.com, многопоточность, ускорители вычислений
Python не перестаёт удивлять многих своей гибкостью и эффективностью. Лично я являюсь приверженцем С и Fortran, а также серьёзно увлекаюсь C++, поскольку эти языки позволяют добиться высокого быстродействия. Python тоже предлагает такие возможности, но дополнительно выделяется удобством, за что я его и люблю.
Этот инструмент способен обеспечивать хорошее быстродействие, поскольку имеет в арсенале ключевые оптимизированные библиотеки, а также возможность динамической компиляции основного кода, который предварительно не компилировался. Однако скорость Python значительно падает, когда дело доходит до обработки крупных датасетов или более сложных алгоритмов. В текущей статье мы разберём:
- Почему столь важно думать о «будущем разнородных вычислений».
- Две ключевых сложности, которые необходимо преодолеть в открытом решении.
- Параллельное выполнение задач для более эффективного задействования CPU.
- Использование ускорителя для дополнительного повышения быстродействия.
Один только третий пункт позволил увеличить быстродействие в 12 раз притом, что четвёртый позволяет добиться ещё большего за счёт ускорителя. Эти простые техники могут оказаться бесценными при работе с Python, когда требуется добиться дополнительного ускорения программы. Описанные здесь приёмы позволяют нам уверенно продвигаться вперёд без длительного ожидания результатов.Читать полностью »
Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения
2021-11-13 в 15:29, admin, рубрики: big data, data science, pandas, plotly, python, scikit-learn, Алгоритмы, визуализация данных, выборы, Государственная дума, Инфографика, искусственный интеллект, кластеризация, машинное обучение
Результаты выборов в государственную думу, которые проходили 17-19 сентября 2021 вызывают сомнения у многих экспертов. Независимый электоральный аналитик Читать полностью »
Сертификация по программе IBM Data Science Professional Certificate
2020-02-07 в 8:17, admin, рубрики: analysis data, classification, data science, data visualization, foursquare, location data, machine learning, ml, pandas, python, scikit-learn, визуализация данных, машинное обучениеСтатья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.
Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:
- Загрузка и парсинг HTML таблиц
- Очистка загруженных данных
- Поиск географических координат по адресу объекта
- Загрузка и обработка GEOJSON
- Построение интерактивных тепловых карт (heat map)
- Построение интерактивных фоновых картограмм (choropleth map)
- Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
- Представление пространственных географических объектов в виде гексагональная сетки окружностей
- Поиск географических объектов, расположенных на определенном расстоянии от точки
- Привязка географических объектов к полигонам сложной формы на поверхности
- Описательные статистический анализ
- Анализ категорийных переменных и визуализация результатов
- Корреляционный анализ и визуализация результатов
- Сегментация с использованием k-Mean кластеризации и elbow метода
- Анализ и визуализация кластеров
