Рубрика «наука о данных»

Бесконечность в ваших данных – power laws

2025-10-05 в 21:17, admin, рубрики: data science, анализ данных, аналитика данных, наука о данных, статистика

Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.

Читать полностью »

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные

1. Вступление: синтетика выходит из-подполья

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.

Почему это не очередная хайповая игрушка?

Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
Приватность без компромиссов.Читать полностью »

Более быстрые хеш-таблицы: претенденты на место SwissTable

2025-03-31 в 9:01, admin, рубрики: Chronicle-Map, F14, Koloboke, ruvds_статьи, simd, SmoothieMap, swisstable, uniform probing, ассоциативный массив, вставка, дерево с поворотом, красно-черное дерево, крошечные указатели, линейное зондирование, наука о данных, поиск, предельная скорость, равномерное зондирование, расширяющееся дерево, структура данных, хеш-таблицы

24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» (Tiny Pointers) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели.

Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике (перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц.

Данная тема уже упоминалась на Хабре, но заслуживает более подробного обсуждения.
Читать полностью »

Оголяем «данные» и что из этого вышло

2024-10-08 в 10:02, admin, рубрики: визуализация данных, графики, графики и диаграммы, исследование, наука, наука и технологии, наука о данных, открытые данные, стартап, экология

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Оголяем «данные» и что из этого вышло - 1

Зачем это нужно?

Читать полностью »

Кто на самом деле открыл ДНК? История изучения гена

2022-06-17 в 13:00, admin, рубрики: ruvds_статьи, биология, Биотехнологии, Блог компании RUVDS.com, история науки, квантовая механика, квантовая физика, наука и технологии, наука о данных, Научно-популярное, химия, Читальный зал

Открывая ленту новостей, мы часто натыкаемся на такие громкие заголовки: «Тест ДНК на телешоу подтвердил подмену детей в роддоме на Ставрополье», «ДНК возрастом более 115 тысяч лет указала на уязвимость белых медведей перед потеплением климата». Почему же эта молекула получила столько пристального внимания? Давайте же окунёмся в историю науки и посмотрим, как ДНК стала самой главной молекулой XXI века.Читать полностью »

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

2021-03-07 в 12:53, admin, рубрики: big data, Блог компании Selectel, Карьера в IT-индустрии, Лайфхаки для гиков, наука о данных, самообучение, статьи, Учебный процесс в IT

Когда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.

В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.
Читать полностью »

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

2020-03-16 в 7:56, admin, рубрики: big data, data engineering, data frame, data mining, data.table, pandas, python, R, tidyverse, агрегация данных, группировка данных, наука о данных, обработка данных, сводные таблицы

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно - 1

Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.

В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.

Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать полностью »

Must-have алгоритмы машинного обучения

2019-09-18 в 8:45, admin, рубрики: big data, data mining, python, Алгоритмы, искусственный интеллект, машинное обучение, наука о данных

Хабр, привет.

Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.

Метод главных компонент (PCA)/SVD

Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.

SVD — это способ вычисления упорядоченных компонентов.

Полезные ссылки:

Вводный гайд:

Учебное пособие по основному анализу компонентов

Читать полностью »

Извлечение данных при машинном обучении

2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данных

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

Iodide: интерактивный научный редактор от Mozilla

2019-03-20 в 18:39, admin, рубрики: data mining, Iodide, javascript, JavaScript MarkDown, Julia, jupyter, mozilla, Pyodide, python, R, webassembly, визуализация данных, дата-майнинг, наука о данных

Изучение аттрактора Лоренца, а затем редактирование кода в Iodide

В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.

Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «наука о данных»

Бесконечность в ваших данных – power laws

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

1. Вступление: синтетика выходит из-подполья

Почему это не очередная хайповая игрушка?

Более быстрые хеш-таблицы: претенденты на место SwissTable

Оголяем «данные» и что из этого вышло

Зачем это нужно?

Кто на самом деле открыл ДНК? История изучения гена

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

Must-have алгоритмы машинного обучения

Метод главных компонент (PCA)/SVD

Извлечение данных при машинном обучении

Iodide: интерактивный научный редактор от Mozilla