Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.
Рубрика «наука о данных»
Бесконечность в ваших данных – power laws
2025-10-05 в 21:17, admin, рубрики: data science, анализ данных, аналитика данных, наука о данных, статистикаФабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности
2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные1. Вступление: синтетика выходит из-подполья
Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.
Почему это не очередная хайповая игрушка?
-
Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
-
Приватность без компромиссов.Читать полностью »
Более быстрые хеш-таблицы: претенденты на место SwissTable
2025-03-31 в 9:01, admin, рубрики: Chronicle-Map, F14, Koloboke, ruvds_статьи, simd, SmoothieMap, swisstable, uniform probing, ассоциативный массив, вставка, дерево с поворотом, красно-черное дерево, крошечные указатели, линейное зондирование, наука о данных, поиск, предельная скорость, равномерное зондирование, расширяющееся дерево, структура данных, хеш-таблицы
24 ноября 2021 года на сайте ArXiv.org была опубликована научная статья «Крошечные указатели» (Tiny Pointers) с описанием новой структуры данных — «крошечных» указателей, которые указывают путь к фрагменту хранимых данных и занимают меньше памяти, чем традиционные указатели.
Осенью 2021 года эту статью заметил Андрей Крапивин (Andrew Krapivin), студент Ратгерского университета в Нью-Джерси, и не придал ей особого значения, пишет Quanta Magazine, журнал о последних достижениях в математике (перевод статьи на Хабре). Только через два года он нашёл время, чтобы внимательно ознакомиться с материалом. И понял, насколько это прорывное изобретение, если применить его для оптимизации хеш-таблиц.
Данная тема уже упоминалась на Хабре, но заслуживает более подробного обсуждения.
Читать полностью »
Оголяем «данные» и что из этого вышло
2024-10-08 в 10:02, admin, рубрики: визуализация данных, графики, графики и диаграммы, исследование, наука, наука и технологии, наука о данных, открытые данные, стартап, экологияОднажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Зачем это нужно?
Кто на самом деле открыл ДНК? История изучения гена
2022-06-17 в 13:00, admin, рубрики: ruvds_статьи, биология, Биотехнологии, Блог компании RUVDS.com, история науки, квантовая механика, квантовая физика, наука и технологии, наука о данных, Научно-популярное, химия, Читальный зал
Открывая ленту новостей, мы часто натыкаемся на такие громкие заголовки: «Тест ДНК на телешоу подтвердил подмену детей в роддоме на Ставрополье», «ДНК возрастом более 115 тысяч лет указала на уязвимость белых медведей перед потеплением климата». Почему же эта молекула получила столько пристального внимания? Давайте же окунёмся в историю науки и посмотрим, как ДНК стала самой главной молекулой XXI века.Читать полностью »
Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science
2021-03-07 в 12:53, admin, рубрики: big data, Блог компании Selectel, Карьера в IT-индустрии, Лайфхаки для гиков, наука о данных, самообучение, статьи, Учебный процесс в IT
Когда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.
В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.
Читать полностью »
Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно
2020-03-16 в 7:56, admin, рубрики: big data, data engineering, data frame, data mining, data.table, pandas, python, R, tidyverse, агрегация данных, группировка данных, наука о данных, обработка данных, сводные таблицыПо запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.

Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.
В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.
Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.
Must-have алгоритмы машинного обучения
2019-09-18 в 8:45, admin, рубрики: big data, data mining, python, Алгоритмы, искусственный интеллект, машинное обучение, наука о данныхХабр, привет.
Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.
Метод главных компонент (PCA)/SVD
Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.

SVD — это способ вычисления упорядоченных компонентов.
Полезные ссылки:
Вводный гайд:
Извлечение данных при машинном обучении
2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данныхХотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.
Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »
Iodide: интерактивный научный редактор от Mozilla
2019-03-20 в 18:39, admin, рубрики: data mining, Iodide, javascript, JavaScript MarkDown, Julia, jupyter, mozilla, Pyodide, python, R, webassembly, визуализация данных, дата-майнинг, наука о данных
Изучение аттрактора Лоренца, а затем редактирование кода в Iodide
В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.
Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.
Читать полностью »
