Открывая ленту новостей, мы часто натыкаемся на такие громкие заголовки: «Тест ДНК на телешоу подтвердил подмену детей в роддоме на Ставрополье», «ДНК возрастом более 115 тысяч лет указала на уязвимость белых медведей перед потеплением климата». Почему же эта молекула получила столько пристального внимания? Давайте же окунёмся в историю науки и посмотрим, как ДНК стала самой главной молекулой XXI века.Читать полностью »
Рубрика «наука о данных»
Кто на самом деле открыл ДНК? История изучения гена
2022-06-17 в 13:00, admin, рубрики: ruvds_статьи, биология, Биотехнологии, Блог компании RUVDS.com, история науки, квантовая механика, квантовая физика, наука и технологии, наука о данных, Научно-популярное, химия, Читальный залОткрывая ленту новостей, мы часто натыкаемся на такие громкие заголовки: «Тест ДНК на телешоу подтвердил подмену детей в роддоме на Ставрополье», «ДНК возрастом более 115 тысяч лет указала на уязвимость белых медведей перед потеплением климата». Почему же эта молекула получила столько пристального внимания? Давайте же окунёмся в историю науки и посмотрим, как ДНК стала самой главной молекулой XXI века.Читать полностью »
Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science
2021-03-07 в 12:53, admin, рубрики: big data, Блог компании Selectel, Карьера в IT-индустрии, Лайфхаки для гиков, наука о данных, самообучение, статьи, Учебный процесс в ITКогда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.
В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.
Читать полностью »
Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно
2020-03-16 в 7:56, admin, рубрики: big data, data engineering, data frame, data mining, data.table, pandas, python, R, tidyverse, агрегация данных, группировка данных, наука о данных, обработка данных, сводные таблицыПо запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.
Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.
В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse
, а также пакет data.table
. И сравним их синтаксис с pandas
, наиболее популярным пакетом для анализа данных в Python.
Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.
Must-have алгоритмы машинного обучения
2019-09-18 в 8:45, admin, рубрики: big data, data mining, python, Алгоритмы, искусственный интеллект, машинное обучение, наука о данныхХабр, привет.
Этот пост — краткий обзор общих алгоритмов машинного обучения. К каждому прилагается краткое описание, гайды и полезные ссылки.
Метод главных компонент (PCA)/SVD
Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.
SVD — это способ вычисления упорядоченных компонентов.
Полезные ссылки:
Вводный гайд:
Извлечение данных при машинном обучении
2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данныхХотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.
Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.
Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »
Iodide: интерактивный научный редактор от Mozilla
2019-03-20 в 18:39, admin, рубрики: data mining, Iodide, javascript, JavaScript MarkDown, Julia, jupyter, mozilla, Pyodide, python, R, webassembly, визуализация данных, дата-майнинг, наука о данных
Изучение аттрактора Лоренца, а затем редактирование кода в Iodide
В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.
Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.
Читать полностью »
Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью
2018-08-31 в 14:00, admin, рубрики: big data, data mining, data science, data scientist, Wirex, анализ данных, Блог компании Wirex, глубинное обучение, искусственный интеллект, машинное обучение, наука о данныхАвтор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.
Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »
Игра для улучшения качества Википедии
2018-07-30 в 16:38, admin, рубрики: big data, WikiBest, Википедия, игры, искусственный интеллект, качество данных, машинное обучение, наука о данных, открытые данные, разработка игрСегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.
Какой язык программирования выбрать для работы с данными?
2017-09-06 в 18:17, admin, рубрики: big data, data mining, data science, python, R, наука о данных, ПрограммированиеУ начинающего специалиста по данным (data scientist) есть возможность выбрать один из множества языков программирования, который поможет ему быстрее освоить данную науку.
Тем не менее, никто точно не скажет вам, какой язык программирования лучше всего подходит для этой цели. Ваш успех как специалиста в данной области будет зависить от множества факторов и сегодня мы постараемся их рассмотреть, а в конце статьи вы сможете проголосовать за тот язык программирования, который вы считаете наиболее подходящим для работы с данными.
Читать полностью »
Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая
2017-04-24 в 10:46, admin, рубрики: artificial intelligence, big data, data mining, data science, FlyElephant, R, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение, наука о данных
Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).
Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.
Читать полностью »