Рубрика «data science» - 41

В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.
Читать полностью »

Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения (в том числе Deep Learning). Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.
Читать полностью »

Пишем простую систему рекомендаций на примере Хабра
Сегодня мы поговорим о рекомендательных системах, а точнее о самой простой форме коллаборативной фильтрации. В программе передач: что такое рекомендательная система, на чем основана, каков математический аппарат и как её можно воплотить в код. В качестве бонуса предоставим результаты в виде простого сервиса.

  1. Что такое рекомендательная система
  2. Интуиция
  3. Теория
  4. Реализация: код и данные
  5. Сервис Хабра-рекомендаций
  6. Хабра-аналитика

Читать полностью »

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Читать полностью »

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:Читать полностью »

В очередном обзор наиболее интересных материалов, посвященных теме анализа данных и машинного обучения, достаточно большое внимание уделено популярному набору алгоритмов машинного обучения Deep Learning и его практическому применению. Несколько статей посвящено тому какие есть пути для собственного развития как специалиста по анализу данных и машинному обучению. Также несколько статей касаются такой темы как Data Engineering и рассматривают такие популярные продукты как Cassandra и Apache Kafka. Но начинается данный выпуск с обзора стартующих в ближайшее онлайн-курсов, связанных с темой анализа данных и машинного обучения.
Читать полностью »

Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Читать полностью »

Начинающие data scientists к вашим услугам На Coursera сейчас идёт курс Introduction to Data Science от University of Washington, в ходе которого студентов будут учить работе с большими массивами данных, статистическому анализу, data mining, алгоритмам машинного обучения и прочим таким вещам. Авторы курса приглашают организации (коммерческие, некоммерческие и даже просто отдельных людей), которым будет полезна помощь в работе с данными, принять участие, подкинув студентам для решения задачи из реальной жизни.

Схема примерно такая: организация формулирует задачу и предоставляет данные (собственные или из открытых источников), студенты её решают и пишут отчёт. Отчёт потом оценивается другими студентами, плюс организация даёт свой отзыв о работе.
В полюсе все: организация бесплатно получает рабочие руки мозги, а студент — опыт.
Читать полностью »

Мифология Data Science

The future belongs to the companies and people that turn data into products

Человечество никогда не стояло на месте – суровый закон выживания постоянно заставлял его двигаться вперед. В истории развитии человечества революции происходили всегда – одно общество сменялось другим, а устаревшие технологии заменялись более прогрессивными. Последняя информационная революция связана с появлением персональных компьютеров в 80-е годы ХХ века. В результате появления новых технологий, позволяющих накапливать информацию в новом виде – цифровом, начало формироваться информационное общество, приходящее на смену индустриальному. Информационное общество – общество, в котором большинство занято производством, хранением, переработкой и реализацией информации. По сравнению с индустриальном обществом, где все силы направлены на производство и потребление товаров, в информационном обществе потребляются интеллект и знания, что приводит к увеличению доли умственного труда. Развитие информационных технологий планомерно меняет структуру общества, а также влияют на метод принятия решений. На первый план в информационном обществе выходят люди, обеспечивающие производство, передачу и обработку информации, т.е. специалисты в информационно-коммуникационных технологиях. Решения в информационном обществе, касающиеся большого количества людей, принимаются большинством, на основе голосования. Время реакции на какое-либо событие составляет считанные минуты, а само событие становится известным практически сразу. Несмотря на это, некоторые правительства, не понимающие эволюционных процессов, происходящих в современном обществе, пытаются ограничить доступ к самому ценному предмету потребления в новом обществе – информации. Люди, выросшие в обществе, где темы для обсуждения искусственно ограничены, а некоторые из них являются запретными, не будут полноценными по сравнению с людьми, выросшими в обществе со свободным доступом к любой информации. Необходимую цензуру будет проводить само общество – и чем выше будет уровень развитие такого общества, тем выше будет уровень самоцензуры. Хорошо, если полный переход на информационную модель общества будет плавным, без потрясений и революций. Совсем плохо, если нам придётся пережить смутные времена. Что ж, у нас будет возможность проследить за развитием событий в дальнейшем. Однако я хотел поговорить не об этом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js