Рубрика «data science» - 16

Представляю вашему вниманию перевод главы из книги Hands-On Data Science with Anaconda
«Предиктивная аналитика данных — моделирование и валидация»

Наша основная цель в проведении различных анализов данных — это поиск шаблонов, чтобы предсказать, что может произойти в будущем. Для фондового рынка исследователи и специалисты проводят различные тесты, чтобы понять рыночные механизмы. В этом случае можно задать много вопросов. Каким будет уровень рыночного индекса в ближайшие пять лет? Каков будет следующий ценовой диапазон IBM? Будет ли волатильность рынка увеличиваться или уменьшаться в будущем? Каким может быть влияние, если правительства изменят свою налоговую политику? Какова потенциальная прибыль и убытки, если одна страна начнет торговую войну с другой? Как мы прогнозируем поведение потребителя, анализируя некоторые связанные переменные? Можем ли мы предсказать вероятность того, что студент-выпускник успешно закончит учебу? Можем ли мы найти связь между определенным поведением одного конкретного заболевания?

Поэтому мы рассмотрим следующие темы:

  • Понимание предиктивного анализа данных
  • Полезные наборы данных
  • Прогнозирование будущих событий
  • Выбор модели
  • Тест Грэнджера на причинность

Читать полностью »

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению - 1
(с)

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.
Читать полностью »

This is a short article about understanding time series and main characteristics behind that.

Problem statement

We have time-series data with daily and weekly regularity. We want to find the way how to model this data in an optimal way.

Time Series Modelling - 1
Читать полностью »

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

  • умение писать код (Python);
  • способность визуализировать свои результаты;
  • понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Data Science: книги для начального уровня - 1Читать полностью »

Вия, Уая, Вая, Вайя – “трудности перевода”, или что скрывается за новой платформой SAS Viya (Вайя) - 1

   В сети можно найти огромное количество разнообразных статей о методах использования алгоритмов математической статистики, о нейронных сетях и в целом о пользе машинного обучения. Данные направления способствуют существенному улучшению жизни человека и светлому будущему роботов. Например, заводы нового поколения, способные работать полностью или частично без вмешательства человека или машины с автопилотом.

  Разработчики объединяют комбинации этих подходов и методов машинного обучения в различные направления. Эти направления впоследствии получают названия, оригинальные и не очень, например: IOT (Internet Of Things), WOT (Web Of Things), Индустрия 4.0 (Industry 4.0), Artificial Intelligence (AI) и другие. Данные концепции объединяет то, что их описание является верхнеуровневым, то есть не рассматриваются ни конкретные инструменты и технологии, ни уже готовые к внедрению системы, а основной целью является визуализация желаемого результата. Но технологии уже существуют, хотя часто не имеют единой платформы.
Читать полностью »

Коммерческий автор и переводчик Полина Кабирова специально для Нетологии адаптировала статью американского аналитика Тавиша Шриваставы о том, как процесс автоматизации влияет на data scientist.

Введение

Автоматизация влияет на профессиональную деятельность во всех отраслях. С одной стороны, автоматизация помогает эффективнее управлять бизнесом, а с другой – ведет к постоянному изменению набора необходимых навыков.
Несоответствие необходимому набору навыков приводит к потере работы. Проиллюстрирую эту мысль двумя сценариями.

Сценарий 1 – Ручной труд

4 секрета, как не потерять работу в data science - 1
Читать полностью »

Как с помощью компьютерного зрения оценить состояние автомобиля. Опыт Яндекс.Такси - 1

Мы стремимся к тому, чтобы после заказа такси к пользователю приезжал чистый, исправный автомобиль той марки, того цвета и с тем номером, которые отображаются в приложении. И для этого мы используем дистанционный контроль качества (ДКК).

Сегодня я расскажу читателям Хабра о том, как с помощью машинного обучения снизить затраты на контроль качества в быстро растущем сервисе с сотнями тысяч машин и не выпустить на линию машину, которая не соответствует правилам сервиса.

Читать полностью »

Приглашаем 22 декабря на Data Ёлку - 1

Приглашаем 22 декабря присоединиться к команде Data Science-специалистов и вместе подвести итоги года. На встрече мы вместе подытожим, что нового было в разных областях Data Science в 2018-м, обсудим последние новости с NIPS/NeurIPS, ответим на самые актуальные вопросы от участников сообщества, а главное — наградим тех, чей вклад в сообщество ODS стал значимым за последний год.
Читать полностью »

И снова привет!

В декабре у нас стартует обучение очередной группы «Data scientist», поэтому открытых уроков и прочих активностей становится всё больше. Например, буквально на днях прошёл вебинар под длинным названием «Feature Engineering на примере классического датасета Титаника». Его провёл Александр Сизов — опытный разработчик, кандидат технических наук, эксперт по Machine/Deep learning и участник различных коммерческих международных проектов, связанных с искусственным интеллектом и анализом данных.

Открытый урок занял около полутора часов. В ходе вебинара преподаватель рассказал про подбор признаков, преобразование исходных данных (кодирование, масштабирование), настройку параметров, обучение модели и много чего ещё. В процессе проведения урока участникам показывалась тетрадь Jupyter Notebook. Для работы использовались открытые данные с платформы Kaggle (классический датасет про «Титаник», с которого многие начинают знакомство с Data Science). Ниже предлагаем видео и транскрипт прошедшего мероприятия, а тут можно забрать презентацию и коды в юпитеровском ноутбуке.

Читать полностью »

Привет!

17 декабря (понедельник) мы устраиваем TECHDAY MAKE IT REAL – специально для тех, кто предпочитает красивым речам об инновациях их внедрение.

Techday Make IT Real — 17 декабря, Москва - 1

— На любой конференции вы можете услышать про миллион чужих фантазий о применении современных технологий. Вам расскажут о том, как они создали воздушные замки, о том, как они убивают в них гоблинов и троллей. Все это прекрасно, но это — сказки. Мы же попробуем вам рассказать о том, как это выглядит в действительности.

Кирилл Ермаков

Формально techday будет разделен на две части: основную программу и активности на тематических площадках.

Список спикеров, программа и ссылка на регистрацию — под катом. Участие бесплатное.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js