Рубрика «Большие данные» - 9

Intel подала заявку на экспорт десятков тысяч чипов для обновления Тяньхэ-2, который последние полтора года возглавляет ТОП-500 суперкомпьютеров. Власти США запретили компании помогать обновлять китайский суперкомпьютер из-за страха перед ядерной программной КНР.

Зато в США Intel построит самый мощный суперкомпьютер в мире.

image
Читать полностью »

Немного о лаборатории Data Science в Билайне - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Big Data в Билайне: реальный опыт - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Ваш персональный курс по Big Data - 1 Привет!

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. В сети присутствует большое количество мануалов о том, как стать ученым по данным (Data Scientist). В свое время я прошел все, что там есть. Однако, на практике порой нужны совсем другие знания. О том, какие именно навыки нужны — я расскажу в сегодняшней статье и постараюсь ответить на все Ваши вопросы.
Читать полностью »

Огромное количество неструктурированной информации — это проблема для eBay, грамотное решение которой позволит персонализировать контент, найти мошенников и повысить прибыль. Поэтому инженеры компании создали новый инструмент для обработки больших данных Pulsar.

Инструмент доступен для всех по опенсорсной лицензии, прямо сейчас он есть на GitHub.

image
Читать полностью »

Привет!

image

В прошлый раз мы познакомились с инструментом Apache Spark, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, Large Scale Machine Learning. Сегодня мы рассмотрим подробнее библиотеку MlLib, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering, о котором мы говорили ранее, причем не один раз).
Читать полностью »

Объем мирового рынка ИТ превышает два триллиона долларов США. Самый динамичный сегмент — программное обеспечение, он растет на 6% ежегодно. Быстро развивается категория приложений для совместной работы.

Развитие отрасли ИТ аналитики IDC представили в виде трех платформ. На первой работали тысячи пользователей, она построена на базе мейнфреймов и терминалов. Затем появились традиционные персональные компьютеры и интернет, технологии стали доступны сотням тысяч пользователей. Сегодня миллиарды пользователей для доступа к информации и работы используют мобильные устройства, облачные сервисы и социальные технологии.

image
Читать полностью »

Сегодня я рад презентовать на Хабре образовательную программу «Специалист по большим данным» — интенсивный трехмесячный курс «Лаборатории новых профессий» для разработчиков и экспертов по IT-инфраструктуре, которые хотят войти в быстро в растущую индустрию Big Data.

«Специалист по большим данным»: учебная программа от «Лаборатории новых профессий» - 1 Читать полностью »

В эпоху Big Data графическое представление многомерных данных является весьма актуальной задачей. Однако результат визуализации не всегда соответствует ожиданиям. Вот пример не самого наглядного графика для изображения многомерных данных «Ирисы Фишера»:
Визуализация многомерных данных с помощью диаграмм Эндрюса - 1
Читать полностью »

Прошлые 15 лет Google работал над распознаванием паттернов в хаосе информации в сети, а теперь свои умения приложит к поиску генетических причин аутизма. Для этого будут обработаны геномы 10 000 человек с аутизмом и членов их семей.

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js