Рубрика «big data» - 104

Компания Mail.Ru Group провела небольшую реструктуризацию. Теперь заниматься работой с big data будет отдельное подразделение. У компании накопилось значительное количество клиентов и задач. Своим клиентам новое подразделение будет оказывать услуги по созданию предиктивных математических моделей, проведению маркетинговых исследований, консалтингу в области развития инфраструктуры и методологии работы с большими данными. Подразделение возглавил Роман Стятюгин.

«Компания занимается анализом данных фактически с момента основания. Накопленная экспертиза и компетенции позволяют предоставлять услуги по анализу big data сторонним заказчикам вне зависимости от географии присутствия. Прежде всего, это проекты, которые направлены на повышение эффективности процессов маркетинга и продаж, оптимизацию производства, логистики, управления рисками, планирования, управления персоналом и другие рабочие процессы различных бизнесов. В этой связи было принято решение выделить эту работу в отдельное подразделение», рассказал CNews Дмитрий Сергеев, заместитель генерального директора Mail.Ru Group.

Технологии big data могут с успехом применяться для оптимизации бизнес-процессов. Читать полностью »

Школа Данных «Билайн», каникулы закончились - 1

Привет!

Надеемся, что в Новогодние праздники многие из Вас отлично отдохнули. Но, каникулы закончились. Пора вернуться к машинному обучению и анализу данных. С 25 января мы запускаем третий набор Школы Данных «Билайн».

В прошлом посте мы обещали вам более детально рассказать, чему мы учим на наших занятиях по анализу текстов. В данном посте мы данное обещание исполняем.

Кстати, если вы уже активно занимаетесь анализом и обработкой текстов и хотите попробовать себя, рекомендуем поиграться с задачей The Allen AI Science Challenge на Kaggle=) и заодно поучаствовать в DeepHack, хакатоне по анализу текстов и построению ответных систем.

Про то, чему мы учим на наших занятиях по обработке текстов дальше.
Читать полностью »

Revolution R переименован в Microsoft R и доступен бесплатно для разработчиков и студентов - 1
За девять месяцев, с тех пор как Microsoft приобрела Revolution Analytics, компанией было выпущено много обновлений для Revolution R Open и Revolution R Enterprise, не говоря уже об интеграции R с SQL Server, PowerBI, Azure и Cortana Analytics.
Несколько дней назад, Microsoft предоставила доступ к продуктам R Server по подпискам MSDN и DreamSpark.
Читать полностью »

Новые инструменты (Octave и Scilab) во FlyElephant и анонс вебинаров - 1

Команда FlyElephant поздравляет всех с наступившим Новым Годом. Мы начинаем этот год с расширения списка инструментов, вебинаров и формирования сообщества вокруг проекта.

FlyElephant — это платформа, которая предоставляет ученым готовую вычислительную инфраструктуру для проведения расчетов, автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросов исследований.

Для пользователей платформы FlyElephant стали доступны Octave и Scilab, таким образом полный список поддерживаемых языков и инструментов следующий: GCC (с поддержкой OpenMP), R, Python (v2 & v3), Octave и Scilab. Для участников программы бета-тестирования стал доступен следующий инструментарий: Java (v7 & v8), Julia, OpenFOAM, GROMACS и Blender. Если Вы еще не являетесь пользователем платформы FlyElephant, то зарегистрироваться можно здесь. В честь Нового Года Вы можете пополнить свой счет на $300 введя в Личном кабинете специальный промо-код: 195708679772.
Читать полностью »

image
Всем привет.
4 января вышла новая версия Apache Spark 1.6 с bug fix новыми возможностями обработки больших данных. На Хабре написано немало статей по использованию этого инструмента от введения до опыта использования в проектах. Spark работает на большинстве операционных систем и его можно запускать в локальном режиме даже на обычном ноутбуке. Используя простоту настройки Spark в этом случае грех не воспользоваться основными функциям. В этой статье мы посмотрим как на ноутбуке быстро настроить обработку большого файла (больше оперативной памяти компьютера) с помощью обычных SQL-запросов. Это позволит делать запросы даже неподготовленному пользователю. Дополнительное подключение iPython (Jupyter) notebook позволит составлять полноценные отчеты. В статье разобран простой пример обработки файла, другие примеры на Python есть тут.
Читать полностью »

Бизнес — это не два человека с горящими глазами. Это вполне себе рутинно устроенная «машина для извлечения денег», куда в качестве топлива заливают те же деньги. О том, какие «машины» интересны инвесторам, рассказывает Сергей Негодяев, управляющий инвестиционным портфелем ФРИИ.

А — автономия

К концу 2015-го венчурный рынок стал более консервативным. Не секрет,Читать полностью »

AI, BigData & HPC Digest #3 - 1

Привет!

Наша команда FlyElephant хочет поздравить всех с наступающим Новым Годом, пожелать всего самого лучшего и успешной реализации всех задуманных проектов в предстоящем году, а чтобы на выходных было что почитать, публикуем свежий номер дайджеста. Сегодня в выпуске традиционная подборка интересных ссылок на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.

14-го января мы проведем вебинар на тему "Введение в машинное обучение", на котором поговорим об истории и основных понятиях машинного обучения. Рассмотрим популярные задачи/алгоритмы машинного обучения, а также запустим их примеры при помощи платформы FlyElephant и узнаем как возможно использовать данную платформу для решения задач искусственного интеллекта. Зарегистрироваться на вебинар можно здесь.
Читать полностью »

Сейчас уже многие используют библиотеку numpy в своих python-программах, поскольку она заметно ускоряет работу с данными и выполнение математических операций. Однако во многих случаях numpy работает в разы медленнее, чем она может… потому что использует только один процессор, хотя могла бы использовать все, что у вас есть.
Читать полностью »

Фестиваль Данных в музее Москвы, как это было - 1

Привет Хабр,

Итак, мы провели Фестиваль Данных на выставке новых технологий SMIT в Музее Москвы, о котором писали здесь.

Это первое мероприятие из серии, в которой мы собираем экспертов из разных областей бизнеса, науки и государственного управления и рассказываем про аналитику данных.

Хранение и анализ данных, которые были прерогативой узкого круга компаний и людей теперь начинают затрагивать жизнь практически всех. По этой причине мы и начали данную серию мероприятий, где мы широкой аудитории рассказываем про данные и их аналитику.
Читать полностью »

Рассмотрим такую задачу: есть 1000 новостных сайтов, например: engadget.com, huffingtonpost.com, sbnation.com. Их нужно распределить по классам про игры, про бизнес и финансы, про IT, про кино и музыку, например. Как это сделать? Можно просто брать один сайт за другим и назначать ему класс, но чтобы обработать таким образом 1000 сайтов нужно иметь крепкую психику и уйму времени. Можно сделать более технично: взять граф похожих сайтов, выделить интересующий подграф на 1000 вершин и кластеризовать его. Про граф похожих сайтов было написано несколько месяцев назад мной и ребятами из DCA. Граф про новостные сайты будет выглядеть примерно так:
Полуавтоматическая классификация сайтов - 1

Действительно, некоторые классы получается выделить автоматически, например «игры» и «технологии»:
Полуавтоматическая классификация сайтов - 2
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js