Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.
Рубрика «big data» - 88
Data Science Week 2016. Обзор первого и второго дня
2016-09-26 в 11:18, admin, рубрики: big data, data mining, data science, data science week, Блог компании New Professions Lab, машинное обучение, метки: data science weekSpring Boot стартер для Apache Ignite своими руками
2016-09-23 в 13:53, admin, рубрики: Apache Ignite, big data, caching, java, spring boot, Анализ и проектирование систем, ПрограммированиеВот уже вышло две статьи в потенциально очень длинной серии обзоров распределённой платформы Apache Ignite (первая про настройку и запуск, вторая про построение топологии). Данная статья посвящена попытке подружить Apache Ignite и Spring Boot. Стандартным способом подключения некой библиотеки к Spring Boot является создание для этой технологии «стартера». Несмотря на то, что Spring Boot весьма популярен и на Хабре описывался не единожды, про то, как делать стартеры, вроде бы ещё не писали. Этот досадный пробел я постараюсь закрыть.
Статья посвящена преимущественно Spring Boot'у и Spring Core, так что те, кого тема Apache Ignite не интересует, всё равно могут узнать что-то новое. Код выложен на GitHub, стартера и демо-приложения.
Читать полностью »
Операторы связи поделятся со стартапами ФРИИ данными, но не деньгами
2016-09-23 в 11:32, admin, рубрики: big data, акадо, инвестиции, МТТ, Ростелеком, Текучка, телеком, фрии, метки: big data, акадо, инвестиции, МТТ, Ростелеком, Текучка, теле2, телеком, фрииФРИИ, Ростелеком, Tele2, Акадо и МТТ запускают набор в акселератор по Big Data и AI для продуктов, которые можно использовать в телеком-индустрии. Стартап может получить до 300 млн рублей инвестиций, сообщили Roem.ru в фонде.
Выбранным стартапам операторы предоставят доступ к своим обезличенным данным — команды будут тестировать решения на реальных данных, Читать полностью »
Работа с топологией Apache Ignite
2016-09-21 в 10:47, admin, рубрики: Apache Ignite, big data, data grid, java, метки: data grid В предыдущей статье я рассказал о том, как построить простейшую топологию для Apache Ignite. Она состояла из одного клиента и одного сервера, клиент слал на сервер сообщение и сервер его отображал. Было рассказано о том, как настроить продукт и проконтролировать его жизнедеятельность. Теперь пришло время для более сложного примера. Будет продемонстрировано построение сложной топологии и более интересные сценарии взаимодействия. Предполагается, что читатель ознакомился с базовыми операциями с Apache Ignite, изложенными в первой статье. В результате прочтения этих двух статей у читателя могут возникнуть какие-то предположения о том, как ему применить этот, без преувеличения, мощный продукт в своих проектах. Также статья будет полезна тем, кто интересуется построением высокопроизводительных систем, и хочет подсмотреть готовое решение для своего велосипеда.
Читать полностью »
CIKM Cup 2016 – международное соревнование в области Data Science
2016-09-20 в 11:05, admin, рубрики: big data, CIKM, CIKM Cup, DCA, Блог компании DCA (Data-Centric Alliance), Занимательные задачки, метки: CIKM, CIKM Cup, DCABig Data наступают по всем фронтам — их роль растёт в науке, бизнесе, медицине, управлении безопасностью и в экономике. Поэтому каждая из сфер готова на на шутку бороться за лучшие умы специалистов. Среди самых удачных попыток найти самых-самых — важнейшее мировое соревнование в области анализа данных CIKM Cup 2016, который проходит в рамках 25-ой международной конференции CIKM Conf. 2016. Российская технологическая компания DCA, специализирующаяся на работе с большими данными и высоконагруженными системами, на этот раз стала партнером конференции и соревнования. DCA сформировала задачу, которую предстоит решить участникам CIKM Cup 2016, а также обеспечила необходимым набором данных для анализа. Хотите узнать немного больше о задаче и попробовать силы в соревнованиях Data Scientist — вам под кат. Кому как не нам знать, насколько сильны российские специалисты в сфере обработки данных.
Мы ищем своих Брюсов Уиллисов.
Читать полностью »
Виртуальный суперкомпьютер по требованию
2016-09-18 в 12:37, admin, рубрики: big data, ceph, cloud, HPC, openstack, высокая производительность, Геоинформационные сервисы, параллельное программирование
Виртуальный суперкомпьютер (vSC) — это современная альтернатива для наукоемкого бизнеса и научных групп при решении ресурсоемких задач. В процессе бурного развития облачных технологий клаудизация все активнее проникает в наиболее консервативные и сложные IT-сферы, например, суперкомпьютинг и распределенные вычисления. Один из таких подходов в области клаудизации HPC реализован компанией HPC HUB.
Bagri — NoSQL база данных с открытым кодом, построенная поверх распределенного кэша
2016-09-15 в 14:46, admin, рубрики: big data, java, nosql, open sourceСегодня хочу рассказать вам об open source проекте под названием Bagri. Bagri — это распределенная база данных документов (document database), или как сейчас модно говорить NoSQL база данных, написанная на Java и спроектированная с учетом требований, в основном используемых в корпоративном секторе, таких как высокая готовность, отказоустойчивость, масштабируемость и поддержка транзакционности.
Bagri построена поверх продуктов реализующих распределенный кэш, таких как Hazelcast, Coherence, Infinispan и других подобных систем. Именно за счет возможностей распределенного кэша Bagri поддерживает требования корпоративного сектора прямо из коробки. Распределенный кэш используется системой не только как хранилище данных, но и как распределенная система обработки этих данных, что позволяет эффективно и быстро обрабатывать любые большие объемы слабо структурированных данных. Транзакционность в системе решена с помощью алгоритма реализующего multi-version concurrency control
Читать полностью »
Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»
2016-09-15 в 14:40, admin, рубрики: big data, data mining, data science, RПродолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем»,
«Экосистема R как инструмент для автоматизации бизнес-задач» и Джентельменский набор пакетов R для автоматизации бизнес-задач. Настоящая публикация преследует 2 цели:
-
Взглянуть на типичные задачи, которые встречаются в бизнесе, под немного другим углом.
- Попробовать их решить, частично или полностью, с использованием средств, предоставляемых R.
Читать полностью »
Специалисты IBM хотят остановить эпидемии кишечной палочки
2016-09-13 в 14:02, admin, рубрики: big data, IBM, Блог компании IBM, Большие данные, Исследования и прогнозы в IT, конитивные системы
Пять лет назад в Германии произошел очень неприятный инцидент. Один из продуктов, которые считаются полезными для здоровья, стал причиной появления эпидемии кишечной палочки E.coli. Тогда погибло 53 человека, а госпитализировано во много раз больше — 4000 человек. Все эти люди были заражены E.coli, кишечной палочкой, которая вызывает сильнейшую диарею и может стать причиной отказа почек у некоторых заразившихся.
Немецкие ученые и местные власти только спустя два месяца установили причину проблемы. Ею оказались пророщенные бобы, которые продавались во многих продуктовых магазинах. Если бы причина была найдена раньше, то эпидемии просто не было бы, поскольку источник проблемы был бы ликвидирован. В IBM решили разработать метод быстрого обнаружения источника заболеваний, возбудителем которых являются E.coli, сальмонелла и норовирус.
Читать полностью »
11 текстов, которые помогут разобраться в больших данных
2016-09-13 в 13:46, admin, рубрики: big data, Блог компании Surfingbird, реклама
Сегодня необходимо хотя бы в общих чертах иметь представление о мире big data. Мы отобрали публикации, в которых доступно объясняют, что такое большие данные и как их используют. Статьи рассчитаны, скорее, на новичков, но и люди, разбирающиеся в теме, смогут найти для себя интересные (или просто забавные) кейсы.
Читать полностью »