Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.
Рубрика «data» - 3
Data Mesh: как работать с данными без монолита
2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данныхОгромный открытый датасет русской речи версия 1.0
2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные
В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.
Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.
Огромный открытый датасет русской речи
2019-05-06 в 18:36, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные
Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.
Мы торопимся исправить это годами длящееся недоразумение.
Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.
Подробности под катом.Читать полностью »
GitLab в NAS
2018-12-30 в 9:06, admin, рубрики: data, data storage, diy или сделай сам, Git, git repositories, gitlab, NAS, protected git storage, repos, SAN, storage, storage system, контроль версий, репозитории, Системы управления версиями, хранилища данных
При наличии работоспособного NAS с докером, установка Gitlab не представляет особых сложностей.
Митап в Петербурге: Data Engineering и не только
2018-10-29 в 10:37, admin, рубрики: Apache Spark, big data, data, data mining, spark, wrike, wriketechclub, Блог компании Wrike, визуализация данных
Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.
К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.
Читать полностью »
Наиболее распространенные ошибки и заблуждения при настройке DFSR
2018-09-23 в 12:20, admin, рубрики: best practice, configuration, data, dfs, DFSR, failover, files, mistakes, replication, Windows Server, данные, настройка, отказоустойчивость, ошибки, репликация, Серверная оптимизация, Серверное администрирование, системное администрирование, файлы, хранение данных[Прим. переводчика. Материал статьи относится к Windows Server 2003/2003R2/2008/2008R2, но большинство из описанного справедливо и для более поздних версий ОС]
Всем привет! Уоррен снова здесь, и этот пост в блоге представляет собой подборку наиболее распространенных проблем DFSR, с которыми я столкнулся за последние несколько лет. Цель этого поста — перечислить распространенные ошибки в конфигурации DFSR, из-за которых возникают эти проблемы, и уберечь вас от совершения аналогичных ошибок. Знать, чего делать не следует, так же важно, как знать, что нужно делать. Многие из описанных пунктов связаны с другими темами, поэтому для углубленного изучения вопроса предоставлены соответствующие ссылки.
Читать полностью »
Поддержка Python в Power BI
2018-08-27 в 7:00, admin, рубрики: data, data science, microsoft, Power BI, python, анализ данных, Блог компании Microsoft, визуализация, визуализация данных, математикаМы рады сообщить, что Python, язык программирования, широко используемый статистиками, учеными и аналитиками, теперь интегрирован в наш open-source Power BI Desktop. После включения функции в настройках вы cможете использовать Python для очистки, анализа и визуализации данных. Подробнее под катом!
Базы данных Microsoft Research теперь доступны для всех
2018-07-12 в 8:00, admin, рубрики: cloud, data, data mining, database, microsoft, open source, research, Блог компании Microsoft, Научно-популярное, открытые данныеМы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!
Визуализация данных при помощи Angular и D3
2018-06-24 в 17:24, admin, рубрики: angular, angular2, angular5, D3, d3.js, data, datavisualization, javascript, TypeScript, visualizationD3.js — это JavaScript библотека для манипулирования документами на основе входных данных. Angular — фреймворк, который может похвастаться высокой производительностью привязки данных.
Ниже я рассмотрю один хороший подход по использованию всей этой мощи. От симуляций D3 до SVG-инъекций и использования синтаксиса шаблонизатора.

Демо: положительные числа до 300 соединенные со своими делителями.
Читать полностью »
Ключевые анонсы Connect(); 2017
2017-11-16 в 14:58, admin, рубрики: .net, AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании Microsoft, машинное обучениеПривет! В Нью-Йорке в эти дни проходит ежегодная конференция Microsoft Connect 2017. На ней уже анонсировали множество обновлений существующих продуктов и большое количество новых инструментов. Под катом читайте о самых интересных из них.




