Рубрика «данные» - 13

Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Читать полностью »

Сложности накопления данных для интеллектуального анализа

Аннотация

Данная статья посвящена актуальной на сегодняшний день проблеме сложности накопления данных для проведения интеллектуального анализа. Введены основные понятия: данные и интеллектуальный анализ. Рассмотрены сложности, относящиеся к накоплению данных, при ситуации, когда необходимо разработать базу с нуля и наполнить её данными. Автором предложены рекомендации по снижению риска появления описанных проблем.
Читать полностью »

Вице-президент по инфраструктуре крупнейшей социальной сети мира, которая переживает не лучшие дни на фондовой бирже, Джей Перикх (Jay Parikh) рассказал журналистам о некоторых статистических показателях работы своей компании, что позволяет оценить масштаб данных и число пользователей, активно работающих с Facebook.

Прежде всего оказалось, что в отличие от многих компаний, которые строят распределённую сеть дата-центров для облегчения доставки контента пользователям из различных регионов, Facebook хранит все данные в одном «кластере» объёмом более 100 Пб, что больше любого из кластера из дата-центров компаний, сравнимых по масштабам с Facebook. Это позволяет инженерам оперативно получать доступ к сети и контролировать её состояние.

Читать полностью »

В прошлом году мы уже подробно рассказывали о флагмане линейки HP ProLiant — 8-сокетном DL980, который впервые реализует функции бизнес-критичных систем для серверов стандартной архитектуры. Одна из основных сфер применения этого сервера – обслуживание больших баз данных Oracle Microsoft SQL Server. В нынешнем году на базе этого сервера было разработано новое решение, позволяющее резко поднять производительность баз данных за счет использования флэш-памяти.

VMA – умная флэш память для базы данных
Читать полностью »

Цены на твердотельные диски постоянно снижаются и если года два назад эти накопители использовались только как опция для систем хранения high-end, то сегодня на рынке можно найти и массивы разных производителей, целиком построенные на дисках SSD.
Вышел «Левша» с твердотельными дисками
Читать полностью »

Вступление

Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.

Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.

Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.

То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.

Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.Читать полностью »

Все чаще появляются топики, которые посвящены проблемам хранения, поиска и структурирования данных. И источники самих топиков растут из за неприятного факта, что порой тебе нет возможности что-то найти, пусть даже самое простое. И в итоге поисков люди находят развлекательные порталы и вещи, на которых и оседают. Например, последний топик Идеальный персональный менеджер информации — какой он?, в нем автор упоминает ситуацию про поиск какой-то определенной формулы. И что каким-то странным образом поиск формулы превращается в просмотр роликов.

Ситуация реальная. Ты чего-то ищешь, а далее твой глаз цепляется за что-то постороннее и привлекательное. А далее…

И каждый раз предлагается унифицировать и стандартизировать способ хранения данных.

Читать полностью »

Давно хотел перевести, но сейчас как раз подходящее время в связи со сменой лицензии у OpenStreetMap.

Главная потенциальная ценность данных для всего общества в целом — это то, что большее количество данных потенциально способствует расширяющемуся научному сотрудничеству и воспроизводимости, более эффективным рынкам, увеличивающейся правительственной и корпоративной прозрачности и, в целом, ускорению нахождения и понимания решений глобальных и социальных потребностей.

Большая часть потенциальной ценности данных, в частности их ценность для всего общества, реализовывается за счёт использования без организационных преград. Как это происходит (юридически)? Многие сайты дают узкое разрешение на использование данных с помощью условий предоставления услуг. Активно обмен специальными данными происходит среди исследователей. И всё чаще открытые данные освобождаются посредством распространения на публичных условиях (например, лицензий CC или передачи в общественное достояние CC0) для преодоления ограничений авторского права, которые в противном случае способны ограничить распространение или повторное использование данных.

Многие организации, учреждения и правительства используют инструменты CC для данных.

Лицензии CC используются для баз данных следующими организациями (подробнее):
Australia Federal Government, Australia Queensland State Government, ChEMBL, DBpedia, Finnish Libraries, Freebase, Geocommons, Google, Greece Government, Italian Government, MusicBrainz, Mydosis Portal, New Zealand Government, Open Directory Project (dmoz), OpenStreetMap, Powerhouse Museum, Spain (Basque) Government — Open Data Euskadi, Stack Overflow, Uniprot, United Kingdom Government.

Инструмент CC0 используется для баз данных следующими организациями (подробнее):
The British Library, CERN Library, Cologne-based Libraries, Digg, Dryad, Europeana, FigShare, Flickr, Genomes Unzipped, German National Library, German Wikipedia, GlaxoSmithKline (GSK), National Library of Spain, Italian Piemonte Regional Government, MichiganView, Netherlands Government, Open Library, OpenEI, OpenJurist.org, Personal Genome Project, Polar Information Commons, Proteome Commons Tranche Network, Public.resource.org, Safecast, Sage Bionetworks — Sage Commons, Spanish National Library, Smithsonian Cooper-Hewitt Museum, SimpleGeo, Swedish National Library, Talis Connected Commons, University of Florida Library, University of Michigan Library, WisconsinView, Université de Montréal Biodiversity Centre, Mercy Corps, Open Clip Art Library.

Часто задаваемые вопросы о данных

Могут ли базы данных быть выпущенные по лицензиям CC?

Да, лицензии CC могут быть использованы для любых защищенных авторским правом произведений, включая защищённые авторским правом на базу данных. Лицензия CC может быть применена к любому или всем копирайт-аспектам базы данных и её содержимого.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js