Рубрика «big data»

«Мегафон», Mail.ru Group, oneFactor, Тинькофф Банк, «Яндекс» и «Сбербанк» учредили Ассоциацию участников рынка больших данных, сообщил «Роем!» представитель oneFactor. Президентом организации стала операционный ди⁠ректор «Мегафона» Анна Серебряникова. Ассоциация займется созданием единых принципов и стандартов обработки, Читать полностью »

Engie и Ledger разработали аппаратное блокчейн-решение для хранения данных, генерируемых источниками «зеленой» энергии - 1

Несколько лет назад выражение «все становится лучше с Bluetooth» стало, можно сказать, мемом. В наше время Bluetooth заменил блокчейн — не в смысле замены одной технологии другой, а в плане модификации мема. Слово «блокчейн» используют все кому не лень, кстати или не кстати.

Но бывают и случаи, когда эта технология используется вполне обоснованно. Например, ее внедряют в кадастровые решения, используют для работы с разного рода реестрами, не говоря уже о криптовалютах. Сейчас блокчейн пытаются поставить на службу себе и энергетики, для того, чтобы информация с источников электроэнергии поступала в безопасное хранилище, откуда ее можно было бы забирать для использования в разного рода приложениях — в основном, имеются в виду промышленные решения.
Читать полностью »

В последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.

Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?

Облачные сервисы Amazon и анализ инвестиционного портфеля - 1

(Источник)

В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.

На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.
Читать полностью »

В период 1890-1970 вся обработка больших данных осуществлялась через перфокарты. Перфокарты в свою очередь обрабатывались при помощи т.н. «регистрирующей аппаратурой», центральным звеном которой был электромеханический «сортировщик перфокарт». Перфокарты и сопутствующую аппаратуру применяли для решения самых разнообразных задач: перепись населения, бухгалтерский учёт, инвентаризация, расчёт заработной платы и т.д.

Как люди работали с перфокартами? Какому алгоритму следовал электромеханический сортировщик перфокарт? Как осуществлялась сортировка по числовым полям данных? А по строковым? Обо всём этом – ниже.

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались) - 1

Читать полностью »

Всем привет.

Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool).

Эта ситуация позволила мне взглянуть на организацию, имеющую несколько баз данных, как на организацию, имеющую одну распределенную гетерогенную (разнородную) базу. Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух баз Vertica.

Работа этой единой распределенной базы порождает кучу интересных задач. Прежде всего, с точки зрения бизнеса важно, чтобы с данными, движущимися по такой базе, все было нормально. Я специально не использую здесь термин целостность, consistency, т.к. термин это сложный, и в разных нюансах рассмотрения СУБД (ACID и CAP теорема) он имеет разный смысл.

Ситуация с распределенной базой обостряется, если компания пытается перейти на микросервисную архитектуру. Под катом я рассказываю, как обеспечить целостность данных в микросервисной архитектуре без распределенных транзакций и жесткой связности. (А в самом конце объясняю, почему выбрал для статьи такую иллюстрацию).

Целостность данных в микросервисной архитектуре — как ее обеспечить без распределенных транзакций и жесткой связности - 1

Читать полностью »

У команды Яндекс.Погоды есть традиция рассказывать о новых технологиях на Хабре. Мы уже рассказывали, как методы машинного обучения позволили создать более точный прогноз погоды, а также о том, как нейросети и данные с радаров помогают прогнозировать осадки.

Сегодня мы расскажем читателям Хабра о новой технологии, с помощью которое нам удалось добиться прогнозирования осадков с точностью до минут даже там, где данных с радаров просто нет. И помогли нам в этом снимки со спутников.

Как Яндекс создал глобальный прогноз осадков с использованием радаров и спутников - 1
Снимки спутника Meteosat-8 из космоса (источник: EUMETSAT)
Читать полностью »

Splunk 7.2 Что нового? SmartStore, управление нагрузкой и многое другое… - 1

Несколько дней назад компания Splunk выпустила новый релиз своей платформы Splunk 7.2, в котором появилось множество нововведений для оптимизации работы, в том числе новая схема хранения данных, администрирование используемой производительности и многое другое. Подробности смотрите под катом.
Читать полностью »

Не секрет, что разработка программного обеспечения является дорогим процессом. Новые технические инструменты помогают достичь быстрых, дешевых и эффективных результатов в бизнесе. Чем больше дохода приносит предприятие, тем больше вы задумываетесь о инвестициях в программное обеспечение. ПО же в свою очередь может иметь скрытые дефекты, которые могут принести вред компании.
Читать полностью »

Суть

Оказывается для этого достаточно запуcтить всего лишь такой набор команд:

git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor
wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2

и потом немного отполировать скриптом для пост-процессинга

python3 process_wikipedia.py

Результат — готовый .csv файл с вашим корпусом.

Читать полностью »

Пару месяцев назад я начала изучать Spark, и в какой-то момент столкнулась с проблемой сохранения вычислений Structured Streaming в базе данных Cassandra.

В данном посте я привожу простой пример создания и использования Cassandra Sink для Spark Structured Streaming. Я надеюсь, что пост будет полезен тем, кто недавно начал работать со Spark Structured Streaming и задается вопросом, как выгружать результаты вычислений в базу данных.

Идея приложения очень проста — получить и распарсить сообщения из кафки, выполнить простые трансформации в спарке и сохранить результаты в кассандре.
Читать полностью »