Рубрика «обработка данных» - 3

imageПлатформа Waves выросла из желания сделать существующие блокчейн-разработки по-настоящему доступными для мира бизнес-приложений. Несмотря на раннюю стадию своего развития — технология существует всего 7 лет — блокчейны уже сейчас могут предложить миру на удивление много. И хотя здесь я не рассматриваю закрытые блокчейн-решения, нельзя не отметить довольно высокий уровень их зрелости и практичности. Что же касается Waves, то мы полностью сосредоточились на открытых блокчейн-технологиях, и стремимся сделать так, чтобы они уже сейчас нашли практическое применение в мире бизнеса.

Возможность создавать специализированные блокчейн-токены и упрощать с их помощью взаимодействие — основной элемент, на который делает акцент платформа Waves. Всякий бизнес должен иметь под рукой простой способ выпустить специализированный токен, который можно будет использовать в качестве составного элемента бизнес-приложений. Игровые валюты, краудфандинг, внутренние валюты, ваучеры и программы лояльности — все эти области немало выигрывают от использования открытых блокчейнов. По существу, открытые блокчейны берут на себя и обеспечивают сетевую инфраструктуру и системный аудит. Для бизнеса это все равно, что открыть дверь в новое измерение.
Читать полностью »

Анализ статей Хабрахабр и Geektimes - 1

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске.
Читать полностью »

image

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?

Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать полностью »

Введение

Наука, связанная с обработкой данных, продолжает волновать людей, однако реальные результаты нередко вызывают разочарование у заинтересованных бизнесменов. Как мы можем снизить риски и обеспечить соответствие результатов ожиданиям? Работа в качестве технического специалиста на стыке НИОКР и коммерческих операций дала мне представление о проблемах, которые стоят на этом пути. Я представляю свою личную точку зрения на наиболее распространённые виды провалов и неудач проектов, связанных с информатикой.
Читать полностью »

Сначала я хотел не углубляться в тензоры и описать их мимоходом, касаясь только используемого мной функционала. Однако я изменил свое мнение и решил рассказать больше. Добро пожаловать в многомерный мир.
GFDM и тензоры. Продолжение - 1
Читать полностью »

Никита Иванов (GridGain): «Мы делаем космические корабли» - 1

Компания GridGain Systems, разработчик программных решений на базе Apache Ignite, предоставила клиентам доступ к решениям GridGain In-Memory Data Fabric на облачной платформе Microsoft Azure. Это позволит компаниям-поставщикам финансовых услуг использовать возможности интегрированных облачных служб Microsoft для быстрого развертывания продуктов GridGain и перенести вычисления в оперативную память компьютера.

По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 миллиардов. Отдельную ценность имеют вычисления в режиме реального времени.

GridGain — один из лидеров в этом сегменте. Будучи небольшим стартапом, компании удалось обойти крупных конкурентов и заключить контракты по всему миру. Причина успеха компании — технологическое ноу-хау? Или, может быть, просто везение?

О нелегкой судьбе наукоемкого ИТ-стартапа, о конкуренции на рынке данных и его перспективах мы поговорили с основателем и генеральным директором компании Никитой Ивановым.Читать полностью »

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML - 1

Я расскажу о практическом примере того, как мы формулировали требования к задаче машинного обучения и выбирали точку на кривой точность/полнота. Разрабатывая систему автоматической модерации контента, мы столкнулись с проблемой выбора компромисса между точностью и полнотой, и решили ее с помощью несложного, но крайне полезного эксперимента по сбору асессорских оценок и вычисления их согласованности.
Читать полностью »

Компания Gartner — исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий — опубликовала свой очередной «магический квадрант» по рынку сетевых технологий ЦОД. Расскажем вам о важных моментах из отчета, а также об оценке одного из лидеров — Arista Networks.

Магический квадрант Gartner по рынку сетевых технологий ЦОД: Arista Networks в лидерах - 1

Читать полностью »

В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анинимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.

Fbi Detected: Как я обнаружил агентов ФБР - 1

Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать полностью »

Мы уже начинали говорить о персональных данных, их сборе и обработке. Но, об этом можно говорить бесконечно и мы продолжим. В прошлый раз мы говорили об изменениях в законе, но не учли самого главного — САМ ЗАКОН ВЫ НЕ ЧИТАЛИ!.. И, судя по обратной связи, информация требует более детальной проработки.
Поэтому мы несколько раз перечитали все законы и дополнения к ним. Сделали из него эдакую выжимку. Четко по пунктам расписав основные его нормы и требования.
Основы обработки персональных данных - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js