Рубрика «big data»

«Яндекс не использует и не планирует использовать запатентованную компанией технологию, которая может выявлять заработок пользователей мобильных устройств по профессиям и по тому, какими сервисами они пользуются», — заявила пресс-служба поисковика.

Ранее днём «Известия» сообщили, что поисковик в 2017-м подал заявку, Читать полностью »

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »

Привет, читатель.

Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

image

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать полностью »

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервисов на основе ИИ, которые могут упростить вам жизнь уже сегодня.

Свою статью я разделю на 3 части:

  • ИИ инструменты для личного использования;
  • Инструменты ИИ для бизнеса;
  • Инструменты ИИ для отраслевых бизнесов.

Меньше слов, больше данных.

image

Подборка сервисов на основе ИИ для личного использования:

Дом

  • Bridge Kitchen — помощник на кухне для пошагового приготовления еды;
  • UnifyID — автоматическая аутентификация пользователя в цифровой и физической среде.

Читать полностью »

Большие данные (big data) создали новые возможности для посткапиталистического будущего. Но, чтобы ими воспользоваться, нашей демократии нужно подрасти.

image

Когда СССР распался, вопрос экономического планирования, казалось, был решён раз и навсегда. В борьбе рынка и плана, рынок одержал решительную победу. Спустя тридцать лет после падения берлинской стены, вердикт больше не так однозначен. По всему миру нарастают академические и политические диспуты об экономическом планировании

От переводчика: технологии меняют жизнь, даже некоторые, незыблемые ранее, положения экономики могут пасть. Вашему вниманию — краткая заметка о том, почему экономическое планирование снова на слуху.

Среднее время чтения: 5 минут

Читать полностью »

По данным WSJ, власти США одобрили соглашение с компанией Марка Цукерберга о выплате штрафа для урегулирования скандала с утечкой данных через компанию Cambridge Analytica [Roem.ru: термин «утечка» в данном случае политизированный шаблон, а не IT-шный факт]. Это рекордная сумма для технологических компаний в Штатах, передал РБК.

Cambridge Analytica, Читать полностью »

Всем привет.

Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

За время работы я пришел к таким выводам:

Продукт важнее ИИ

Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс. Читать полностью »

Сегодня возникла потребность в мониторинге изменений определенных файлов на сервере, существует много разных способов например osquery от facebook, но так как недавно я начал пользоваться Open Distro for Elasticsearch решил мониторить файлы эластиком, одним из его beat'ов.

Читать полностью »

Всем привет. Открыт набор на новый курс от Otus — "Прикладная аналитика на R", который стартует уже в конце этого месяца. В связи с этим хочу поделиться переводом публикации о разнице между аналитиком по данным и статистиком, который в свою очередь использует R на практике.

Введение

За последние десять лет объемы данных и скорость их появления росли по экспоненте. Если верить отчетам, каждый день появляется более 3 квинтиллионов байтов данных! Неудивительно, что для работы с ними появилась новая профессия исследователя данных (data scientist) — разностороннего специалиста по анализу и обработке данных. Однако люди занимались статистикой и до появления цифровых средств обработки данных. В чем же различия этих двух профессий: исследователь данных и статистик?

Давайте разберемся.

Читать полностью »