Рубрика «дата-майнинг»

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »


Изучение аттрактора Лоренца, а затем редактирование кода в Iodide

В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.

Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.
Читать полностью »

Налоговая инспекция США использует дата-майнинг и предсказательную аналитику - 1В России и странах СНГ налоговые преступления не считаются чем-то экстраординарным для физического лица. Недоплатил налог? Ну ладно, доплати сколько надо — и свободен. Совершенно иная ситуация в США. Там за сокрытие налогов можно надолго сесть в тюрьму, это одно из самых серьёзных преступлений перед государством, наряду с государственной изменой и шпионажем в пользу другого государства. Так что с IRS (так называется местная налоговая инспекция) лучше не шутить.

А вот сама IRS становится всё более умной. Она начинает применять современные технологии, чтобы выявить тех граждан, у которых расходы не соответствуют официально полученным доходам. Об этом пишет издание Vanderbilt Journal of Entertainment and Technology Law со ссылкой на отчёт адъюнкт-профессора бизнес-права Университета штата Вашингтон Кимберли Хаусер (Kimberly A. Houser) и профессора бухгалтерского учёта Университета штата Вашингтон Дебры Сандерс (Debra Sanders).

Как сообщается, IRS теперь занимается дата-майнингом публичных и коммерческих наборов данных (в том числе из социальных сетей), чтобы создать подробные профили налогоплательщиков, с помощью которых специалисты налоговой осуществляют анализ данных.
Читать полностью »

Что значит имя? Роза пахнет розой,
Хоть розой назови ее, хоть нет.

  • Шекспир "Ромео и Джульетта" (пер. Пастернака)

Ромео и Джульетта

Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

В этой статье я расскажу о том, что несмотря на то, каким бы странным это не казалось для образованного человека, вероятность быть одинокой/одиноким зависит от имени человека. То есть, по сути, мы поговорим про любовь и отношения.

Это примерно все равно, что сказать: вероятность быть сбитым машиной, если тебя зовут Сережа, выше, чем если бы тебя звали Костя! Звучит довольно дико, не правда ли? Ну, как минимум, ненаучно. Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение.

Подробно мы рассмотрим только девушек, а про мужчин поговорим в самом конце. Более того, я не ставлю своей целью установить причину происходящего или даже выдвинуть какую-то сколько угодно серьезную гипотезу, а хочу лишь рассказать о своих наблюдениях и фактах, которые можно измерить.

Читать полностью »

Пинг IP-адресов как универсальный инструмент общественных наук - 1

С какой точки зрения ни посмотреть, но интернет — физическая сеть оптоволоконных кабелей, соединяющая воедино миллиарды маршрутизаторов, серверов и компьютеров по всему миру — это самое выдающееся изобретение человечества, которое повлияло на все сферы человеческой деятельности: здравоохранение, политику, образ жизни. Наличие интернета положительно коррелирует с изменением режима сна человека и его интимной жизнью.

По оценке МСЭ, к концу 2016 года к Сети подключены 3,5 млрд человек (47,1% населения) или почти 1 млрд домохозяйств. В четырёх странах мира проникновение достигло условных 100% по количеству IP-адресов на домохозяйство из трёх человек: это Германия, Дания, Южная Корея и Эстония. Кстати, в последней даже президента выбрали через интернет.

Группа исследователей под руководством Клауса Акермана (Klaus Ackermann) из Чикагского университета провела первое в истории масштабное исследование влияния интернета на человеческое общество: за период с 2006 по 2012 годы они сделали более 1 триллиона пингов всех адресов IPv4 с интервалами от 15 минут — и соотнесли эти данные с изменениями разных социоэкономических показателей в 1647 городах 122 стран мира. Это исследование не является каким-то цельным описанием картины изменений, но показывает любопытные корреляции между проникновением интернета и некоторыми изменениями, которые происходят в обществе.
Читать полностью »

Нейросеть определяет тунеядцев по метаданным сотовой сети с вероятностью 70,4% - 1
Индикаторы использования сотовой связи офисными сотрудниками, безработными, пенсионерами, учителями и студентами. Например, нейросеть определила для офисных сотрудников такой специфический индикатор, как большая длительность исходящих звонков

Благодаря социальным сетям и метаданным сотовой связи специалисты получили удобный и достаточно точный инструмент для изучения общества. Некоторую информацию люди публикуют в соцсетях сознательно, а часть важных данных выдают непроизвольно. Скажем, анализ анонимных метаданных сотовой связи показывает трафик на дорогах, скорость движения автомобилей, образование пробок, пассажиропотоки общественного транспорта. Это довольно логичные варианты дата-майнинга. А вот группа учёных из Telenor Group Research, MIT Media Lab, Flowminder Foundation и Стокгольмской школы экономики нашла весьма нестандартный вариант. Исследователи доказали, что по логам сотовой связи можно предсказывать… занятость. Довольно точно определяются безработные и представители ещё 17 родов занятий.

По информации учёных, это первое в мире исследование такого рода, когда безработных или профессию человека вычисляют на индивидуальном уровне с помощью глубинного обучения по логам сотовой сети. Раньше исследователи пытались предсказать только общий уровень безработицы по мобильным данным, но не профессии конкретных людей.
Читать полностью »

За год люди сделали 24 миллиарда селфи

База фотографий Google Photos выросла до 13,7 петабайт - 1
Композитные изображения, которые соответствует оптимальным стимулам для нейрона-классификатора кошки и человека в нейросети Google, во время первого эксперимента 2012 года

Человечество продолжает усиленно фотографироваться, снабжая Google обильным потоком информации для обучения систем искусственного интеллекта. Нейросеть Google уже умеет определять страну по фотографии, распознавать объекты, распределять фотографии по тематическим группам, автоматически генерировать видеоролики и коллажи и многое другое.

Сами пользователи получают бесплатный хостинг неограниченного размера, что очень удобно: можно освободить место и никогда не волноваться о потере фотографий.
Читать полностью »

Сайты, вахтёры и охранники обязаны будут закачивать собранные данные на специальный портал

В России собираются создать особый портал по контролю за распространением персональных данных. Идею обсуждает рабочая группа в администрации президента, которую возглавляет советник президента России Игорь Щеголев, пишут «Известия».

Сейчас паспорт человека проверяют в различных учреждениях: общежитиях, бизнес-центрах, школах и т.д. Каждый охранник/вахтёр вносит информацию во внутреннюю документацию — табель, журнал посещений и проч. Такая разрозненность информации — большая проблема, поскольку с неструктурированными данными очень сложно работать. «В итоге эти данные появляются не пойми где», — объясняет президент Фонда информационной демократии Илья Массух.
Читать полностью »

0. Intro

Приятно видеть, как люди запускают множество сервисов и приложений. Кому-то везет и  успех к продукту приходит сам. Большинство же должно адекватно оценивать ситуацию на своем проекте и принимать правильные решения, ведущие к своему лунапарку с нардами и секретаршами.
Сейчас я предложу вам один из вариантов того, как правильно оценивать ситуацию с продуктом, принимать решения и не попасться на ошибку «средней температуры по больнице». Под капотом — немного датайманинга, больничных метафор и «стартаперских метрик».

Средняя температура по больнице, кластеры данных и принятие решений в проекте - 1
Это птичка века и она поможет нам с сегодняшней статьей.

Читать полностью »

Компьютерная программа совершила важное открытие в лечении спинного мозга - 1

Доктора только что узнали кое-что новое о послеоперационном восстановлении спинного мозга при травмах позвоночника. Обнаружена связь между успехом долговременного восстановления и высоким артериальным давлением во время операции. Казалось бы, незначительная новость, но она может помочь быстрее встать на ноги миллионам пациентов. Самое интересное то, каким образом сделано это открытие. Его совершила компьютерная программа.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js