Рубрика «данные»

Вот цитата из Линуса Торвальдса за 2006 год:

Я огромный сторонник разработки кода вокруг данных, а не наоборот, и я думаю, что это одна из причин, по которой git был довольно успешным… По сути, я утверждаю, что разница между плохим программистом и хорошим заключается в том, считает ли он более важным свой код или свои структуры данных. Плохие программисты беспокоятся о коде. Хорошие программисты беспокоятся о структурах данных и их взаимоотношениях.

Что очень похоже на «правило представления» Эрика Реймонда от 2003 года:

Сверните знания в данные, чтобы логика программы стала глупой и надёжной.

Здесь просто резюме идей, подобных мысли Роба Пайка от 1989 года:

Доминируют данные. Если вы выбрали правильные структуры данных и всё хорошо организовали, то алгоритмы почти всегда будут самоочевидными. Структуры данных, а не алгоритмы, играют центральную роль в программировании.

Читать полностью »

Хабр, привет.

Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!

1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.

Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.

image

Читать подробнее

2. Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. И выяснили, чем отличается процесс принятия решений у нейросети и ребенка.

image

Читать подробнее

3. Waymo публикует данные для обучения автопилотных автомобилей. Данные включают в себя 3,000 видеозаписей вождения, которые в сумме длятся 16.7 часов, 600,000 фреймов, около 25 миллионов 3D границ объектов и 22 миллионов 2D границ объектов. Сенсоры на автомобилях, которые собирали данные, включали в себя 5 LiDARs, 5 камер и радары, количество которых не разглашается. Компания заявила, что им удалось точнее синхронизировать LiDAR и записи камер, чем в открытых данных (KITTI, NuScenes).

image

Читать подробнееЧитать полностью »

Есть в графиках что-то магическое. Изгиб кривой мгновенно раскрывает всю ситуацию — историю развития эпидемии, паники или периода процветания. Эта линия просвещает, пробуждает воображение, убеждает.
Генри. Д. Хаббард

Объемы данных, с которыми нужно работать, постоянно увеличиваются. И чем больше информации, тем сложнее ее обрабатывать. Вот почему сейчас стала особенно популярна тема визуализации данных — в виде графиков, диаграмм, дашбордов, желательно интерактивных. Визуальное представление данных позволяет нам, людям, тратить меньше времени и сил на их просмотр, анализ и осмысление, а также на принятие правильных, информированных решений на основе этого.

Вряд ли кто-то станет отрицать, что в современном HTML5 вебе JavaScript — самая универсальная и простая технология для визуализации данных. Так что, если вы занимаетесь фронтенд-разработкой, то вы, скорее всего, либо уже имели дело с созданием JS чартов, либо столкнетесь с этим в (скором) будущем.

Существует множество JavaScript библиотек для построения графиков и диаграмм, каждая из которых (как и любые другие инструменты) имеет свои плюсы и минусы. Чтобы облегчить вам жизнь, я решил рассказать о тех из них, которые нравятся мне больше всего. Я считаю, десять следующих библиотек — это лучшие JS библиотеки для создания графиков, и они действительно способны помочь решить практически любую задачу по визуализации данных. Давайте вместе пройдемся по списку и убедимся, что они вам известны хотя бы базово и вы не упустили из виду какую-нибудь хорошую библиотеку, которая может оказаться полезной в текущих или будущих больших проектах.

Заглавная картинка: визуализация данных на графиках и диаграммах

Что ж, приступим: вот лучшие JS библиотеки для визуализации данных!Читать полностью »

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:

image

Привет!

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

  • Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
  • Найти самые популярные имена за всю историю;
  • Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
  • Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
  • Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
  • Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.
Читать полностью »

Мы уже давно привыкли, что крупные IT-компании занимаются не только выпуском продуктов и оказанием услуг, но и активно участвуют в развитии интернет-инфраструктуры. DNS от Google, облачные хранилища и хостинг Amazon, дата-центры Facebook по всему миру — пятнадцать лет назад это казалось слишком амбициозным, а сейчас является нормой, к которой все привыкли.

И вот, четверка крупнейших IT-компаний в лице Amazon, Google, Microsoft и Facebook дошли до того, что начали вкладываться не только в непосредственно дата-центры и серверы, но и в сами магистральные кабели — то есть зашли на территорию, которая традиционно являлась зоной ответственности совершенно иных структур. Причем, судя по выводам в блоге APNIC, упомянутый квартет технологических гигантов замахнулся не просто на наземные сети, а на магистральные трансконтинентальные линии связи, т.е. на всем нам знакомые подводные кабели.

Вести со дна: IT-гиганты начали активно строить собственные подводные магистральные сети - 1

Самое удивительное, что острой необходимости в новых сетях сейчас нет, но компании активно наращивают пропускную способность «про запас». К сожалению, найти внятную статистику о мировой генерации трафика почти невозможно благодаря многочисленным маркетологам, которые оперируют размерностями вида «65 миллионов постов в инстаграме ежедневно» или «N поисковых запросов в Google» вместо прозрачных и понятных техническим специалистам петабайт. Можно осторожно предположить, что ежедневный трафик составляет ≈2,5*10^18 байт или около 2500 петабайт данных.
Читать полностью »

Машины становятся умнее. Уже сейчас они генерируют контент такого качества, что даже профессионал не всегда отличает его от «человеческого». О том, почему журналистам и редакторам не стоит опасаться конкуренции, и о перспективах автоматизации журналистики на нашей конференции «Контентинга» рассказал Сергей Марин из «Студии данных».

Роботы в журналистике, или Как использовать искусственный интеллект для создания контента - 1

Под катом расшифровка его доклада.
Читать полностью »

Наверное, можно сказать «традиционно» на Хабре в комментариях на темы, содержащие слово «Роскомнадзор», появляются комментарии вроде «вот сделают спутниковый планетарный интернет и…». И… Пока идут разговоры об орбитах, количестве спутников, запусках, ФСБ, Роскосмосе, SpaceX,… уже как минимум пару лет Роскомнадзор строит. А что строит — об этом в этой статье.

Сразу скажу, что если вы под спойлером ожидаете увидеть документацию на объект, то у меня её нет. В публикации есть фото станции и информация для размышления.

Космическая станция Роскомнадзора - 1

Читать полностью »

Наверное любому из тех, кто хоть как-то причастен к области анализа данных хотя-бы раз приходилось сталкиваться с поиском сторонних источников получения этих самых данных. Сегодня я хотел бы поделиться с Вами одним из самых неожиданных для меня мест, где эти данные лежат почти что на поверхности, да еще и в огромных количествах. Знакомьтесь — это 2GIS.

Image

Читать полностью »

Данные бывают смешными (и вот примеры) - 1

Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать полностью »