Рубрика «data mining» - 10

Что принёс нам Pandas 1.0 - 1

9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.

Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.

Все изменения можно посмотреть здесь, в статье же мы ограничимся небольшим, менее техническим обзором самого главного.

Читать полностью »

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя? - 1

Привет!

Новогодние праздники — отличное время, чтобы отдохнуть от IT использовать профессиональные навыки в любимом хобби. Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и строго оффлайновом коммьюнити. Под катом картинки графов и бесполезная статистика.

Читать полностью »

Не один год я увлекаюсь генеалогией. Практической пользы в этом хобби нет, но интересного очень много. Здесь я хотел поделиться накопленным опытом, частью интересных сведений, не сильно погружаясь в персональные истории. Чтобы текст сильно не распухал, расскажу всего 2 кейса: поиск в военных архивах на основе данных онлайн-баз и продолжительный просмотр и анализ метрических книг одного села периода конца XIX — начала XX вв. вплоть до конца революции и гражданской войны.

Изучение метрических книг, запросы в далекие архивы обычной и электронной почтой, личные походы в архивы, исследование открытых баз в интернете и другие виды поисков дают богатый материал. Иногда поиск и находки похожи на настоящий детектив, только все события были далеко в прошлом.
Осознаю, что некоторым тема публикации может показаться далекой от IT, но в процессе у меня было и программирование, VBA-скриптинг, SQL, и впереди, надеюсь, MLDSAI.

Генеалогические исследования — метрические книги, переписи, архивы, открытые базы - 1
Страница метрической книги, рождения в 1898 г. Еще в книгах записывались браки и смерти — до появления ЗАГСов в начале 1920х

Читать полностью »

Из хорошей идеи не всегда выходит бизнес

Голова буквально раскалывается. Вы стоите в аптеке, массируете виски и ищете на витрине что-нибудь — что угодно — лишь бы прекратить эту адскую боль.

Что же взять? Тайленол? Адвил? Напроксен?

Полагаю, большинство схватит что-то подешевле или что попадётся под руку, или что-нибудь знакомое. Но если вы достаточно щепетильны, то спрóсите у Google о лучшем обезболивающем без рецепта (OTC). Вот что ответит наш дружелюбный технический бегемот:

Я потратил $40 тыс. и запорол отличную идею для стартапа - 1

Ох спасибо, Google, ты перечислил все варианты.
Читать полностью »

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

Привет! Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за ноябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за октябрь, можете прочесть его здесь.

Итак, а теперь дайджест за ноябрь:

1. MIT разработал новый тип робота, который может расти как растение когда ему требуется дополнительная досягаемость.

image Читать полностью »

Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.
Читать полностью »

Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями.

В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше, чем в среднем по всем участникам наших сообществ.

Визуализация и анализ структуры сообществ с помощью графов - 1

Читать полностью »

ок.tech: Data Толк #4 новогодний выпуск - 1

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за декаду Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать полностью »

Пояснение. BeerTender — устройство для охлаждения и розлива пива от Krups и Heineken. По заявлению производителей, оно сохраняет качества свежего пива в течение 30 дней после открытия кега. Конечно, системным администраторам и девопсам удобно отслеживать температуру и уровень пива в своём бочонке с помощью привычных онлайновых панелей мониторинга. В предыдущей статье рассказывалось, как подключить BeerTender к Warp 10, а сейчас мы настроим панель мониторинга Grafana

Панель мониторинга Grafana для пивной системы BeerTender - 1

OVHcloud, крупнейший европейский хостер и облачный провайдер, активно использует платформу Warp 10. В один кластер Warp 10 стекаются все их данные мониторинга. Это 400 000 серверов, 27 дата-центров, в общей сложности несколько миллионов метрик в секунду!

У них много панелей мониторинга, а теперь OVHcloud является мейнтейнером опенсорсного плагина Warp 10 Grafana, разработку которого мы начали некоторое время назад. О нём и поговорим. Если хотите сами попробовать, данные в открытом доступе — можете скопировать WarpScript ниже.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js