Рубрика «clustering»

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

2024-02-07 в 6:59, admin, рубрики: clustering, community detection, machine learning, ml, ozon tech, графовые алгоритмы, кластеризация, машинное обучение

Привет! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров - 1

Читать полностью »

Кластеризация изображений с помощью нейросети CLIP

2022-01-13 в 10:45, admin, рубрики: CLIP, clustering, clusterization, data engineering, dbscan, machine learning, OpenAI, python, umap, Блог компании FunCorp, искуственный интеллект, машинное обучение, нейросети, обработка изображений

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Читать полностью »

Иерархическая кластеризация категориальных данных в R

2019-07-29 в 13:35, admin, рубрики: big data, clustering, data science, R, segmentation, visualization, Блог компании OTUS. Онлайн-образование

Перевод подготовлен для студентов курса «Прикладная аналитика на R».

Иерархическая кластеризация категориальных данных в R - 1

Это была моя первая попытка выполнить кластеризацию клиентов на основе реальных данных, и она дала мне ценный опыт. В Интернете есть множество статей о кластеризации с использованием численных переменных, однако найти решения для категориальных данных, работа с которыми несколько сложнее, оказалось не так просто. Методы кластеризации категориальных данных еще только разрабатываются, и в другом посте я собираюсь попробовать еще один.
Читать полностью »

Строительные блоки распределенных приложений. Первое приближение

2019-04-04 в 9:28, admin, рубрики: actors, clustering, distributed computing, elasticity, Elixir, erlang, Erlang mi fa stare bene, Erlang/OTP, event-driven programming, fault tolerant, flexibility, functional programming, high-load, message-passing, performance, reactive programming, reliability, responsiveness, scalability, Анализ и проектирование систем, распределенные системы, функциональное программирование

Строительные блоки распределенных приложений. Первое приближение - 1

В прошлой статье мы разобрали теоретические основы реактивной архитектуры. Пришло время поговорить о потоках данных, путях реализации реактивных Erlang/Elixir систем и шаблонах обмена сообщениями в них:

Request-response
Request-Chunked Response
Response with Request
Publish-subscribe
Inverted Publish-subscribe
Task distributionЧитать полностью »

VyOS OpenSource Router

2019-01-31 в 0:58, admin, рубрики: 802.1Q, Accel-ppp, Alibaba Cloud, Amazon EC2, Ansible, BGP, BGP-peer, citrix xenserver, CloudPack, clustering, Conntrack-Sync, Debian, dell, DHCP Client, DHCP Server, DMVPN, EdgeCore, FRRouting, gateway, Google Cloud Platform, GRE, IGMP-Proxy, IP6IP6, iperf, IPIP, IPIP6, ipsec, IPSec VTI, IPSec/GRE, IPv4, IPv6, ISC-DHCP, isc-dhcp-server, junos, keepalived, kvm, l2tp, L2TPv3, L2TPv3 Router, lacp, layer 2, lldp, mDNS, mDNS-repeater, Microsoft Azure, Microsoft Hyper-V, netflow, Nutanix AHV, open source, OpenNHRP, opensource, openstack, openvpn, ospf, OSPFv3, Packet Cloud, Policy-Based Routing, powerdns, PPPoE server, PPTP, QinQ, quagga, Ravello, RHEV, rip, RIPng, saltstack, sFlow, SIT, site-to-site vpn, snmp, squid, ssh, strongswan, supermicro, syslog, tftp, TFTP Server, virtualbox, VLAN, VMWare ESXi, vpn, VPN Gateway, VPN RA, vrrp, vxlan, vyatta, vyOS, WAN load-balancing, wireguard, xL2tpd, Сетевые технологии, Софт

В этой статье я хотел поднять не стандартную для меня тему о сетевом маршрутизаторе VyOS. Впервые я познакомился с этим проектом благодаря Нилу Андерсону (Neil Anderson) который составил гайд как у себя дома развернуть мини-лабораторию с NetApp симулятором и VyOS.
VyOS OpenSource Router - 1

Ключевые проекты

VyOS это opensource проект на базе Debian Linux, который родился как форк от проекта Vyatta Core Edition of the Vyatta Routing software. Как и любой роутер VyOS оперирует на третьем уровне OSI и маршрутизирует North-South трафик. VyOS включает в себя следующие ключевые проекты:

Debian 8, ядро 4.19
FRRouting (в версии 1.1 и более древних использовался Quagga)
ISC-DHCP
Keepalived
StrongSwan
OpenVPN
PowerDNS
Wireguard
OpenNHRP
Accel-ppp
xL2tpd
Squid
mDNS-repeater
IGMP-Proxy
iPerf
более детальный список в Release notes

Читать полностью »

IGNG — инкрементальный алгоритм растущего нейронного газа

2018-06-17 в 17:21, admin, рубрики: clustering, data mining, neural networks, self-organizing maps, Алгоритмы, кластеризация, математика, машинное обучение, нейронные сети, нейросети, обучение без учителя

IGNG — инкрементальный алгоритм растущего нейронного газа - 1

При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".
В ~~советской литературе~~ российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.

Итак, что же такое — алгоритм инкрементального растущего нейронного газа?

Читать полностью »

Нестандартная кластеризация 5: Growing Neural Gas

2017-10-26 в 6:07, admin, рубрики: cluster, clustering, data mining, distribution, exotic clusters, gng, growing neural gas, manifold, python, Алгоритмы, математика, машинное обучение

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Доброго времени суток! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для выделения кластеров нетипичной формы — расширяющемся нейронном газе (Growing Neural Gas, GNG). Особенно мало информации об этом инструменте анализа данных в рунете: статья в википедии, рассказ на Хабре о сильно изменённой версии GNG и пара статей с одним лишь перечислением шагов алгоритма — вот, пожалуй, и всё. Весьма странно, ведь мало какие анализаторы способны работать с меняющимися во времени распределениями и нормально воспринимают кластеры экзотической формы — а это как раз сильные стороны GNG. Под катом я попробую объяснить этот алгоритм сначала человеческим языком на простом примере, а затем более строго, в подробностях. Прошу под кат, если заинтриговал.

Нестандартная кластеризация 5: Growing Neural Gas - 1

(На картинке: нейронный газ осторожно трогает кактус)
Читать полностью »

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE

2017-10-13 в 5:56, admin, рубрики: clustering, data mining, neural networks, python, self-organizing maps, SoM, theano, Алгоритмы, математика, машинное обучение

Часть первая — Affinity propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — SOM

Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.

Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE - 1

Читать полностью »

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

2017-07-27 в 6:55, admin, рубрики: cluster, clustering, data mining, graphs, metrics, review, time series, математика, машинное обучение

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов - 1

Читать полностью »

Анализ взаимосвязи навыков с помощью графов в R

2017-05-17 в 9:04, admin, рубрики: clustering, data mining, data science, dataviz, graph, R, R-project

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «clustering»

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Кластеризация изображений с помощью нейросети CLIP

Иерархическая кластеризация категориальных данных в R

Строительные блоки распределенных приложений. Первое приближение

VyOS OpenSource Router

Ключевые проекты

IGNG — инкрементальный алгоритм растущего нейронного газа

Нестандартная кластеризация 5: Growing Neural Gas

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Анализ взаимосвязи навыков с помощью графов в R

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «clustering»

Ключевые проекты

Новости

Актуальные темы

Архив