Рынок VPN-провайдеров — это джунгли, в которых конкурирующие компании борются за клиентов, используя все возможные маркетинговые аргументы, включая введение пользователей в заблуждение. Один из примеров этого — это так называемая проблема альянсов спецслужб «5 (9, 14) глаз», и как VPN может защитить от них пользователей.
Рубрика «data mining»
14 глаз против VPN: что нужно знать про то, как главные разведки мира совместно шпионят за пользователями
2023-08-02 в 14:42, admin, рубрики: data mining, five eyes, fourteen eyes, nine eyes, surveillance, vpn, xeovo, xeovo vpn, анб, Блог компании Xeovo VPN, информационная безопасность, шпионские штучки, Эдвард СноуденАнализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки
2023-06-23 в 7:53, admin, рубрики: big data, data engineering, data mining, анализ данных, Блог компании IT-guide, пивоварениеТри года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.
Чисто научный подход: чего хотят женщины и о чем говорят мужчины
2023-05-23 в 16:28, admin, рубрики: data mining, dating_app, mamba, аналитика, портрет пользователя, сайты знакомствЖенщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова - это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом “разложила по графичкам”. Цель была - сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу.
Код парсинга и ноутбук анализа доступны на GitHub
А работают ли игровые механики?
2023-04-07 в 16:31, admin, рубрики: big data, data analysis, data mining, аналитика, Аналитика мобильных приложений, визуализация, визуализация данных, геймификация, игры, мобильные приложения, продуктовая аналитикаАнализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
2022-11-27 в 10:30, admin, рубрики: big data, bigquery, clickhouse, data engineering, data mining, Excel, Google Cloud Platform, Microsoft SQL Server, olap, olap-кубы, Snowflake, sql, анализ данных, аналитика данных, данныеВсем привет! Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.
Задача
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Инженерия данных != инженерия ПО
2022-11-27 в 10:00, admin, рубрики: data engineering, data mining, devops, ruvds_перевод, software engineering, Блог компании RUVDS.com, инженерия данных, разработка по, управление разработкой
В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.
Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход.Читать полностью »
Первый нейросетевой переводчик для эрзянского языка
2022-10-09 в 10:00, admin, рубрики: cезон data mining, data mining, lower-resource language, machine learning, machine translation, ml, natural language processing, nlp, искусственный интеллект, малоресурсный язык, машинное обучение, машинный перевод, переводчик, СемантикаЭрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Делаем бизнес прозрачным или еще один пример распознавания капчи
2022-10-01 в 16:53, admin, рубрики: data mining, keras, python, scrapy, TensorFlow, каптча, капча, машинное обучение, нейросети, решение капчиНе для кого не секрет, что капча является популярным средством, чтобы снизить нагрузку на сайт и предотвратить скачивание информации роботами. Сегодня, когда капча применяется практически на каждом сайте, рассмотрим кейс с ее обходом на сервисе "Прозрачный бизнес".
Что такое "Прозрачный бизнес"?
Сервис содержит комплексную информацию о финансовых и правовых параметрах юридических лиц (подробнее тутЧитать полностью »
Анализ различий подачи новостей в Telegram-каналах
2022-08-27 в 11:19, admin, рубрики: data mining, natural language processing, python, агрегатор новостей, анализ данных, визуализация данных, машинное обучение, Новости, обработка естественного языка, тегиниктонечитаетПривет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.