Рубрика «обработка данных»

Прекратите клепать базы данных

2023-12-05 в 22:07, admin, рубрики: sql, клиент, микроменеджмент, обработка данных, сервер

В жизни каждого инженера‑фронтендера наступает момент, когда осознаёшь: далее не обойтись без кэширования данных из API. Всё может начаться с самых невинных вещей: сохраняем предыдущую страницу с данными, чтобы кнопка «Назад» срабатывала мгновенно; реализуем простенькую логику отмены действия или обеспечиваем слияние нескольких состояний от различных запросов к API. Но все мы знаем, чем такое кончается. Один за другим возникают запросы на новые фичи, и вскоре мы уже не покладая рук реализуем кэши данных, индексы для работы вручную, оптимистические мутации и рекурсивную инвалидацию кэша.

Читать полностью »

Анализ статей Хабрахабр

2021-10-09 в 15:53, admin, рубрики: Алгоритмы, визуализация, визуализация данных, обработка данных, парсинг, поиск закономерностей, Программирование, статистика, хабрахабр

Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »

NASA переходит в облака: MCP, DAPHNE и облачные инструменты для команды Perseverance

2021-08-02 в 15:51, admin, рубрики: астрономия, Блог компании Selectel, Научно-популярное, облака, Облачные вычисления, обработка данных, спутники

Мы уже писали о том, что NASA и другие космические агентства генерируют огромный объем информации. Данных будет еще больше после запуска в работу сети радиотелескопов и антенн Square Kilometre Array (SKA). Все эти данные нужно где-то хранить и обрабатывать.

Кроме того, NASA приходится еще иметь дело с данными со спутников, которых тоже становится все больше, как и внеземных аппаратов. Их назначение может быть самым разным — от наблюдения за Солнечной системой до изучения метеорологических условий определенного региона Земли. Объединяет их то, что они отправляют информацию на Землю, где для приема и обработки данных установлены специальные станции со специфическим и дорогим оборудованием. Недавно агентство решило сделать ход конем — начать обрабатывать и хранить все это в облаке. Подробности о проектах, которые имеют отношение к этой задаче, — под катом.
Читать полностью »

Студенты, лабы и gnuplot: обработка данных

2021-03-14 в 13:59, admin, рубрики: Gnuplot, визуализация данных, лабораторные работы, математика, обработка данных, построение графиков, Софт, Учебный процесс в IT, физика

Читать полностью »

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов

2021-01-29 в 9:07, admin, рубрики: DropBox, Блог компании VDSina.ru, инфраструктура, искусственный интеллект, искуственный интеллект, машинное обучение, обработка данных, обработка текста, финансы в IT

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов - 1

Недавно благодаря предсказательной мощи машинного обучения (machine learning, ML) мы обеспечили экономию 1,7 миллионов долларов в год на инфраструктурных тратах, оптимизировав процесс генерации и кэширования превью документов Dropbox. Машинное обучение и раньше применялось в Dropbox для таких хорошо известных функций, как поиск, рекомендации файлов и папок, а также OCR при сканировании документов. Хоть и не все сферы применения ML непосредственно видны пользователю, они всё равно изнутри влияют на развитие бизнеса.

Что такое превью?

Функция Dropbox Previews позволяет пользователям просматривать файл без скачивания контента. В дополнение к превью-миниатюрам Dropbox имеет интерактивную поверхность Previews с возможностью обмена между пользователями и совместной работы, в том числе использования комментарии и тегирования других пользователей.
Читать полностью »

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

2020-03-16 в 7:56, admin, рубрики: big data, data engineering, data frame, data mining, data.table, pandas, python, R, tidyverse, агрегация данных, группировка данных, наука о данных, обработка данных, сводные таблицы

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно - 1

Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.

В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.

Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать полностью »

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данных

В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.

Первый этап начинается с определения статистических показателей датасета.

Таблица 1. Статпоказатели датасета
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая - 1
Читать полностью »

Пилотный проект по обработке высокоплотных сейсмических данных с использованием сервиса MCS

2020-01-21 в 11:58, admin, рубрики: Блог компании Mail.Ru Group, Облачные вычисления, облачные сервисы, облачный сервис, обработка данных, физика

Пилотный проект по обработке высокоплотных сейсмических данных с использованием сервиса MCS - 1

Компания ООО НПЦ «Геостра» с помощью сервиса MCS провела камеральную обработку сейсмической информации — 40 Тб высокоплотной съёмки МОГТ-3D. О реализации, нюансах и результатах проекта будет рассказано в данной статье.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обработка данных»

Прекратите клепать базы данных

Анализ статей Хабрахабр

Результаты обработки данных

Анализ хабов

Дообучаем готовую нейросеть для классификации данных

Как классифицировать данные без разметки

NASA переходит в облака: MCP, DAPHNE и облачные инструменты для команды Perseverance

Студенты, лабы и gnuplot: обработка данных

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов

Что такое превью?

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

Пилотный проект по обработке высокоплотных сейсмических данных с использованием сервиса MCS

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обработка данных»

Результаты обработки данных

Анализ хабов

Что такое превью?

Новости

Актуальные темы

Архив