Рубрика «sql» - 3

Жарим TOAST в PostgreSQL

2023-01-12 в 13:33, admin, рубрики: backend, blob, highload, json, large data, open source, postgresql, sql, toast, Блог компании Postgres Professional, хранение данных, хранилища данных

У нас не подгорит!

В этой статье мы разберем, как PostgreSQL хранит большие (длинные) значения колонок, рассмотрим некоторые связанные с этим особенности и проблемы СУБД и предложим способы решения этих проблем. Посчитаем байтики и залезем в потроха СУБД. Будет интересно!

1. Что такое TOAST и зачем он нужен?

Читать полностью »

Парсинг HTML с помощью PHP и SQL. Немного провокационный пример с анализом пользователей Хабра

2023-01-06 в 10:22, admin, рубрики: html, php, sql, порно, тегиниктонечитает

Выковыривание информации из html — это скучно. Очень. Между тем, эта потребность выстреливает редко, но метко (© Суворов). Из-за этого есть спрос на готовые и короткие инструкции о том, как это сделать, чтобы не тратить время на изучение. Перед вами как раз такая.

Чтобы добавить хоть какой-то интерес скучнейшему занятию мы для примера будем парсить пользователей Хабра. А чтобы не мелочиться — ещё и реанимируем для этого экспериментальную библиотеку 11-летней давности.

Есть такой проект — htmlSQL Читать полностью »

Как создать свою СУБД с нуля и не сойти с ума. Практическое пособие начинающему некроманту. Часть первая

2023-01-06 в 3:47, admin, рубрики: database development, diy или сделай сам, parser, relational database, sql, sqlite, sqlite3, transpilation, wal, базы данных, ненормальное программирование, СУБД, хранилища данных

Наступил Апокалипсис.

Читать полностью »

Оптимизация поиска по большому полю

2022-12-21 в 7:01, admin, рубрики: Microsoft SQL Server, MS Sql Server, search, sha256, sql, tsql, Администрирование баз данных, Блог компании «Лаборатория Касперского», Программирование

Вновь привет, уважаемые читатели ! Работая с одной из систем хранения метаданных о файлах в «Лаборатории Касперского» вспомнил, что давно хотел написать об оптимизации поиска по большому полю в базах данных. О чем далее и расскажу более подробно.

В данной публикации будет рассмотрена оптимизация поиска по полю бинарного массива и, в частности, по равномерно распределенным данным, а также сравнение между собой выявленных способов.

Оптимизация поиска по большому полю - 1

Итак, представьте: у вас есть таблица в базе данных MS SQL, в которой десятки миллиардов строк данных. И в эту таблицу вставляются и удаляются суммарно десятки и сотни тысяч строк в секунду. Назовем эту таблицу dbo.metadata.

Замечание. Для проведенного анализа ниже была создана новая база данных TEST, в которой были созданы две таблицы dbo.metadata и dbo.sha256_checksum (о второй таблице будет написано ниже) и сгенерированы синтетические данные на 1+ млрд строк в каждую. После каждого вызова запроса проводился полный сброс кэша планов для базы данных TEST (DBCC FREEPROCCACHE), чтобы план для запроса каждый раз строился заново, а не брался уже готовый.

Таблица dbo.metadata упрощенно выглядит так:

Определение таблицы dbo.metadata
Определение таблицы dbo.metadata
Читать полностью »

PostgreSQL 16: Часть 3 или Коммитфест 2022-11

2022-12-17 в 10:18, admin, рубрики: postgres, postgresql, sql, Блог компании Postgres Professional

Продолжаем следить за новинками будущей 16-й версии. В начале декабря завершился третий коммитфест и вот его результаты.

Самое интересное из первых коммитфестов можно прочитать в предыдущих статьях серии: 2022-07, 2022-09.

Читать полностью »

2003–2023: Краткая история Big Data

2022-12-04 в 10:00, admin, рубрики: Apache, AWS, big data, data engineering, GCP, Hadoop, Microsoft Azure, ruvds_перевод, spark, sql, Блог компании RUVDS.com, Большие данные, хранилища данных

Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?

Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.

Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет¹ эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.

Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…

Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.

Читать полностью »

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

2022-11-27 в 10:30, admin, рубрики: big data, bigquery, clickhouse, data engineering, data mining, Excel, Google Cloud Platform, Microsoft SQL Server, olap, olap-кубы, Snowflake, sql, анализ данных, аналитика данных, данные

Всем привет! Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.

Задача

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Читать полностью »

Как избежать распространенных ошибок при работе с СУБД

2022-11-25 в 11:04, admin, рубрики: sql, Администрирование баз данных, архитектура, базы данных, Блог компании Selectel, СУБД

В этом материале мы поговорим о практиках и ошибках при работе с разными СУБД, а также поделимся чек-листом от менеджера PaaS-продуктов Selectel Андрея Андронова.

Мы начнем с планов на проект и серверных комплектующих, пройдем через правила проектирования баз данных и доберемся до уровня доступности.
Читать полностью »

Сумачечая производительность LINQ в .Net7

2022-11-06 в 11:04, admin, рубрики: .net, algorithms, C#, linq, linux, MacOS, performance optimization, sql, unity, Vectorization, микросервисы, Разработка под Linux

Исторически так сложилось, что LINQ взыскал сомнительную репутацию за его слабую производительность. LINQ медленный, аллоцирует память, сложно читается, поэтому обычно его используют как инструмент запросов к БД и то, зачастую сложные запросы легче написать на SQL. Даже на собеседованиях джунов просят не использовать LINQ в алгоритмах.

Читать полностью »

Топ полезных SQL-запросов для PostgreSQL

2022-10-30 в 15:08, admin, рубрики: administration, database development, database optimization, postgresql, sql, sql tips and tricks, Администрирование баз данных, базы данных

Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно рассмотрим SQL-запросы, которые помогут вам отслеживать эти показатели и просто могут быть полезны как пользователю.

Топ полезных SQL-запросов для PostgreSQL - 1

Зачем следить за состоянием PostgreSQL?

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «sql» - 3

Жарим TOAST в PostgreSQL

1. Что такое TOAST и зачем он нужен?

Парсинг HTML с помощью PHP и SQL. Немного провокационный пример с анализом пользователей Хабра

Как создать свою СУБД с нуля и не сойти с ума. Практическое пособие начинающему некроманту. Часть первая

Оптимизация поиска по большому полю

PostgreSQL 16: Часть 3 или Коммитфест 2022-11

2003–2023: Краткая история Big Data

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Задача

Как избежать распространенных ошибок при работе с СУБД

Сумачечая производительность LINQ в .Net7

Топ полезных SQL-запросов для PostgreSQL

Зачем следить за состоянием PostgreSQL?

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «sql» - 3

1. Что такое TOAST и зачем он нужен?

Задача

Зачем следить за состоянием PostgreSQL?

Новости

Актуальные темы

Архив