Ответ на вопрос.

История: PostgreSQL использует оптимизатор на основе стоимости, который присваивает абстрактные денежные единицы операциям ввода-вывода. Ранние системы баз данных в основном ориентировались на вращающиеся диски, где штрафы за перемещение головки делали случайный ввод-вывод примерно в 40 раз дороже последовательного чтения. Чтобы смягчить эту асимметрию, были введены Bitmap Index Scans, чтобы амортизировать случайные извлечения страниц, создавая битовую карту местоположений соответствующих кортежей в памяти и обращаясь к кучи в приблизительном физическом порядке.

Проблема: Основная дилемма возникает при фильтрации умеренно селективных предикатов, которые соответствуют тысячам строк, разбросанным по многим страницам данных. Index Scan выполняет один случайный ввод-вывод для каждого указателя на соответствующий кортеж, что приводит к механическому гудению диска или чрезмерным запросам ввода-вывода на SSD. Напротив, Bitmap Index Scan несет накладные расходы на создание структуры битовой карты и может обрабатывать нерелевантные строки, если битовая карта становится теряемой из-за ограничений work_mem.

Решение: Пороговое значение решения находится в функциях cost_index() и cost_bitmap_heap_scan(). Планировщик оценивает количество различных страниц кучи (pages_fetched), необходимых для удовлетворения запроса. Когда pages_fetched превышает соотношение random_page_cost / seq_page_cost, оптимизатор предпочитает битовый подход, потому что стоимость извлечения отсортированных страниц превышает штраф за случайный доступ. Снижение random_page_cost (например, с 4.0 до 1.1 для SSD) снижает воспринимаемый штраф за случайный ввод-вывод, возвращая планировщика назад к стандартным Index Scans для селективностей, которые ранее вызывали создание битов.

Ситуация из жизни

Платформа финансовой отчетности страдала от серьезной задержки при выполнении запроса на панели мониторинга, агрегирующего transactions по account_id за текущий фискальный квартал. Таблица содержала 500 миллионов строк на устаревшем SAN с вращающимися дисками. Предикат account_id = 12345 соответствовал примерно 12% строк, разбросанных случайным образом по кучи. План выполнения показал стандартный Index Scan, потребляющий 14 секунд из-за штормов случайного ввода-вывода на тысячах листовых страниц.

Увеличение random_page_cost с 4.0 до 8.0 явно сигнализировало оптимизатору, что случайные обращения к диску были чрезмерно дорогими. Это немедленное изменение заставило планировщика выбрать Bitmap Index Scan, сократив время выполнения до 1.8 секунд, сгруппировав запросы на страницы в отсортированные диапазоны. Однако эта глобальная настройка наказала запросы OLTP с поэлементным поиском в других частях приложения, заставляя их переключаться на менее эффективные последовательные сканирования, что увеличивало конфликт блокировок в часы пик торговли.

Создание покрывающего индекса на (account_id, transaction_date, amount) позволило выполнить Index Only Scan, который полностью обошел кучу, обеспечивая время отклика 80 мс. Хотя это было оптимально для чтения, составной индекс увеличил размер таблицы на 35% и снизил пропускную способность ввода на 22%, так как каждая вставка теперь требовала поддержания двух больших B-деревьев, нарушая строгие требования SLA для записи сделок в реальном времени.

Мы решили реализовать партиционирование таблицы по диапазону на created_at в сочетании с умеренным random_page_cost 6.0. Этот гибридный подход ограничил запрос текущим кварталом, снижая абсолютное количество страниц ниже порога битов, в то время как повышенный параметр стоимости обеспечивал использование битов для перекрестных исторических запросов, чтобы избежать насыщения случайным вводом-выводом. Это решение соблюдало ограничения производительности записи торговой системы, оптимизируя путь отчетности с высокой нагрузкой на чтение.

Результат: Запрос на панели мониторинга стабилизировался на уровне 400 мс без ухудшения производительности вставки OLTP, а использование ввода-вывода на узле отчетности снизилось с 95% до 30% в рабочие часы.

Что часто упускают кандидаты

Как effective_cache_size взаимодействует с random_page_cost в модели стоимости планировщика и почему снижение random_page_cost в системе с большим кэшем может действительно ухудшить производительность для некоторых типов соединений?

effective_cache_size количественно определяет память, доступную для кэширования диска. Когда он установлен высоко, планировщик предполагает, что многие страницы находятся в ОЗУ, фактически игнорируя затраты на ввод-вывод независимо от настройки random_page_cost. Если вы агрессивно снижаете random_page_cost до 1.1 (типично для NVMe SSD), поддерживая при этом большой effective_cache_size, оптимизатор может необоснованно предпочитать Nested Loop соединения с использованием Index Scans вместо Hash Joins. Модель предполагает, что запросы индекса внутреннего отношения почти бесплатны, потому что случайный ввод-вывод дешев и кэширован, игнорируя, что массовые внутренние циклы все равно насыщают процессор обработкой кортежей и вызывают вытеснение кэша, что приводит к худшему времени выполнения, чем одна операция массового хеширования, которая сканирует внутреннюю таблицу один раз.

В чем разница Bitmap Index Scan в PostgreSQL от Bitmap Heap Scan, и почему планировщик выбирает BitmapOr операции через несколько индексов вместо использования одного составного индекса?

Bitmap Index Scan проходит по структуре индекса, чтобы создать битовую карту указателей на соответствующие кортежи (или диапазоны страниц, если они теряются). Bitmap Heap Scan затем извлекает реальные данные строк из таблицы, используя эту битовую карту для последовательного доступа к страницам. BitmapOr (или BitmapAnd) происходит, когда запрос фильтрует по условиям, таким как WHERE status = 'active' OR priority = 'high', соответствующим отдельным индексам. Поскольку PostgreSQL не может одновременно эффективно проходить два B-дерева за один проход, он генерирует битовые карты из каждого индекса независимо и объединяет их побитовыми операциями. Эта техника предпочтительнее составного индекса (status, priority), когда запросы фильтруют по status отдельно, priority отдельно или обоим переменно, так как поддержание двух отдельных индексов вызывает значительно меньшую амплификацию записи, чем несколько покрывающих составных вариантов.

Когда запрос использует LIMIT , почему PostgreSQL все равно может выбрать Bitmap Index Scan несмотря на то, что раннее завершение отдает предпочтение стандартному Index Scan, и как устаревшая статистика влияет на это неправильное вычисление?

Стандартный Index Scan может немедленно завершить выполнение после извлечения LIMIT N строк, если индекс поддерживает необходимую сортировку, минимизируя ввод-вывод. Однако, если планировщик недооценивает количество строк, соответствующих предикату—из-за устаревшей статистики ANALYZE или коррелированных столбцов—он предполагает, что Index Scan будет проходить чрезмерное количество листовых страниц перед тем, как найти соответствия. Поэтому он выбирает Bitmap Index Scan, чтобы амортизировать затраты ввода-вывода. Поскольку битовые карты должны быть полностью материализованы перед доступом к кучи, исполнитель не может остановиться заранее; он создает битовую карту, содержащую тысячи строк, только чтобы отбросить все, кроме первых десяти, что приводит к катастрофической задержке по сравнению с оптимистичной оценкой планировщика.