Ответ на вопрос.

История вопроса.

Статистическая мода представляет собой наиболее часто встречающееся значение в наборе данных. В то время как ANSI SQL определяет стандартные агрегатные функции, такие как AVG, SUM и COUNT, он примечателен отсутствием встроенной агрегатной функции MODE. Это отсутствие обусловлено тем, что реляционная модель акцентирует внимание на скалярных результатах и присущей неоднозначности моды, когда возникают связи. Следовательно, практикам необходимо воссоздавать эту статистическую меру с помощью производных таблиц и оконных функций.

Проблема.

Вычисление моды требует определения значения с максимальной частотой в каждой партиции. Сложность возникает из-за двух ограничений: во-первых, агрегатные функции не могут быть вложены напрямую (например, MAX(COUNT(*))), и во-вторых, связи для самой высокой частоты должны разрешаться детерминированным образом, чтобы гарантировать точно один результат на группу. Решение должно работать как единое декларативное выражение без процедурных циклов или специфичных для поставщика расширений.

Решение.

Подход использует двухступенчатую структуру CTE (Common Table Expression). Сначала вычисляются частоты с помощью GROUP BY с COUNT(*). Затем применяется функция окон RANK(), разбитая по ключам группировки, упорядоченная по убыванию частоты и по возрастанию самого значения для разрешения связей. Фильтрация по RANK() = 1 даёт моду. Этот метод строго соответствует ANSI SQL:2003 и выполняется за один проход по таблице.

WITH frequency_cte AS (
  SELECT 
    group_id, 
    target_value,
    COUNT(*) AS val_freq
  FROM observations
  GROUP BY group_id, target_value
),
rhked_cte AS (
  SELECT 
    group_id,
    target_value,
    RANK() OVER (
      PARTITION BY group_id 
      ORDER BY val_freq DESC, target_value ASC
    ) AS freq_rank
  FROM frequency_cte
)
SELECT group_id, target_value AS mode_value
FROM ranked_cte
WHERE freq_rank = 1;

Ситуация из жизни.

Команда аналитики электронной коммерции должна была сообщить о наиболее популярном размере продукта (мода) для каждой категории одежды на ежемесячной основе, чтобы оптимизировать уровни запасов на складе. Таблица sales содержала миллионы строк с колонками category_id, sale_month и size_label. Важное бизнес-правило требовало, чтобы, если два размера имели равный объём продаж, система последовательно выбирала меньший алфавитный размер (например, "M" перед "L"), чтобы поддерживать детерминированные прогнозы остатков.

Решение 1: Коррелированный подзапрос с скалярным сравнением.

Один из подходов заключался в использовании коррелированного подзапроса для нахождения максимального количества для каждой группы, а затем с помощью соединения находить соответствующий размер. Этот метод опирался на стандартные функции SQL-92, доступные в устаревших системах. Подзапрос вычислял максимальную частоту для каждой пары категория-месяц, а внешний запрос фильтровал размеры, соответствующие этой частоте. Хотя этот подход был универсально совместим, он страдал от квадратичной временной сложности O(n²) из-за корреляции. Он требовал нескольких проходов по данным и с трудом элегантно решал вопросы сломанных связей, часто требуя дополнительных подзапросов для устранения дубликатов. План запроса включал вложенные циклы соединений, что значительно ухудшалось по мере роста объёма продаж.

Решение 2: Оконная функция с детерминированным ранжированием.

Выбранное решение использовало оконные функции ANSI SQL:2003, как описано в общем решении выше. Создавая частоты в CTE и применяя RANK(), оптимизатор базы данных мог использовать операции на основе сортировки и хэш-агрегации. Этот подход выполнялся за линейитмическое время O(n log n), горизонтально масштабировался с правильной индексацией по category_id и sale_month и естественно обрабатывал сломанные связи через вторичный ключ сортировки. Детерминированное разрешение связей гарантировало, что алгоритм управления запасами получал последовательные входные данные, предотвращая колебания рекомендаций между запусками отчётов.

Результат.

Реализация сократила время генерации отчёта с 12 минут до 8 секунд на наборе данных из 50 миллионов записей. Детерминированное разрешение связей исключило несоответствия в автоматизированных системах переупорядочивания, сократив недостатки запаса для второстепенных популярных размеров на 15%.

Что часто упускают кандидаты.

Почему вложение агрегатов, таких как MAX(COUNT(*)), вызывает синтаксическую ошибку, и как логический порядок обработки SQL требует подхода на основе CTE?

Многие кандидаты пытаются написать SELECT group_id, MAX(COUNT(*)) FROM ..., не зная, что ANSI SQL запрещает вложение агрегатных функций. Логический порядок обработки диктует, что WHERE, GROUP BY и HAVING выполняются перед SELECT, что означает, что агрегатные результаты недоступны в фазе группировки. Подход CTE или подзапрос создает конвейер, где первая стадия материализует подсчёты как производную таблицу, делая их доступными как скалярные значения для ранжирования оконной функции на второй стадии. Понимание этого разделения фаз агрегирования и оконных функций критично для построения действительных SQL запросов.

Как выбор между RANK(), DENSE_RANK() и ROW_NUMBER() влияет на корректность вычисления моды, когда существуют связи, и почему детерминированное разрешение связей имеет важное значение?

Кандидаты часто по умолчанию используют ROW_NUMBER() из-за того, что он гарантирует ровно одну строку на партицию. Однако ROW_NUMBER() произвольно присваивает отдельные целые числа связанным строкам на основе физического порядка сортировки, потенциально выбирая разное значение моды при каждом выполнении, если вторичный ключ сортировки опущен. RANK() правильно идентифицирует все связанные значения как ранг 1, требуя явной логики разрыва связей (например, MIN(target_value)), чтобы удовлетворить требованию "ровно одного результата" детерминированно. DENSE_RANK() тоже вернёт связанные строки, но с последовательной нумерацией, что делает его неподходящим для простой фильтрации без дополнительной логики. Детерминированное поведение гарантирует, что аналитические приложения и downstream ETL конвейеры получают последовательные, воспроизводимые результаты.

Каковы кардинальные и мемориальные последствия использования самосоединения по сравнению с оконными функциями для анализа частоты и как это влияет на планирование запросов?

Распространённое заблуждение состоит в том, что оконные функции всегда превосходят соединения по производительности. В вычислении моды подход самосоединения объединял бы агрегированную таблицу частоты с самой собой по group_id и val_freq = max_freq, потенциально создавая декартово произведение внутри групп, если существует много связей. Это создает промежуточные наборы результатов с кардинальностью, равной сумме связей, что потенциально вызывает взрыв использования памяти. Напротив, оконные функции, такие как RANK(), выполняют вычисление на основе сортировки, требуя памяти, пропорциональной размеру партиции, для поддержания буфера сортировки. Кандидаты упускают, что, хотя оконные функции обычно быстрее, они могут использовать диск, если размеры партиций превышают work_mem (по терминологии PostgreSQL) или аналогичные лимиты буфера, тогда как хэшированные самосоединения могут работать лучше для ключей группировки с очень высокой кардинальностью и небольшими связями. Понимание этих компромиссов позволяет разработчикам анализировать планы EXPLAIN и оптимизировать настройки буфера соответствующим образом.