Ответ на вопрос

История вопроса

Концепция IQR восходит к методологии исследовательского анализа данных Джона Тьюки, разработанной в 1970-х годах, и представляет собой мощную статистику для обнаружения выбросов, устойчивую к экстремальным значениям. С развитием хранилищ данных аналитики перешли от процедурных статистических пакетов к наборным SQL запросам, требующим нативных реализаций этих расчетов в базах данных. ANSI SQL:2003 ввел обратные распределительные функции, которые позже были усовершенствованы в SQL:2011, позволяя выполнять вычисления процентов непосредственно в движке базы данных без внешней обработки.

Проблема

Задача требует вычисления первого квартиля (Q1, 25-й процентиль) и третьего квартиля (Q3, 75-й процентиль) для каждой подсекции внутри набора данных, чтобы получить IQR (Q3 минус Q1). После того как они установлены, статистические границы выбросов определяются как Q1 − 1.5×IQR и Q3 + 1.5×IQR. Сложность заключается в выполнении этих статистических расчетов по разделам в одной операции, сохраняя точность, а затем фильтрации оригинального набора данных по этим динамически вычисленным границам без использования процедурных циклов или обработки на уровне приложения.

Решение

Используйте PERCENTILE_CONT(0.25) и PERCENTILE_CONT(0.75) в качестве функций окон с упорядоченным набором, разделенных по группирующему столбцу, которые выполняют линейную интерполяцию для определения точных значений квартилей. Вычислите IQR и граничные условия в Общем выражении таблицы (CTE), затем соедините с этим результатом или фильтруйте напрямую, используя WHERE условия, которые сравнивают измерения с вычисленными границами.

WITH quartiles AS (
  SELECT 
    facility_zone,
    temperature,
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY temperature) 
      OVER (PARTITION BY facility_zone) AS q1,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY temperature) 
      OVER (PARTITION BY facility_zone) AS q3
  FROM sensor_readings
),
bounds AS (
  SELECT 
    facility_zone,
    temperature,
    (q3 - q1) AS iqr,
    q1 - 1.5 * (q3 - q1) AS lower_fence,
    q3 + 1.5 * (q3 - q1) AS upper_fence
  FROM quartiles
)
SELECT facility_zone, temperature, iqr
FROM bounds
WHERE temperature < lower_fence 
   OR temperature > upper_fence;

Ситуация из жизни

Фармацевтическая компания контролирует ультравысокотемпературные морозильники для хранения вакцин в 200 территориальных зонах. Каждая зона генерирует 10,000 температурных показаний ежедневно. Простое обнаружение выбросов с использованием стандартного отклонения провалилось из-за случайных колебаний электросети, вызывающих экстремальные выбросы, что искажало среднее значение, в результате чего пропускались незаметные неисправности оборудования. Команда контроля качества требовала надежного статистического метода для обозначения только тех показаний, которые значительно отличались от нормального диапазона работы зоны, реализованного непосредственно в их PostgreSQL хранилище данных для питания панелей Tableau в реальном времени.

Решение 1: Обработка на уровне приложения с использованием Python и Pandas

Извлеките все исторические данные через ODBC в сервис Python, вычислите квартильные значения, используя groupby().quantile(), затем отфильтруйте и запишите результаты обратно. Плюсы: крайне гибкие статистические библиотеки, легкая отладка с поэтапным выполнением и знакомый синтаксис для специалистов по данным. Минусы: огромные сетевые затраты из-за передачи миллионов строк, ограничения по памяти, вызывающие ошибки на серверах приложений, и устаревание данных из-за 45-минутных окон обработки, делая результаты устаревшими по завершении.

Решение 2: Нативный ANSI SQL с использованием функций окон PERCENTILE_CONT

Реализуйте запрос, используя PERCENTILE_CONT как агрегаты с упорядоченным набором со OVER частями, разделяясь по facility_zone. Плюсы: нулевая передача данных, использует существующие B-tree индексы по идентификаторам зон, сокращает время обработки до менее чем 15 секунд и дает результаты в реальном времени, которые могут быть использованы BI-инструментами. Минусы: требует совместимой базы данных SQL:2003/2011 (недоступно в устаревших версиях MySQL), создаёт временные сортировочные операции, которые повышают процессорную загрузку во время выполнения, и включает сложный синтаксис, незнакомый многим разработчикам приложений.

Решение 3: Аппроксимация с использованием NTILE(4)

Разделите каждое показание по зонам на четыре равные части, используя функцию окна NTILE, затем используйте MIN() и MAX() по 1 и 4 корзинам, чтобы аппроксимировать границы Q1 и Q3. Плюсы: совместимо со старыми версиями баз данных, которые не поддерживают обратные распределительные функции, выполняется быстрее из-за приближенных расчетов. Минусы: выдает только приблизительные границы, непригодные для соблюдения нормативных требований, катастрофически проваливается с малыми размерами выборки или большими связями, и вводит недетерминированное поведение, когда границы находятся между дискретными показаниями датчиков.

Выбранное решение и результат

Команда выбрала Решение 2 (подход PERCENTILE_CONT), так как фармацевтические нормы требуют точных статистических расчетов, а не приближений. Администратор базы данных создал составные индексы на (facility_zone, temperature), исключив сортировочные операции. Результирующий запрос идентифицировал 0.03% показаний как настоящие статистические выбросы, инициировав автоматические проверки морозильников, предотвратив потерю запасов, стоимостью примерно 2 миллиона долларов в год, одновременно снижая инфраструктурные затраты за счёт исключения слоя ETL на Python.

Что часто упускают кандидаты

Почему PERCENTILE_CONT дает разные результаты, чем PERCENTILE_DISC при расчете квартилей, и что следует использовать для IQR?

PERCENTILE_CONT (непрерывный) выполняет линейную интерполяцию между двумя ближайшими значениями, окружающими запрашиваемую позицию процентиля, возвращая вычисленное значение, которое может не существовать в оригинальном наборе данных. PERCENTILE_DISC (дискретный) возвращает наименьшее значение кумулятивного распределения, которое больше или равно процентилю, фактически выбирая наблюдаемое измерение. Для расчетов IQR в обнаружении выбросов, как правило, предпочтительнее использовать PERCENTILE_CONT, так как он обеспечивает непрерывную шкалу, менее чувствительную к артефактам дискретной выборки, хотя PERCENTILE_DISC становится необходимым, когда границы выбросов должны соответствовать физически наблюдаемым значениям, а не математическим интерполяциям.

Как вы справляетесь с группами, содержащими менее четырех различных значений, где IQR математически определяется как ноль или становится неопределенным?

Когда подмножество содержит одинаковые значения или менее четырех точек данных, PERCENTILE_CONT возвращает одинаковые значения для Q1 и Q3, в результате чего IQR становится нулем. Это приводит к тому, что границы выбросов сжимаются до медианного значения, потенциально маркируя каждое отдельное наблюдение как выброс. Кандидаты должны внедрить проверки NULLIF или выражения CASE, чтобы обнаружить сценарии с нулевым IQR, либо возвращая NULL для статуса выброса, либо возвращая к стандартным методам отклонения для малых групп, либо явно исключая группы с COUNT(DISTINCT value) < 4 из анализа выбросов в соответствии с бизнес-правилами.

Какая стратегия индексирования оптимизирует производительность обратных распределительных функций при обработке миллиардов строк, распределенных по категориям с высокой кардинальностью?

Поскольку PERCENTILE_CONT требует сортировки каждого раздела для определения процентных позиций, кандидаты часто упускают из виду необходимость составных индексов на (категория, измерение). Такие индексы позволяют движку базы данных сканировать предварительно отсортированные листовые страницы индекса, исключая дорогостоящие внешние сортировки на диске. Без этих индексов базам данных необходимо выполнять отдельные сортировки для каждого раздела, что вызывает серьезные расходы на ввод-вывод и временное исчерпание дискового пространства. Кроме того, кандидаты упускают, что введение селективных WHERE условий на ранних CTE уменьшает рабочий набор перед дорогостоящими вычислениями процентилей, так как обратные распределительные функции не могут использовать индексы, как только начинается этап агрегирования.