Ответ на вопрос

Когда ThreadPoolExecutor заполняет свои основные потоки и ограниченную очередь, CallerRunsPolicy делегирует отклонённую задачу потоку отправителя для немедленного выполнения. Если этот поток отправителя вызвал Future.get(), чтобы синхронно ожидать результат только что отправленной задачи, и логика отправленной задачи внутри себя отправляет дополнительные задачи в тот же исполнитель и ожидает их завершения, возникает круговая блокировка.

Поток отправителя не может вернуться из get() до тех пор, пока его задача не завершится, но задача не может завершиться, потому что она ожидает завершения подтасков, которые остаются в очереди. Ни один рабочий поток не доступен, чтобы извлечь задачи из очереди, потому что все заняты другими задачами. Это фактически блокирует поток отправителя, так как он является единственным потоком, способным выполнить запланированные подтаски (через политику), и одновременно заблокирован в ожидании этих подтасков.

Ситуация из жизни

Мы столкнулись с этим в распределённом конвейере обработки документов, где ThreadPoolExecutor с CallerRunsPolicy обрабатывал задачи по рендерингу PDF. Каждая задача документа анализировала метаданные и создавала подтasks для извлечения изображений, затем немедленно вызывала Future.get() на этих подтасках, чтобы собрать окончательный результат.

При высокой нагрузке очередь заполнялась, что привело к тому, что CallerRunsPolicy выполнил задачу документа в потоке обработчика веб-запросов. Этот поток затем отправил задачи извлечения изображений и заблокировал выполнение на get(), но все рабочие потоки были заняты другими документами. Новые подтаски находились в конце очереди, не назначенные.

Поток обработчика не мог выполнять подтаски, потому что был заблокирован в ожидании их, а подтаски не могли выполняться, потому что не было свободных потоков. Это создало самовоспроизводящуюся блокировку, которая парализовала сервис, пока вручную не было перезапущено JVM.

Следующий код иллюстрирует опасный паттерн:

ExecutorService executor = new ThreadPoolExecutor(
    2, 2, 0L, TimeUnit.MILLISECONDS,
    new ArrayBlockingQueue<>(2),
    new ThreadPoolExecutor.CallerRunsPolicy()
);

// Отправлено из основного потока обработчика запросов
Future<?> parent = executor.submit(() -> {
    // Когда пул переполнен, это выполняется в потоке обработчика (CallerRunsPolicy)
    Future<?> child = executor.submit(() -> "извлечённое изображение");
    // Поток обработчика блокируется здесь, ожидая завершения child
    // Но child находится в очереди, и ни один рабочий поток не свободен
    // Обработчик не может выполнить child, потому что он заблокирован
    return child.get(); 
});
parent.get(); // Дедлок: поток обработчика ждёт бесконечно

Мы оценили четыре различные архитектурные решения. Первый подход заменил CallerRunsPolicy на AbortPolicy и реализовал цикл повторной попытки с экспоненциальным увеличением на стороне клиента. Это сохранило доступность потока вызывающего, но ввело временные сбои и сложную логику повторной попытки, что усложнило гарантии идемпотентности.

Второе решение расширило до неограниченной LinkedBlockingQueue для полного предотвращения переполнения. Хотя это устраняло отклонения, это подвергло риск OutOfMemoryError при всплесках трафика и маскировало сигналы обратной нагрузки, что приводило к чрезмерной задержке, а не к явной ошибке.

Третий вариант сохранил ограниченную очередь, но значительно увеличил maximumPoolSize выше corePoolSize, полагаясь на распространение потоков для поглощения нагрузки. Это улучшило пропускную способность за счёт чрезмерного переключения контекста и потребления памяти, в итоге ухудшая производительность из-за тряски кеша ЦП.

Четвёртый подход перестроил рабочий процесс, используя ExecutorCompletionService и асинхронные обратные вызовы вместо синхронного Future.get(). Это позволило первоначальной задаче документа освободить рабочий поток после отправки подтасков и возобновить выполнение только при сигнале завершения от CompletionService.

Мы выбрали четвёртое решение, потому что оно в корне разъединило отправку от завершения. Это сохранило обратную нагрузку ограниченной очереди, устранив условие круговой блокировки, позволяя рабочим потокам перерабатывать подтаски, пока первоначальная задача ожидала уведомления на легковесной переменной условия.

Это изменение решило проблему блокировок, снизило среднюю задержку на сорок процентов и поддерживало стабильные размеры памяти в условиях пиковых нагрузок, не жертвуя семантикой отказов ограниченной очереди.

Что часто упускают кандидаты

Почему ThreadPoolExecutor отказывается создавать потоки выше corePoolSize, когда настроен с неограниченной BlockingQueue?

Исполнитель пытается создать новые потоки только тогда, когда execute() не может немедленно передать задачу потоку-работнику или вставить её в очередь. Метод offer() неограниченной очереди никогда не возвращает false, поэтому исполнитель никогда не воспринимает переполнение и, следовательно, никогда не выделяет потоки выше стартового количества. Этот дизайн предполагает, что добавление в очередь предпочтительнее создания потоков для управления ресурсами, но это создаёт слепую зону, где пул кажется недоиспользуемым, несмотря на ожидаемую работу. Кандидаты часто неправильно предполагают, что maximumPoolSize действует как жёсткий потолок независимо от ёмкости очереди, не понимая, что ограниченность очереди действует как контрольный механизм для расширения потоков.

Как CallerRunsPolicy функционирует как неявный механизм управления потоком, а не просто как обработчик отказов?

Путём выполнения задачи в потоке отправителя, политика заставляет этот поток приостановить свою скорость отправки и выполнять работу, естественным образом ограничивая входящий поток, чтобы соответствовать мощности обработки пула. Эта обратная нагрузка распространяется вверх по стеку вызовов к оригинальному производителю, замедляя его без явного кода ограничения скорости. Многие кандидаты рассматривают эту политику только как защиту от потерянных задач, не понимая, что она намеренно блокирует производителя, чтобы предотвратить исчерпание ресурсов. Понимание этого семантического различия имеет решающее значение для проектирования систем, в которых задержка предпочтительнее полного отклонения при всплесках нагрузки.

Какое тонкое взаимодействие между shutdown() и CallerRunsPolicy предотвращает плавное ухудшение качества при завершении работы исполнителя?

После вызова shutdown() исполнитель переходит в состояние, при котором новые отправки отклоняются с помощью RejectedExecutionException, полностью обходя настроенную политику отказов. Кандидаты часто предполагают, что CallerRunsPolicy продолжит выполнять задачи в вызывающем потоке во время завершения работы, но исполнитель проверяет состояние завершения перед проверкой политики. Это означает, что задачи, отправленные в фазе плавного завершения, завершаются немедленно, а не выполняются вызывающим, что потенциально приводит к потере работы, если клиент не обрабатывает исключение. Правильная последовательность завершения работы требует опустошения очереди через awaitTermination() или захвата отклонённых задач в структуру резервирования, так как механизм политики деактивируется, как только устанавливается флаг завершения.