Respuesta a la pregunta

Cuando una futura async se descarta mientras está suspendida en un punto de await (como cuando se completa una rama compañera en tokio::select!), su implementación de Drop se ejecuta de forma sincrónica para destruir los recursos mantenidos. El peligro surge cuando la futura posee recursos que requieren limpieza asíncrona—como vaciar un TcpStream, enviar un marco de cierre de protocolo, o comprometer una transacción de base de datos—porque la trait Drop no proporciona contexto async. Si la futura es cancelada después de modificar parcialmente el estado (por ejemplo, escribiendo la mitad de un buffer de archivo) pero antes de finalizar, el Drop sincrónico no puede .await la finalización de las operaciones de limpieza, dejando potencialmente el sistema en un estado inconsistente o con recursos filtrados. La solución arquitectónica implica el patrón drop-guard: envolver el recurso en una estructura de guardia cuya implementación de Drop programa una limpieza de respaldo sincrónica (asumiendo riesgos de bloqueo) o transiciona el recurso a una tarea de limpieza desenganchada, asegurando que la invariante crítica (por ejemplo, la eliminación de un archivo temporal) se haga cumplir eventualmente sin depender del código async dentro del destructor.

Situación de la vida real

Desarrollamos un servicio de ingestión de medios de alto rendimiento donde tokio::spawn manejaba cargas de archivos concurrentes. Cada tarea de carga escribía fragmentos en un archivo temporal en el disco, realizaba análisis de virus a través de un proceso externo y, finalmente, movía atómicamente el archivo validado a un bucket de almacenamiento permanente. El requisito era estricto: si el cliente se desconectaba (desencadenando la cancelación de la tarea a través de select! entre el análisis de virus y el movimiento atómico), el archivo temporal debía ser eliminado inmediatamente para evitar el agotamiento del espacio en disco.

Solución 1: Limpieza sincrónica en Drop. Implementamos una estructura TempFileGuard envolviendo std::fs::File y la cadena de ruta. En su implementación de Drop, invocamos std::fs::remove_file de forma sincrónica para eliminar el archivo temporal. Pros: El código era directo y garantizaba la ejecución durante el desmonte de la pila o la cancelación. Contras: std::fs::remove_file es una llamada de sistema de bloqueo. Al ejecutarse en los hilos de trabajo del runtime de Tokio, esto bloqueaba el hilo durante milisegundos bajo una alta carga de disco, privando a otras tareas y violando el contrato async no bloqueante. Además, si el archivo temporal estaba en un sistema de archivos de red (NFS), el bloqueo podría extenderse a segundos, causando burbujas de latencia catastróficas.

Solución 2: Tarea de limpieza desenganchada. En el Drop del guardia, capturamos la cadena de ruta y desenganchamos una tokio::task para ejecutar tokio::fs::remove_file de forma asíncrona. Pros: Esto devolvió el control al runtime de inmediato, preservando la latencia. Contras: Si el runtime ya estaba cerrándose o bajo carga extrema, la tarea de limpieza podría no ejecutarse nunca, lo que llevaba a fugas de recursos. Además, este patrón requería que el guardia mantuviera un controlador Clone del runtime, complicando la vida útil de la estructura e introduciendo un posible uso después de la liberación si el runtime se descartaba antes que el guardia.

Solución 3: Token de cancelación explícito con retroceso sincrónico. Utilizamos tokio_util::sync::CancellationToken y estructuramos la lógica de carga para verificar la cancelación antes del movimiento atómico. Si se cancelaba, se intentaba una eliminación sincrónica solo si el archivo estaba por debajo de un cierto umbral de tamaño (eliminación rápida), de lo contrario, se ponía en cola para un hilo de limpieza en segundo plano dedicado (desenganchado a través de std::thread) con un canal. El Drop del guardia solo manejaba el raro caso extremo de un pánico, utilizando la eliminación sincrónica como último recurso. Solución elegida: Seleccionamos la Opción 3. Equilibró el determinismo (camino sincrónico para archivos pequeños) con la escalabilidad (hilo en segundo plano para operaciones lentas) mientras evitaba bloquear los trabajadores de Tokio. El resultado fue cero archivos temporales filtrados durante las pruebas de carga con 10,000 cancelaciones concurrentes, y la latencia p99 se mantuvo estable porque el hilo en segundo plano absorbió la penalización de latencia del NFS.

Lo que a menudo pasan por alto los candidatos

¿Por qué invocar block_on dentro de una implementación de Drop para realizar limpieza asíncrona es fundamentalmente poco seguro en la mayoría de los runtimes asíncronos?

Intentar llamar a block_on dentro de Drop crea un peligro de reentrancia. Drop se invoca de forma sincrónica durante el desmonte de la pila o cuando se cancela una futura. Si el hilo actual es un hilo de trabajo del runtime de Tokio (o async-std), block_on intentará llevar el reactor a la finalización para la nueva futura. Sin embargo, el runtime ya está esperando que la tarea actual (la que se está descartando) libere el hilo. Esto conduce a un interbloqueo: block_on espera que el reactor sondee la futura de limpieza, pero el reactor no puede avanzar porque el hilo está bloqueado dentro de block_on. Además, runtimes como Tokio entran en pánico explícitamente al detectar llamadas anidadas a block_on para prevenir este escenario. El enfoque correcto es realizar la limpieza de forma sincrónica (si es instantánea) o delegarla a un hilo dedicado a través de un canal, nunca bloqueando el ejecutor asíncrono desde dentro de un destructor.

¿Cómo limita el diseño del método Future::poll inherentemente la cancelación a ocurrir solo en puntos de espera, y por qué es esto significativo para el diseño de secciones críticas?

El método Future::poll es sincrónico y debe devolver Poll::Ready o Poll::Pending de inmediato; no puede rendir a mitad de ejecución. Un punto de await es azúcar sintáctico para la máquina de estados generada por el compilador que transita entre estados cuando poll devuelve Pending. El ejecutor (o el macro select!) solo puede descartar la futura cuando no está ejecutándose activamente—específicamente, cuando ha retornado Pending y ha cedido el control. En consecuencia, la cancelación es atómica con respecto a las invocaciones de poll. Esto es significativo porque garantiza que cualquier código entre dos puntos de await (una "sección crítica") se ejecute completamente o no se ejecute en absoluto desde la perspectiva del runtime asíncrono. Sin embargo, si una futura sostiene un MutexGuard a través de un await (lo cual Rust prohíbe para el estándar Mutex pero permite para tokio::sync::Mutex), la cancelación podría dejar datos compartidos en un estado inconsistente. Los candidatos a menudo pasan por alto que deben asegurarse de que las invariantes de la estructura de datos se restauren antes de cada punto de await, no solo al final de la función, porque la cancelación ejecuta Drop en todas las variables vivas exactamente en ese punto de suspensión.

En el contexto de std::pin::Pin, ¿por qué las futuras utilizadas en select! deben ser o Unpin o explícitamente fijadas, y cómo evita esto la inseguridad de memoria durante la eliminación parcial?

select! sondea aleatoriamente múltiples futuras. Si una futura es !Unpin (por ejemplo, contiene punteros autorreferenciales o enlaces de listas intrusivos), moverla después de la primera poll invalidaría esos punteros. Pin garantiza que la ubicación de memoria de la futura permanezca estable. select! requiere que las futuras sean Unpin (lo que permite movimientos) o ya estén Pin-dadas a una ubicación de memoria específica (pila o montón). Cuando se completa una rama, select! descarta las otras futuras. Si la futura era Unpin, se mueve al pegamento de eliminación. Si estaba Pin-dada, se elimina en su lugar. La garantía de seguridad de memoria proviene de Pin asegurando que drop se llame sobre la futura en su dirección de memoria original, previniendo problemas de uso después de la liberación o punteros colgantes que surgirían si una futura autorreferencial se moviera (incluso para destrucción) después de ser sondeada. Los candidatos frecuentemente pasan por alto que Pin afecta no solo a la sondeo sino también a la semántica de destrucción de futuras canceladas.