Mimari (IT)Sistem Mühendisi

Küresel olarak dağıtılmış, sunucusuz bir çıkarım platformu tasarlayın; bu platform, kişiselleştirilmiş makine öğrenimi modellerini milyonlarca heterojen kenar cihazına 50 ms altı gecikme gereksinimleri ile sunar, canary dağıtımlarını ve model sürümlerinin A/B testlerini yönetir ve federated öğrenme toplama işlemini gerçekleştirirken veri gizliliğini sağlamak ve kesintili ağ bağlantısını yönetmek için gerekli önlemleri alır.

Hintsage yapay zeka asistanı ile mülakatları geçin

Cevap

Mimari, bölgesel CDN düğümlerinde Sunucusuz Fonksiyonlar kullanan bir Bulut-Yerel Kenar Hesaplama paradigması etrafında döner ve Federated Learning koordinatörleri ile birleşir. Kubernetes kümeleri, Knative ile ölçeklenebilirlik için model sunucu konteynerlerini yönetirken, TensorFlow Lite ve ONNX Runtime heterojen cihazlarda çıkarım işlemlerini yönetir. Mosquitto MQTT aracısı, asenkron cihaz iletişimini yönetir ve Apache Kafka akışları, federated eğitim turları için şifrelenmiş gradyan güncellemelerini toplar. Vault, model nesneleri için şifreleme anahtarlarını yöneterek kiracılar arasında Zero-Trust güvenlik sınırları sağlar.

Gerçek Hayattan Bir Durum

Sorun Tanımı

Bir çok uluslu ödeme işleyici, dolandırıcılık tespit ML modellerini, güvenilir olmayan 4G/LTE bağlantısı olan gelişen pazarlardaki satıcı POS terminallerine ve tüketici akıllı telefonlarına doğrudan dağıtmak zorundaydı. Sistem, işlem zaman aşımını önlemek için 50 ms altında gerçek zamanlı çıkarım sağlama, uygulama güncellemeleri zorlamadan risk algoritmalarının A/B testlerine destek verme ve işlem verilerini cihazda saklayarak GDPR ve PCI-DSS ile sıkı uyum sağlama gereksinimlerini taşıyordu.

Çözüm 1: Merkezi Bulut Çıkarımı

Bu yaklaşım, tüm çıkarım taleplerini bölgesel AWS veri merkezlerine yönlendirdi ve Amazon SageMaker uç noktalarını kullandı.

  • Artılar: Model yönetiminde basitlik, anında küresel güncellemeler ve merkezi günlükleme.
  • Eksiler: Ağ gecikmesi, kırsal bölgelerde sıklıkla 200 ms'yi aşarak işlem hatalarına yol açtı. Ayrıca, ham ödeme verilerinin iletilmesi, veri egemenliği gerekliliklerini ihlal etti ve önemli MITM saldırı yüzeyleri sundu.

Çözüm 2: Statik Cihaz İçi Modeller ile Periyodik Senkronizasyon

Bu strateji, dondurulmuş TensorFlow modellerini mobil uygulama ikili dosyaları içinde paketledi ve yalnızca üç aylık uygulama mağazası güncellemeleri ile güncellendi.

  • Artılar: Çıkarım için sıfır ağ gecikmesi ve kesinti sırasında tam çevrimdışı işlevsellik.
  • Eksiler: Modelin eski olması, piyasaya sürüldükten birkaç hafta içinde %15 daha yüksek yanlış pozitif oranlarına neden oldu. Aşamalı dağıtımlar yapma yeteneğinin olmaması, hatalı modellerin 100% kullanıcıyı aynı anda etkilemesine yol açarak felaket işlem engelleri oluşturdu.

Çözüm 3: Federated Kenar Sunumu ile Delta Güncellemeleri

Seçilen mimari, Numara Cloudflare Workers kenar konumlarında Sunucusuz çıkarım işçileri kurarak, hafif ONNX modellerini HTTP/3 üzerinden sunuyordu. Cihazlar, bağlantı izin verdiğinde yalnızca farklı model deltasını indiriyordu. Federated toplama, ham verilerin cihazları asla terk etmediği Secure Aggregation protokolleri kullanılarak gerçekleşti.

  • Artılar: Coğrafi yakınlık ile alt-30ms gecikme, hassas verileri merkeziyetsiz, sürekli model geliştirme ve %1'lik cihaz grubuna ince dağıtımlar sağlandı.
  • Eksiler: Bizans cihaz hatalarını yönetmede ve düşük kaliteli ARM Cortex-M işlemcilerde kriptografik yükü yönetmede aşırı mühendislik karmaşıklığı.

Seçilen Çözüm ve Sonuç

Çözüm 3'ü seçtik çünkü bu, gecikme, gizlilik ve çeviklik açısından eşsiz bir denge sağladı. Uygulama, dolandırıcılıkla ilgili geri ödeme oranlarını altı ay içinde %42 azaltırken, bölgesel internet kesintileri sırasında %99.99'luk bir kullanılabilirlik sağladı. Federated yaklaşım, bulutta PII depolama maliyetlerini ortadan kaldırarak, uyum denetimi kapsamını %60 azaltmıştır.