Sorunun Cevabı

Sorunun Tarihçesi

Bölünemez birimlerle tam tahsis etme zorluğu, ABD kongre koltukları için kullanılan Hamilton yöntemi ile geri dönmektedir; burada kesirli temsilciler mümkün değildir ve kalanlar adil bir şekilde dağıtılmalıdır. SQL'de bu, ledger girişleri arasında parasal miktarların bölünmesinde veya envanterin dağıtılmasında, SKU sayılarının tam sayılar olması gerektiğinde kendini gösterir. İlk çözümler, set tabanlı paradigmayı ihlal eden imleçler veya prosedürel döngüler kullanıyordu. Modern ANSI SQL:2003 pencere işlevleri, satır satır işlem yapmadan matematiksel keskinliği koruyarak tamamen bildirimli carry-over algoritmalarını mümkün kıldı.

Problem

Toplam miktarı $T$'yi $n$ satıra, tam kesirli paylar $s_1, s_2, ..., s_n$ ile dağıttığınızda (burada $\sum s_i = T$), bireysel satırların basit yuvarlaması sonucu $\sum \text{round}(s_i) eq T$ olabilir, çünkü biriken kesirli hatalar bulunmaktadır. Amaç, $\sum a_i = T$ tam olarak eşit olacak şekilde, her satır için sapmayı $|a_i - s_i|$ en az seviyeye indirgeyerek tam sayılar $a_1, a_2, ..., a_n$ üretmektir. Algoritmanın, kesirli kalanlar mevcut olduğunda hangi satırların tavan değerini alacağını belirlemek için bir öncelik sırasını (örneğin, kıdem, işlem zaman damgası) gözetmesi gerekir.

Çözüm

Cumulative pencereli işlevleri kullanarak her adımda hedef kümülatif tahsisi $\text{floor}(\sum_{j=1}^{i} s_j)$ olarak hesaplayın. Satır $i$ için tahsisat, mevcut hedef kümülatif ile önceki hedef kümülatif arasındaki farktır: $a_i = \text{floor}(\text{cum}i) - \text{floor}(\text{cum}{i-1})$. Bu, önceki satırlardaki yuvarlama eksiklerini mevcut satırın hesaplamasına taşır.

WITH allocations AS (
  SELECT 
    id,
    priority,
    exact_share,
    SUM(exact_share) OVER (ORDER BY priority) AS cum_exact,
    FLOOR(SUM(exact_share) OVER (ORDER BY priority)) AS cum_target
  FROM distribution_queue
)
SELECT 
  id,
  priority,
  exact_share,
  (cum_target - COALESCE(LAG(cum_target) OVER (ORDER BY priority), 0)) AS allocated_units
FROM allocations;

Bu, nihai $\text{cum_target}$'ın $T$'ye eşit olmasını garanti eder ve her ara adım önceki yuvarlama hatalarını absorbe eder.

Hayattan Bir Durum

Bir bordro sistemi, performans oranlarına dayalı olarak 150 çalışanın arasında $10,000.00 yıllık bonus havuzunu dağıtmalıdır. Her çalışanın teorik payı, $66.666...$ dolar gibi hesaplanır; ancak muhasebe sistemi tam sent tahsisatları (tam sayılar) gerektirir ve toplam tam olarak $10,000.00 bütçesiyle eşleşmelidir ki denetim kontrollerine uygun olsun.

Bir yaklaşım, çalışanları yinelemek için bir imleç kullanır; FLOOR değerini tahsis eder ve kesirli kalanı sonraki satıra taşır. Bu, doğruluğu garanti eder ancak prosedürel kod gerektirir ve satır satır işlemden ve kilitlemeden dolayı büyük veri setleriyle yavaş performans gösterir. Ayrıca işlem yönetimini ve geri alma senaryolarını karmaşık hale getirir.

Başka bir yaklaşım, tüm FLOOR değerlerini hesaplar ve ardından en büyük kesirli kalanlara sahip ilk $N$ çalışana 1 sent eklemeye çalışır; bu, bir ROW_NUMBER() alt sorgusu kullanır. Set tabanlı olmasına rağmen, ekstra sent (kalan sayısı) alması gereken kaç satır olduğunu belirlemek için birden çok tablo taraması ve karmaşık birleştirmeler gerektirir ve birçok çalışanın aynı kesirli kısımları paylaştığı durumlarda bağlama kırmayı zorlaştırır.

Seçilen çözüm, ANSI SQL kümülatif carry-over yöntemini uygular. Kesin payların kümülatif toplamını hesaplayarak ve her adımda bu kümülatif değerin FLOOR'ını alarak, sistem tam olarak o zamana kadar ne kadar dağıtılması gerektiğini belirler. Ardışık kümülatif hedefler arasındaki fark, mevcut satırın tahsisini verir. Bu, doğal olarak yuvarlama farklılıklarını absorbs eder: ilk çalışan 66 sent alırsa, 66.666 yerine, 0.666 eksiği ikinci çalışanın kümülatif hesaplamasına taşınır ve potansiyel olarak kümülatif hedefini 133.333'ten 133'e itip onlara 67 sent verir. Bu yaklaşım, tüm bordroyu tek bir set tabanlı geçişle işler, sıkı ACID uyumunu korur ve toplam dağıtımın tam olarak $10,000.00 olduğundan emin olur.

Sonuç, imleç yöntemine kıyasla işlem süresinde %95'lik bir azalma ve çeyrek dönem mali denetim sırasında sıfır uzlaşma hatası sağladı.

Adayların Sıklıkla Gözden Kaçırdığı Noktalar

Neden mevcut kümülatif floor'u mevcut kümülatif floor'dan çıkarmak kalanları doğru bir şekilde dağıtır?

Adaylar genellikle bireysel satır yuvarlama hatalarını hesaplamaya ve bunları açıkça dağıtmaya çalışırlar. İçgörü, FLOOR(kümülatif_tam) değerinin o satırda yalnızca bütün birimlerin tahsis edilebildiği durumlarda ideal tahsis totalini temsil etmesidir. Bu kümülatif hedeflerin farkını almak, "bu satır kümülatif toplamına ne kadar yeni bütün birim ekliyor?" sorusunu sormak gibidir. Önceki satırların 0.4 kalan bırakması durumunda, sonraki satırın 0.6'lık payı, kümülatif kesiri tam sayı sınırını aşmasını sağlar, böylece mevcut satır önceki satırın alamadığı bir ek birimi talep edebilir. Bu dolaylı carry-forward, kalanları açıkça takip etme ihtiyacını ortadan kaldırır.

Bu algoritma, negatif tam pay değerleri ile nasıl davranır ve neden FLOOR burada sorun olabilir?

Çoğu aday pozitif değerler varsayar. Negatif paylar (örneğin, borçlar veya iadeler) için, FLOOR sıfırdan uzağa yuvarlar (örneğin, FLOOR(-1.2) = -2), bu da olumsuz büyüklüğü abartır. Taşıma mantığı hâlâ matematiksel olarak dengeler, ancak önceliklerin iş temsili değişir—negatif tahsisler beklenmedik bir şekilde "kalanı" tüketebilir. Çözüm, işletmenin kredi için sıfıra doğru yuvarlamayı iyi bir şekilde tercih edip etmediğine bağlı olarak TRUNC (sıfıra doğru) veya CEIL kullanmayı gerektirir. Sağlam bir uygulama, pozitifler için FLOOR ve negatifler için CEIL uygulamak üzere CASE ifadeleri kullanarak, mutlak sapmanın tutarlı bir şekilde en aza indirgenmesini sağlar.

Son satırın tahsisatının herhangi bir açık kontrol olmaksızın toplam kaynağı tam olarak harcadığını ne sağlar?

Adaylar birer hata yapma konusunda endişelenir. Matematiksel garanti, teleskopik seri özelliğinden gelir: $\sum_{i=1}^{n} (T_i - T_{i-1}) = T_n - T_0$, burada $T_i = \text{FLOOR}(\sum_{j=1}^{i} s_j)$ ve $T_0 = 0$. Çünkü $T_n = \text{FLOOR}(\sum_{j=1}^{n} s_j) = \text{FLOOR}(T) = T$ (eğer $T$ tam sayı ise), tüm farklılıkların toplamı $T$'ye eşit olmalıdır. ANSI SQL pencere çerçevesi, LAG işlevinin düzgün bir şekilde $T_{i-1}$'i almasını garanti eder, böylece son tahsis otomatik olarak önceki satırlardan gelen herhangi bir artı kalanı absorbseder.