İnsan döngüde ne zaman tutulmalı
"Tam otonom agent," tedarikçi sunumlarında iyi satan ve konaklama için doğru mimariyi neredeyse hiç tanımlamayan bir ifadedir. Soru, döngüde bir insan tutup tutmamak değil — neredeyse her zaman tutmalısınız — ama hangi adımda, hangi bağlamla ve ne kadar sürtünmeyle. Bu tasarımı her iki yönde de yanlış yapın ve ya ekibi incelemelerde boğarsınız (ROI'yi yener) ya da ihtiyaç duyulan durumlarda incelemeleri atlarsınız (asimetrik kuyruk riskini oluşturur).
İnsanın dört yerleşimi
Doğru yerleşim nasıl seçilir
Üç faktör. Birinci: patlama yarıçapı — en kötü durum hatası ne kadar kötü. Yanlış bir rezervasyon değişikliği sınırlıdır; yetkisiz bir iade değildir. İkinci: geri çevrilebilirlik — aksiyon dakikalar içinde geri alınabilir mi (bir tarih değişikliği, kurtarılabilir) ya da kalıcı sonuçlar mı yaratır (bir VIP'ye zaten gönderilmiş bir e-posta, daha zor). Üçüncü: hacim — ayda 600 çalıştırmada, aksiyon öncesi inceleme uygulanabilir; ayda 6.000 çalıştırmada, örnekleme incelemesine ve iyi istisna mantığına ihtiyacınız var.
Başlayan çoğu operatör için işe yarayan örüntü: ilk 4 hafta için aksiyon öncesi inceleme, ekip agent'a güvendiğinde sonraki 8 hafta için aksiyon sonrası inceleme, sonra üretim-istikrarlı durumu için örnekleme-artı-istisna incelemesi. Ekip sürekli olarak döngüdedir, ama giderek daha az sürtünmeyle.
"Düşük-güven eskalasyonu" tekniği
Modern LLM'ler, onlardan istenirse güvenlerini makul derecede iyi öz-raporlayabilir. Agent sistem prompt'unda, modele şu talimatı verin: "Önerilen aksiyonda %90'dan az güvendeyseniz, son yanıtınızda escalate=true ayarlayın ve belirsizliğin tek cümlelik bir açıklamasını sağlayın." Sonra eskalasyona uğramış herhangi bir çalıştırmayı bir insana yönlendirin. Pratikte, bu sessizce başarısız olacak çalıştırmaların %60-80'ini yakalar, çalıştırmaların %15-25'inin gereksiz olarak eskalasyona uğramasının maliyetiyle. Gereksiz eskalasyonlar küçük bir bedeldir; sessiz başarısızlıklar değildir.
İnsan gerçekten ne yapıyor
Döngüdeki insan, genel anlamda "AI'yı çift-kontrol etmek" değildir. Audit log'un çerçevelediği spesifik bir soruyu yanıtlıyorlar: "Girdi, önerilen aksiyon ve akıl yürütme göz önüne alındığında, bu aksiyon ilerlemek için yeterince doğru mu?" Karar rutin incelemeler için 15-45 saniye sürmelidir. İncelemeleriniz her biri 5 dakika sürüyorsa, audit-log sunumu yanlıştır — insandan agent'ın ne yaptığını yeniden inşa etmesi isteniyor, ki bu audit log'un işidir. İnsanı değil, sunumu düzeltin.