Gemini + Claude paralel inceleme hattıyla blog kalitesini otomatik doğrulamak
(blog.neocode24.com)Blog incelemesini 5 yapay zekaya bıraktım ve gerçekten sorunları yakaladılar
Yazıyı yazdıktan sonra en zor kısım, metni bizzat yeniden gözden geçirmekti. Yapay zekanın çıkardığı taslağı satır satır okuyup düzeltmek her seferinde çok zaman alıyordu.
Bu yüzden, yapay zekayı yine yapay zekaya denetleten bir hat kurmayı denedim.
** Yapıyı basit tuttum **
- 2 Gemini, 2 Claude, 1 mevcut oturum — toplam 5 Critic'i
Bash &ile aynı anda çalıştırdım - Her birinin farklı bir persona ile okumasını sağladım: "ilk kez gören kıdemli geliştirici", "bu teknolojiyi kullanmış biri", "editör", "adım adım uygulayacak okur", "SEO sorumlusu"
- Puanları JSON olarak alıp ortalama 8'in üzerindeyse geçirdim; geçmiyorsa geri bildirimi yansıtıp yeniden değerlendirdim
** Gerçekte neyi yakaladılar derseniz **
İlk turda ortalama 7,6 çıktı. "Adım adım uygulayacak okur Critic" kod örneği olmadığını söyleyip 3 puan verdi; ben kendim okusaydım muhtemelen gözden kaçıracağım bir noktaydı. 3 kod bloğu ekleyip madde madde yazılmış troubleshooting bölümünü anlatı tarzına çevirince 2. turda 8,4 ile geçti.
** Çalıştırınca yapısal açıklar da ortaya çıktı **
Critic'ler arasındaki geri bildirim çakıştığında, sistemin kendi kendine karar verip net bir karar olmadan devam etmesi bir sorundu. Ortalama puan yüksek olduğunda, düşük kalan puanların yine de geçebilmesi de öyle. Ayrıştırma başarısız olursa tüm süreç duruyordu.
Bu yüzden yeni bir Synthesis arabulucusu ekledim, Veto ayarı ve baraj altı koşulları uyguladım, ayrıca fallback parser ile bunu ele aldım.
** Son aşamada yayımlamayı push yerine PR ile değiştirdim **
Human-In-The-Loop yaklaşımı gereği, yapay zeka uzlaşsa bile mutlaka insan gözünden geçmesini sağladım. PR body içine Critic puan tablosu giriyor; ben satır içi yorum bırakırsam yapay zeka düzeltme commit'i ekliyor. Merge öncesine kadar bu döngü tekrarlanıyor.
Evet, sonuçta bu yazı da aynı hat üzerinden yayımlandı.
3 yorum
Ölü internet teorisi...
Birim başına maliyet oldukça yüksek olacaktır
Abonelik olduğu için yük gibi gelmiyor ama görmezden gelmek de mümkün görünmüyor.