AI ajanları: "daha fazla yetenekten" çok "daha yüksek güvenilirliğe" ihtiyaç duyuyor

(sergey.fyi)

5 puan yazan GN⁺ 2025-04-01 | 1 yorum | WhatsApp'ta paylaş

Uçuş rezervasyonu neden AI ajanı demolarının "Hello World"ü haline geldi?
- Kullanıcılar, AI'nın kendileri adına uçuş ayırtmasındansa zaten tamamlanmış bir UX'i (ör. Google Flights) tercih ediyor
- Tek bir hata bile karmaşık bir müşteri hizmetleri cehennemini başlatabilir
- Sezgisel ve öngörülebilir sistemler aslında daha yenilikçidir
AI hâlâ erken aşamada ve genel kullanıcılar tutarlılık ile öngörülebilirlik bekliyor
- Örnek: %80 doğrulukla bile tutarlı sonuçlar veriyorsa kabul edilebilir
  Buna karşılık, düzensiz %90 doğruluk güveni sarsar
- Birçok AI projesi bunu gözden kaçırıp gösterişli demoların ve aşırı iddialı özelliklerin peşine düşüyor → sonuçta güven kaybı yaşanıyor
Giderek daha fazla IDE şeffaflığını kaybediyor
- Kullanıcılar AI'nın ne yaptığını anlayamıyor
- Örnek: Reddit'te gündem olan Cursor'ın tüm çalışmayı sildiği olay
  - Kullanıcının sürüm yönetimindeki yetersizliği de bir etken, ancak asıl neden UI/UX tasarımı
  - İyi tasarım hataları önlemeli, AI'nın davranışını açıkça açıklamalı ve geri alma işlevi sunmalı
Cursor başlangıçta:
- Sekmeyle tamamlama arayüzüyle şeffaf ve hafif bir etkileşim sunuyordu
- Kullanıcı güvenini yavaş yavaş inşa eden bir yaklaşımla popüler oldu
- Basit ve geri alınabilir tasarım, AI'ya duyulan güvensizliği azaltmada etkiliydi
200 milyon dolar yatırım alan Devin, "tam otonom ajan" olmayı hedefliyor
- Karmaşık sistem, yavaş tepki ve öngörülemez sonuçlar güvenin çökmesine yol açtı
- Aşırı iddialı yaklaşım kullanıcıların kafasını daha da karıştırdı

Hız vs. güvenilirlik: AI geliştirme ekiplerinin ikilemi

AI geliştirme ekipleri şu ikisinden birini seçmek zorunda:
- Hızlı ilerleyip hataları göze almak mı
- Yoksa güvenilirlik ve istikrarı öncelemek mi
Cevap, "dar bir kapsamda mükemmel sonuç" verebilen özelliklere odaklanmak ve istikrarlı biçimde yinelemeli iyileştirme yapmak

Temel ilke: karmaşıklıktan çok öngörülebilirlik

Karmaşık sistemlerden ziyade iyi anlaşılan görevlere odaklanılmalı
AI ajanları hâlâ dönüştürücü olsa da, şu üç unsur merkezde olmalı:
- Güvenilirlik
- Şeffaflık
- Öngörülebilirlik

İş akışları vs. ajanlar

Anthropic'in çerçevesi: "Bir görev iş akışı olarak ifade edilebiliyorsa, ajan değil iş akışı oluşturun"
- İş akışları öngörülebilir, kontrol edilebilir ve basittir
- Ajanlar ise karmaşık ve kontrol edilmesi zor olduğundan yalnızca gerçekten dinamik durumlarda kullanılmalıdır

1 yorum

GN⁺ 2025-04-01

Hacker News görüşü

"Uçak rezervasyonu" ajanı artık bir şaka konusu oldu. Swyx'in yakın tarihli AI engineer etkinliği açılış konuşmasında da buna değinildi
- Bu yazının bu sorunun zorluğunu hafife aldığını düşünüyorum
- İnsanların giriş yaptığı veya sohbet ettiği UI'larda sonsuz hata olasılığı vardır
- İnsanlar kendilerini net ifade etmekte kötüdür ve yazılımın işlevlerini tam olarak anlamaları da zordur
Google Deepmind araştırmacıları ajanların güvenilirliğini artırmaya yönelik çalışmalar yürütüyor
- Kullanıcı davranışını temsil eden katı değerlendirmeler önemlidir
- JFK suikastı dosyalarının 80.000 sayfası üzerine ajanın gelişmiş akıl yürütme demosunu paylaştılar
- Az sayıda dosyada bile büyük AI oyuncularıyla güvenilirlik/doğruluk farkı büyüktür
Uçak rezervasyonu AI'a bırakılamayacak bir iştir
- Aile gezilerinde ya da kişisel seyahatlerde çeşitli incelikler gerekir
- Resmi web sitesi, fiyat karşılaştırması, tarih kontrolü, kredi kartı puanlarını hesaba katma gibi çeşitli unsurlar vardır
Çoğu durumda insanlar AI'ı mevcut iş akışlarına uydurmaya çalışma eğilimindedir
- Mevcut iş akışları zaten optimize edilmiş UX/UI'ya sahiptir
- AI kullanmak, sorunu çözmek için doğru çözüm olmayabilir
Cursor kullanım deneyimimden güvenilirliğin önemli olduğu sonucuna vardım
- Hızlı modellerin çıktıları daha fazla düzeltme gerektiriyor
- Belirli kütüphaneleri açıkça kullanmak önemlidir
Son 20 yıldaki teknolojik gelişimde güvenilirliğin daha önemli olduğunu düşünüyorum
- Akıllı telefonlar, sürüş rotaları, bulut depolama gibi yalnızca birkaç yeni özelliğe ihtiyaç vardı
- Artık pil ömrü ve çocukların cihazlarındaki ebeveyn denetimi özellikleri önemli
AI programlamasının mevcut durumuna dair bir Reddit başlığındaki yorum duygularımı özetliyor
- AI nedeniyle programlamaya giren yeni mühendisler temel zorunlulukları kaçırıyor
- Ama hâlâ benim için bir yer olması güven veriyor
AI kod yazdığında en azından o kodu anlayabilmek gerektiği ilkesine sahibim
- AI'ın yazdığı kodu anlamayan "vibe coder"ların yaklaşımını izleyemem
İş akışının ajanlardan daha önemli olduğunu düşünüyorum
- Ajanlar işleri yüksek doğrulukla yürütecek kadar hazır olduğunda iş akışlarını kullanabiliriz
- Etkili, doğru ve kolay teşhis edilebilen iş akışları oluşturmanın yolunu bulacağız
Google Flights zaten kusursuz bir UX sunuyor
- AI ajanı kullanırken web aramasının daha güvenilir ve daha hızlı olduğunu düşünüyorum
- AI'ın faydalı olup olmayacağından emin değilim ve testlerin düzgün yapılıp yapılmadığını sorguluyorum

AI ajanları: "daha fazla yetenekten" çok "daha yüksek güvenilirliğe" ihtiyaç duyuyor

Hız vs. güvenilirlik: AI geliştirme ekiplerinin ikilemi

Temel ilke: karmaşıklıktan çok öngörülebilirlik

İş akışları vs. ajanlar

İlgili okumalar

1 yorum

Hacker News görüşü