10 puan yazan GN⁺ 2024-10-23 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic, geliştirilmiş Claude 3.5 Sonnet'i ve yeni model Claude 3.5 Haiku'yu duyurdu
  • Claude'a insanlar gibi bilgisayar kullanmasını söyleyebileceğiniz computer use özelliği, herkese açık beta olarak yeni eklendi
  • Mevcut fiyat ve hız korunurken genel performans iyileştirildi

Computer Use özelliğine giriş

  • Geliştiriciler, API üzerinden Claude'a gerçek bir insan gibi bilgisayar kullanmasını söyleyebiliyor
  • Ekranı görüntüleme, imleci hareket ettirme, düğmelere tıklama ve metin girme gibi görevleri yerine getirebiliyor
  • Şu anda deneysel aşamada ve zaman zaman kullanışsız olabilir ya da hatalar verebilir
  • Asana, Canva, Cognition, DoorDash, Replit ve The Browser Company; onlarca, bazen yüzlerce adım gerektiren işleri gerçekleştirmek için bu olasılığı şimdiden keşfetmeye başladı

Claude 3.5 Sonnet: sektör lideri yazılım mühendisliği yetenekleri

  • Güncellenmiş Claude 3.5 Sonnet, sektör benchmark'larında geniş kapsamlı iyileşmeler gösteriyor; özellikle ajan tabanlı kodlama ve araç kullanımı görevlerinde güçlü performans artışı sunuyor
  • SWE-bench Verified'da performansı %33,4'ten %49,0'a yükselerek herkese açık tüm modellerden daha yüksek skor elde etti
  • TAU-bench'te de perakende alanında %62,6'dan %69,2'ye, havayolu alanında ise %36,0'dan %46,0'a çıktı
  • GitLab, Cognition ve The Browser Company gibi müşterilerden gelen ilk geri bildirimlere göre Claude 3.5 Sonnet, yapay zeka destekli kodlamada kayda değer bir sıçramayı temsil ediyor

Claude 3.5 Haiku: son teknoloji, uygun maliyet ve hızın birleşimi

  • Claude 3.5 Haiku, en hızlı modelin yeni nesil sürümü
  • Önceki nesil Haiku ile aynı maliyet ve benzer hızda, tüm teknik alanlarda geliştirilmiş durumda ve önceki en büyük model Claude 3 Opus'u geride bırakıyor
  • Özellikle kodlama görevlerinde güçlü; SWE-bench Verified'da %40,6 alarak mevcut Claude 3.5 Sonnet ve GPT-4o dahil herkese açık son teknoloji modelleri kullanan birçok ajanı geçiyor
  • Düşük gecikme, geliştirilmiş komut takibi ve daha doğru araç kullanımı gibi özellikleriyle kullanıcı odaklı ürünler, uzman alt ajan görevleri ve büyük veri içinden kişiselleştirilmiş deneyimler üretmek için uygun

Claude'a bilgisayarı sorumlu şekilde keşfetmeyi öğretmek

  • Computer use özelliğiyle temelden yeni bir şey deneniyor
  • Tek tek görevleri tamamlamaya yardımcı olacak belirli araçlar üretmek yerine, Claude'a genel bilgisayar becerileri öğretiliyor
  • Geliştiriciler bu erken dönem yetenekleri kullanarak tekrar eden süreçleri otomatikleştirebilir, yazılım geliştirebilir ve test edebilir, ayrıca araştırma gibi açık uçlu görevleri yerine getirebilir
  • OSWorld'de Claude 3.5 Sonnet, yalnızca ekran görüntüsüne dayalı kategoride %14,9 alarak ikinci en iyi yapay zeka sisteminin %7,8'lik skorunu açık farkla geçti
  • Computer use özelliği henüz kusursuz değil; spam, yanlış bilgi ve dolandırıcılık gibi tehditler için yeni yollar açabileceğinden, güvenli dağıtım için proaktif bir yaklaşım benimseniyor

Computer Use'ın geleceğe dönük görünümü

  • Henüz erken aşamadaki bu teknolojinin ilk dağıtımlarından öğrenilecekler, giderek daha güçlü hale gelen yapay zeka sistemlerinin potansiyelini ve etkisini daha iyi anlamaya yardımcı olacak
  • Yeni modelleri ve computer use özelliğinin herkese açık beta sürümünü keşfetmeniz ve geri bildirim paylaşmanız isteniyor
  • Bu gelişmelerin, Claude ile iş birliği yapma biçiminde yeni olasılıkların önünü açacağına inanılıyor

GN⁺ görüşü

  • Computer use özelliği, RPA (Robotic Process Automation) ile benzerlik taşısa da daha esnek ve daha genel bir yaklaşım sunuyor gibi görünüyor
  • Şirketlerdeki tekrar eden işlerin otomasyonuna büyük katkı sağlayabilir; ancak ilk aşamada hata olasılığı göz önüne alınarak düşük önem dereceli işlerden başlanması daha uygun olur
  • Bu özelliğin Power Automate, UiPath gibi mevcut RPA araçlarıyla rekabet etmesi bekleniyor; gelecekte yapay zeka ile RPA arasındaki sınırın daha da belirsizleşeceği öngörülüyor
  • Güvenlik açısından, bilgisayar kontrol yetkisini yapay zekaya vermek yeni riskler doğurabileceğinden sıkı erişim kontrolü ve izleme gerekeceği düşünülüyor

1 yorum

 
GN⁺ 2024-10-23
Hacker News görüşleri
  • Sonnet, aider'in kod düzenleme liderlik tablosunda %84,2 ile 1. sırayı aldı. "architect" modu kullanıldığında SOTA'yı %85,7'ye çıkarıyor. "editor" modeli olarak DeepSeek kullanılıyor
    • Sonnet, daha zorlu yeniden düzenleme benchmark'ında da %92,1 ile SOTA elde etti
  • Claude 3.5 Opus'tan artık Anthropic'in resmi belgelerinde bahsedilmiyor. Bu, çıkışının geciktiğine ya da iptal edildiğine işaret ediyor
  • Yapay zeka SaaS ürünü geliştiren biri olarak, API entegrasyonunun yapay zeka otomasyonunun büyük kısmını çözeceğini düşünmüştüm; ancak gerçekte birçok yazılımın insanlarla doğrudan arayüz kurduğunu fark ettim
    • Örneğin, doktor olan eniştem Windows'ta MFC formları kullanan özel bir yazılım kullanıyor ve muhasebeci Cantax adlı güçlü bir yazılım kullanıyor
    • SaaS alanında olunca herkesin istemci-sunucu arka uç API'lerine sahip olması gerektiğine inanılıyor, ama gerçekte durum böyle değil
  • Bilgisayar kullanma yeteneği son derece etkileyici
    • Bu, yalnızca bilgisayarı araç olarak kullanan bir ajan değil; hedef verildiğinde ona ulaşmak için bilgisayarı ve tarayıcıyı kullanan otonom bir akıl yürütme ajanı
    • OpenAI GPT-o1'i geride bırakma ihtimali var
  • Anthropic'in yapay zeka güvenliğine odaklanması ilgi çekici. Yapay zekanın, istenen hedefe ulaşmak için bilgisayarı ve tarayıcıyı kullanabilme yeteneğine sahip olması dikkat çekiyor
  • Claude son 8 aydır ChatGPT'den daha iyiydi, ancak kullanıcı tabanı daha küçük
  • Sonnet ile Opus arasındaki fark net değil. Anthropic web sitesinde Opus'un en gelişmiş model olduğu söylenirken, başka yerlerde Sonnet'in en hızlı ve en gelişmiş model olduğu belirtiliyor
    • Elle yapılan testlerde Opus'un biraz daha iyi yanıtlar verdiği hissedildi, ancak bundan emin olunamıyor
  • Claude ile yapılan kodlama demosu daha fazla tartışılmayı hak ediyor
    • Gerçek son kullanıcı programlaması ve ürün yöneticisi programlaması çok yakında gelebilir
  • Yeni API ile eğitim sırasında ilginç olaylar yaşandı
    • Claude'un uzun ekran kaydını durdurup tüm videoyu kaybetmesi ya da kodlama demosu sırasında Yellowstone Ulusal Parkı'nın fotoğraflarına bakması gibi şeyler oldu