Anthropic, Computer Use özelliğini ve Claude 3.5 Sonnet/Haiku modellerini duyurdu

(anthropic.com)

10 puan yazan GN⁺ 2024-10-23 | 1 yorum | WhatsApp'ta paylaş

Anthropic, geliştirilmiş Claude 3.5 Sonnet'i ve yeni model Claude 3.5 Haiku'yu duyurdu
Claude'a insanlar gibi bilgisayar kullanmasını söyleyebileceğiniz computer use özelliği, herkese açık beta olarak yeni eklendi
Mevcut fiyat ve hız korunurken genel performans iyileştirildi

Computer Use özelliğine giriş

Geliştiriciler, API üzerinden Claude'a gerçek bir insan gibi bilgisayar kullanmasını söyleyebiliyor
Ekranı görüntüleme, imleci hareket ettirme, düğmelere tıklama ve metin girme gibi görevleri yerine getirebiliyor
Şu anda deneysel aşamada ve zaman zaman kullanışsız olabilir ya da hatalar verebilir
Asana, Canva, Cognition, DoorDash, Replit ve The Browser Company; onlarca, bazen yüzlerce adım gerektiren işleri gerçekleştirmek için bu olasılığı şimdiden keşfetmeye başladı

Claude 3.5 Sonnet: sektör lideri yazılım mühendisliği yetenekleri

Güncellenmiş Claude 3.5 Sonnet, sektör benchmark'larında geniş kapsamlı iyileşmeler gösteriyor; özellikle ajan tabanlı kodlama ve araç kullanımı görevlerinde güçlü performans artışı sunuyor
SWE-bench Verified'da performansı %33,4'ten %49,0'a yükselerek herkese açık tüm modellerden daha yüksek skor elde etti
TAU-bench'te de perakende alanında %62,6'dan %69,2'ye, havayolu alanında ise %36,0'dan %46,0'a çıktı
GitLab, Cognition ve The Browser Company gibi müşterilerden gelen ilk geri bildirimlere göre Claude 3.5 Sonnet, yapay zeka destekli kodlamada kayda değer bir sıçramayı temsil ediyor

Claude 3.5 Haiku: son teknoloji, uygun maliyet ve hızın birleşimi

Claude 3.5 Haiku, en hızlı modelin yeni nesil sürümü
Önceki nesil Haiku ile aynı maliyet ve benzer hızda, tüm teknik alanlarda geliştirilmiş durumda ve önceki en büyük model Claude 3 Opus'u geride bırakıyor
Özellikle kodlama görevlerinde güçlü; SWE-bench Verified'da %40,6 alarak mevcut Claude 3.5 Sonnet ve GPT-4o dahil herkese açık son teknoloji modelleri kullanan birçok ajanı geçiyor
Düşük gecikme, geliştirilmiş komut takibi ve daha doğru araç kullanımı gibi özellikleriyle kullanıcı odaklı ürünler, uzman alt ajan görevleri ve büyük veri içinden kişiselleştirilmiş deneyimler üretmek için uygun

Claude'a bilgisayarı sorumlu şekilde keşfetmeyi öğretmek

Computer use özelliğiyle temelden yeni bir şey deneniyor
Tek tek görevleri tamamlamaya yardımcı olacak belirli araçlar üretmek yerine, Claude'a genel bilgisayar becerileri öğretiliyor
Geliştiriciler bu erken dönem yetenekleri kullanarak tekrar eden süreçleri otomatikleştirebilir, yazılım geliştirebilir ve test edebilir, ayrıca araştırma gibi açık uçlu görevleri yerine getirebilir
OSWorld'de Claude 3.5 Sonnet, yalnızca ekran görüntüsüne dayalı kategoride %14,9 alarak ikinci en iyi yapay zeka sisteminin %7,8'lik skorunu açık farkla geçti
Computer use özelliği henüz kusursuz değil; spam, yanlış bilgi ve dolandırıcılık gibi tehditler için yeni yollar açabileceğinden, güvenli dağıtım için proaktif bir yaklaşım benimseniyor

Computer Use'ın geleceğe dönük görünümü

Henüz erken aşamadaki bu teknolojinin ilk dağıtımlarından öğrenilecekler, giderek daha güçlü hale gelen yapay zeka sistemlerinin potansiyelini ve etkisini daha iyi anlamaya yardımcı olacak
Yeni modelleri ve computer use özelliğinin herkese açık beta sürümünü keşfetmeniz ve geri bildirim paylaşmanız isteniyor
Bu gelişmelerin, Claude ile iş birliği yapma biçiminde yeni olasılıkların önünü açacağına inanılıyor

GN⁺ görüşü

Computer use özelliği, RPA (Robotic Process Automation) ile benzerlik taşısa da daha esnek ve daha genel bir yaklaşım sunuyor gibi görünüyor
Şirketlerdeki tekrar eden işlerin otomasyonuna büyük katkı sağlayabilir; ancak ilk aşamada hata olasılığı göz önüne alınarak düşük önem dereceli işlerden başlanması daha uygun olur
Bu özelliğin Power Automate, UiPath gibi mevcut RPA araçlarıyla rekabet etmesi bekleniyor; gelecekte yapay zeka ile RPA arasındaki sınırın daha da belirsizleşeceği öngörülüyor
Güvenlik açısından, bilgisayar kontrol yetkisini yapay zekaya vermek yeni riskler doğurabileceğinden sıkı erişim kontrolü ve izleme gerekeceği düşünülüyor

1 yorum

GN⁺ 2024-10-23

Hacker News görüşleri

Sonnet, aider'in kod düzenleme liderlik tablosunda %84,2 ile 1. sırayı aldı. "architect" modu kullanıldığında SOTA'yı %85,7'ye çıkarıyor. "editor" modeli olarak DeepSeek kullanılıyor
- Sonnet, daha zorlu yeniden düzenleme benchmark'ında da %92,1 ile SOTA elde etti
Claude 3.5 Opus'tan artık Anthropic'in resmi belgelerinde bahsedilmiyor. Bu, çıkışının geciktiğine ya da iptal edildiğine işaret ediyor
Yapay zeka SaaS ürünü geliştiren biri olarak, API entegrasyonunun yapay zeka otomasyonunun büyük kısmını çözeceğini düşünmüştüm; ancak gerçekte birçok yazılımın insanlarla doğrudan arayüz kurduğunu fark ettim
- Örneğin, doktor olan eniştem Windows'ta MFC formları kullanan özel bir yazılım kullanıyor ve muhasebeci Cantax adlı güçlü bir yazılım kullanıyor
- SaaS alanında olunca herkesin istemci-sunucu arka uç API'lerine sahip olması gerektiğine inanılıyor, ama gerçekte durum böyle değil
Bilgisayar kullanma yeteneği son derece etkileyici
- Bu, yalnızca bilgisayarı araç olarak kullanan bir ajan değil; hedef verildiğinde ona ulaşmak için bilgisayarı ve tarayıcıyı kullanan otonom bir akıl yürütme ajanı
- OpenAI GPT-o1'i geride bırakma ihtimali var
Anthropic'in yapay zeka güvenliğine odaklanması ilgi çekici. Yapay zekanın, istenen hedefe ulaşmak için bilgisayarı ve tarayıcıyı kullanabilme yeteneğine sahip olması dikkat çekiyor
Claude son 8 aydır ChatGPT'den daha iyiydi, ancak kullanıcı tabanı daha küçük
Sonnet ile Opus arasındaki fark net değil. Anthropic web sitesinde Opus'un en gelişmiş model olduğu söylenirken, başka yerlerde Sonnet'in en hızlı ve en gelişmiş model olduğu belirtiliyor
- Elle yapılan testlerde Opus'un biraz daha iyi yanıtlar verdiği hissedildi, ancak bundan emin olunamıyor
Claude ile yapılan kodlama demosu daha fazla tartışılmayı hak ediyor
- Gerçek son kullanıcı programlaması ve ürün yöneticisi programlaması çok yakında gelebilir
Yeni API ile eğitim sırasında ilginç olaylar yaşandı
- Claude'un uzun ekran kaydını durdurup tüm videoyu kaybetmesi ya da kodlama demosu sırasında Yellowstone Ulusal Parkı'nın fotoğraflarına bakması gibi şeyler oldu

Anthropic, Computer Use özelliğini ve Claude 3.5 Sonnet/Haiku modellerini duyurdu

Computer Use özelliğine giriş

Claude 3.5 Sonnet: sektör lideri yazılım mühendisliği yetenekleri

Claude 3.5 Haiku: son teknoloji, uygun maliyet ve hızın birleşimi

Claude'a bilgisayarı sorumlu şekilde keşfetmeyi öğretmek

Computer Use'ın geleceğe dönük görünümü

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri