- Anthropic, geliştirilmiş Claude 3.5 Sonnet'i ve yeni model Claude 3.5 Haiku'yu duyurdu
- Claude'a insanlar gibi bilgisayar kullanmasını söyleyebileceğiniz computer use özelliği, herkese açık beta olarak yeni eklendi
- Mevcut fiyat ve hız korunurken genel performans iyileştirildi
Computer Use özelliğine giriş
- Geliştiriciler, API üzerinden Claude'a gerçek bir insan gibi bilgisayar kullanmasını söyleyebiliyor
- Ekranı görüntüleme, imleci hareket ettirme, düğmelere tıklama ve metin girme gibi görevleri yerine getirebiliyor
- Şu anda deneysel aşamada ve zaman zaman kullanışsız olabilir ya da hatalar verebilir
- Asana, Canva, Cognition, DoorDash, Replit ve The Browser Company; onlarca, bazen yüzlerce adım gerektiren işleri gerçekleştirmek için bu olasılığı şimdiden keşfetmeye başladı
Claude 3.5 Sonnet: sektör lideri yazılım mühendisliği yetenekleri
- Güncellenmiş Claude 3.5 Sonnet, sektör benchmark'larında geniş kapsamlı iyileşmeler gösteriyor; özellikle ajan tabanlı kodlama ve araç kullanımı görevlerinde güçlü performans artışı sunuyor
- SWE-bench Verified'da performansı %33,4'ten %49,0'a yükselerek herkese açık tüm modellerden daha yüksek skor elde etti
- TAU-bench'te de perakende alanında %62,6'dan %69,2'ye, havayolu alanında ise %36,0'dan %46,0'a çıktı
- GitLab, Cognition ve The Browser Company gibi müşterilerden gelen ilk geri bildirimlere göre Claude 3.5 Sonnet, yapay zeka destekli kodlamada kayda değer bir sıçramayı temsil ediyor
Claude 3.5 Haiku: son teknoloji, uygun maliyet ve hızın birleşimi
- Claude 3.5 Haiku, en hızlı modelin yeni nesil sürümü
- Önceki nesil Haiku ile aynı maliyet ve benzer hızda, tüm teknik alanlarda geliştirilmiş durumda ve önceki en büyük model Claude 3 Opus'u geride bırakıyor
- Özellikle kodlama görevlerinde güçlü; SWE-bench Verified'da %40,6 alarak mevcut Claude 3.5 Sonnet ve GPT-4o dahil herkese açık son teknoloji modelleri kullanan birçok ajanı geçiyor
- Düşük gecikme, geliştirilmiş komut takibi ve daha doğru araç kullanımı gibi özellikleriyle kullanıcı odaklı ürünler, uzman alt ajan görevleri ve büyük veri içinden kişiselleştirilmiş deneyimler üretmek için uygun
Claude'a bilgisayarı sorumlu şekilde keşfetmeyi öğretmek
- Computer use özelliğiyle temelden yeni bir şey deneniyor
- Tek tek görevleri tamamlamaya yardımcı olacak belirli araçlar üretmek yerine, Claude'a genel bilgisayar becerileri öğretiliyor
- Geliştiriciler bu erken dönem yetenekleri kullanarak tekrar eden süreçleri otomatikleştirebilir, yazılım geliştirebilir ve test edebilir, ayrıca araştırma gibi açık uçlu görevleri yerine getirebilir
- OSWorld'de Claude 3.5 Sonnet, yalnızca ekran görüntüsüne dayalı kategoride %14,9 alarak ikinci en iyi yapay zeka sisteminin %7,8'lik skorunu açık farkla geçti
- Computer use özelliği henüz kusursuz değil; spam, yanlış bilgi ve dolandırıcılık gibi tehditler için yeni yollar açabileceğinden, güvenli dağıtım için proaktif bir yaklaşım benimseniyor
Computer Use'ın geleceğe dönük görünümü
- Henüz erken aşamadaki bu teknolojinin ilk dağıtımlarından öğrenilecekler, giderek daha güçlü hale gelen yapay zeka sistemlerinin potansiyelini ve etkisini daha iyi anlamaya yardımcı olacak
- Yeni modelleri ve computer use özelliğinin herkese açık beta sürümünü keşfetmeniz ve geri bildirim paylaşmanız isteniyor
- Bu gelişmelerin, Claude ile iş birliği yapma biçiminde yeni olasılıkların önünü açacağına inanılıyor
GN⁺ görüşü
- Computer use özelliği, RPA (Robotic Process Automation) ile benzerlik taşısa da daha esnek ve daha genel bir yaklaşım sunuyor gibi görünüyor
- Şirketlerdeki tekrar eden işlerin otomasyonuna büyük katkı sağlayabilir; ancak ilk aşamada hata olasılığı göz önüne alınarak düşük önem dereceli işlerden başlanması daha uygun olur
- Bu özelliğin Power Automate, UiPath gibi mevcut RPA araçlarıyla rekabet etmesi bekleniyor; gelecekte yapay zeka ile RPA arasındaki sınırın daha da belirsizleşeceği öngörülüyor
- Güvenlik açısından, bilgisayar kontrol yetkisini yapay zekaya vermek yeni riskler doğurabileceğinden sıkı erişim kontrolü ve izleme gerekeceği düşünülüyor
1 yorum
Hacker News görüşleri