Claude 3 Model Ailesi
(anthropic.com)- Anthropic, Claude 3 ailesini duyurarak Haiku, Sonnet ve Opus ile zeka, hız ve maliyet dengesinin seçilebildiği yeni bir model serisi sundu
- Opus, MMLU, GPQA, GSM8K gibi başlıca değerlendirmelerde aynı sınıftaki modelleri geride bırakıyor; Claude 3 genelinde analiz, tahmin, kod üretimi ve İngilizce dışı sohbet yetenekleri geliştirilmiş durumda
- Hız farklılaştırması temel eksenlerden biri: Haiku, yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor; Sonnet ise çoğu iş yükünde Claude 2 ve 2.1’den 2 kat hızlı
- Claude 3, fotoğraf, çizelge, grafik ve teknik diyagram gibi görsel girdileri işleyebiliyor; çıkışta 200K bağlam penceresi ve 1 milyon token’ı aşan girdi olanağı sunuyor
- Opus ve Sonnet, claude.ai ve Claude API’de hemen kullanılabiliyor; API 159 ülkede sunuluyor, Haiku ise yakında yayınlanacak
Model yapısı ve kullanılabilirlik durumu
- Claude 3 ailesi, performansı düşükten yükseğe doğru Claude 3 Haiku, Claude 3 Sonnet ve Claude 3 Opus modellerinden oluşuyor
- Her model, uygulamaya göre zeka, hız ve maliyet dengesini seçmeye olanak verecek şekilde tasarlandı
- Opus ve Sonnet, claude.ai ve Claude API’de kullanılabiliyor
- Claude API genel kullanıma açık durumda ve 159 ülkede sunuluyor
- Haiku yakında kullanıma sunulacak
- claude.ai’deki ücretsiz deneyim Sonnet tarafından çalıştırılıyor; Opus ise Claude Pro abonelerine sunuluyor
- Sonnet, Amazon Bedrock’ta da kullanılabiliyor; Google Cloud’un Vertex AI Model Garden’ında ise özel önizleme olarak sunuluyor
- Opus ve Haiku da yakında iki platforma eklenecek
Zeka, hız ve multimodal performans
- Opus, Anthropic’in en zeki modeli olarak MMLU, GPQA, GSM8K dahil pek çok yapay zeka sistemi değerlendirme benchmark’ında aynı sınıftaki modelleri geride bırakıyor
- Claude 3 modelleri; analiz ve tahmin, ayrıntılı içerik üretimi, kod üretimi ve İspanyolca, Japonca, Fransızca gibi İngilizce dışı dillerde sohbet konusunda gelişmiş yetenekler gösteriyor
- Gerçek zamanlı yanıtın önemli olduğu işler için kullanım alanı genişliyor
- Canlı müşteri sohbeti
- Otomatik tamamlama
- Veri çıkarımı
- Haiku, kendi zeka kategorisindeki en hızlı ve en maliyet verimli model; çizelge ve grafikler içeren yaklaşık 10 bin token’lık bir arXiv makalesini 3 saniyenin altında okuyabiliyor
- Sonnet, çoğu iş yükünde Claude 2 ve Claude 2.1’den 2 kat hızlı ve daha yüksek bir zeka seviyesi sunuyor
- Bilgi arama
- Satış otomasyonu
- Opus, Claude 2 ve Claude 2.1’e benzer hızı korurken daha yüksek bir zeka seviyesi sunuyor
Görsel girdiler, retlerin azalması ve doğruluk iyileştirmesi
- Claude 3 modelleri, diğer öncü modellere benzer düzeyde görsel yeteneklere sahip
- Fotoğraflar
- Çizelgeler
- Grafikler
- Teknik diyagramlar
- Bazı kurumsal müşterilerde bilgi tabanının %50’ye kadarı PDF, akış şeması ve sunum slaydı gibi formatlarda saklandığı için yeni girdi biçimlerinin önemi büyük
- Önceki Claude modelleri, bağlamı anlamama gibi görünen gereksiz retleri sıkça veriyordu; Claude 3’teki Opus, Sonnet ve Haiku ise sistem koruma sınırlarına yakın istemlerde önceki nesle göre yanıtı reddetme olasılığını belirgin biçimde düşürüyor
- Claude 3, istekleri daha ince ayrıntıyla anlayıp gerçek zararı tanıyacak ve zararsız istemlere yönelik retleri azaltacak şekilde geliştirildi
- Doğruluk değerlendirmesi, mevcut modelin bilinen zayıflıklarını hedefleyen karmaşık olgusal soru setlerini kullanıyor
- Yanıtlar doğru, yanlış veya halüsinasyon, ya da belirsizliği kabul etme olarak sınıflandırılıyor
- Opus, Claude 2.1’e kıyasla zor ve açık uçlu sorularda doğru yanıt oranını 2 kat artırdı ve yanlış yanıt düzeyini de düşürdü
- Claude 3 modellerine yakında alıntı özelliği eklenecek; bu sayede yanıtların doğrulanması için referans materyaldeki tam cümlelere işaret edilebilecek
Uzun bağlam ve hatırlama yeteneği
- Claude 3 ailesi, çıkışta 200K bağlam penceresi sunuyor
- Üç modelin tamamı 1 milyon token’ı aşan girdileri alabiliyor ve daha yüksek işleme kapasitesine ihtiyaç duyan bazı müşterilere sunulabiliyor
- Uzun bağlamlı istemleri doğru işlemek için güçlü bir hatırlama yeteneği gerekiyor
- Needle In A Haystack (NIAH) değerlendirmesi, çok büyük veri korpuslarından bilgiyi doğru şekilde hatırlama yeteneğini ölçüyor
- Değerlendirmenin sağlamlığını artırmak için her istemde 30 rastgele needle/question çiftinden biri kullanılıyor
- Çeşitli kitle kaynaklı belge korpuslarında test ediliyor
- Claude 3 Opus, NIAH’te %99’un üzerinde doğrulukla neredeyse kusursuz hatırlama elde etti
- Bazı örneklerde, “needle” cümlesinin metne bir insan tarafından yapay olarak eklenmiş gibi göründüğünü fark ederek değerlendirmenin kendi sınırlılığını da tespit etti
Güvenlik tasarımı ve önyargıyla mücadele
- Anthropic, Claude 3 ailesini yetenekleri kadar güvenilir kılmaya odaklanıyor
- Özel ekipler çeşitli riskleri izleyip azaltıyor
- Yanlış bilgi
- CSAM
- Biyolojik kötüye kullanım
- Seçimlere müdahale
- Otonom çoğalma yeteneği
- Modelin güvenliğini ve şeffaflığını artırmak için Constitutional AI gibi yöntemleri geliştirmeye devam ediyor
- Yeni girdi biçimlerinden doğabilecek gizlilik sorunlarını azaltmak için modeller ayarlanıyor
- Bias Benchmark for Question Answering (BBQ) ölçütüne göre Claude 3, önceki modellere kıyasla daha az önyargılı
- Claude 3 ailesi biyoloji bilgisi, siber bilgi ve otonomiye ilişkin temel ölçütlerde önceki modellere göre ilerleme kaydetti; ancak Responsible Scaling Policy kapsamındaki AI Safety Level 2 (ASL-2) düzeyinde kalıyor
- Red-team değerlendirmeleri, mevcut modellerin felaket düzeyinde risk potansiyelinin ihmal edilebilir olduğu sonucuna vardı
- Değerlendirmeler White House commitments ve 2023 US Executive Order ile uyumlu şekilde yürütüldü
- Gelecekteki modellerin ASL-3 eşiklerine ne kadar yaklaştığı izlenmeye devam edecek
- Ek güvenlik ayrıntıları Claude 3 model card içinde yer alıyor
Kullanılabilirlik, modele göre fiyatlandırma ve kullanım alanları
- Claude 3 modelleri karmaşık, çok adımlı talimatları daha iyi izliyor
- Marka sesine ve yanıt yönergelerine uymak, güvenilir müşteriyle yüz yüze deneyimler oluşturmak için daha uygunlar
- JSON gibi yapılandırılmış çıktı üretme yetenekleri geliştirildi; bu da doğal dil sınıflandırması ve duygu analizi gibi kullanım senaryolarında Claude’a talimat vermeyi kolaylaştırıyor
-
Claude 3 Opus
- Claude 3 Opus, son derece karmaşık görevlerde en üst düzey performans veren en zeki modeldir
- Açık uçlu istemleri ve daha önce görülmemiş senaryoları yüksek akıcılık ve insana yakın anlayışla ele alır
- Fiyatı 1 milyon girdi token’ı başına 15 dolar, 1 milyon çıktı token’ı başına 75 dolardır
- Bağlam penceresi 200K’dır; belirli kullanım senaryolarında 1 milyon token da mümkündür
- Olası kullanım senaryoları
- API’ler ve veritabanları genelinde karmaşık iş planlama ve yürütme, etkileşimli kodlama
- Araştırma inceleme, beyin fırtınası, hipotez üretimi, ilaç keşfi
- Çizelge ve grafikler, finans, piyasa trendleri ve tahminler üzerinde ileri düzey analiz
-
Claude 3 Sonnet
- Claude 3 Sonnet, zeka ve hız dengesini hedefler; özellikle kurumsal iş yüklerine uyarlanmıştır
- Aynı sınıftaki modellere göre daha düşük maliyetle güçlü performans sunar ve büyük ölçekli yapay zeka dağıtımlarında yüksek sürdürülebilirlik hedefiyle tasarlanmıştır
- Fiyatı 1 milyon girdi token’ı başına 3 dolar, 1 milyon çıktı token’ı başına 15 dolardır
- Bağlam penceresi 200K’dır
- Olası kullanım senaryoları
- Geniş bilgi üzerinde RAG veya arama ve sorgulama
- Ürün önerileri, tahmin, hedefli pazarlama
- Kod üretimi, kalite kontrol, görüntülerden metin ayrıştırma
-
Claude 3 Haiku
- Claude 3 Haiku, neredeyse anında yanıt verebilmek için en hızlı ve en küçük modeldir
- Basit sorgu ve isteklere çok hızlı yanıt verir; insan etkileşimini taklit eden akıcı yapay zeka deneyimleri oluşturmayı hedefler
- Fiyatı 1 milyon girdi token’ı başına 0,25 dolar, 1 milyon çıktı token’ı başına 1,25 dolardır
- Bağlam penceresi 200K’dır
- Olası kullanım senaryoları
- Canlı etkileşimlerde hızlı ve doğru müşteri desteği, çeviri
- Riskli davranışları veya müşteri taleplerini yakalayan içerik moderasyonu
- Lojistik optimizasyonu, envanter yönetimi, yapılandırılmamış verilerden bilgi çıkarımı
Planlanan özellikler ve güncellemeler
- Anthropic, model zekasının sınırına yakın olmadığını düşünüyor ve önümüzdeki aylarda Claude 3 ailesi için sık güncellemeler yayınlamayı planlıyor
- Kurumsal kullanım senaryoları ve büyük ölçekli dağıtımlar için model yeteneklerini güçlendirecek özellikler planlanıyor
- Araç kullanımı, yani fonksiyon çağırma
- Etkileşimli kodlama, yani REPL
- Daha gelişmiş ajan yetenekleri
- Yapay zeka yeteneklerinin sınırlarını genişletirken güvenlik koruma sınırlarını da performans artışına paralel şekilde sürdüreceğini belirtiyor
- Claude ile geliştirmeye başlamak için giriş noktası anthropic.com/claude
1 yorum
Hacker News görüşleri
LLM komut satırı aracım için Claude 3 modelleri desteği ekleyen eklentiyi az önce yayımladım
pipx install llm,llm install llm-claude-3,llm keys set claudeile ayarladıktan sonrallm -m claude-3-opus '3 fun facts about pelicans'gibi çalıştırabilirsinizKod: https://github.com/simonw/llm-claude-3
LLM açıklaması: https://llm.datasette.io/
llm -m gpt-4e aktaran ve sonucuosascriptiletişim kutusuyla gösteren bir Hızlı Eylem oluşturdum; çok kullanışlı olduArtık herhangi bir uygulamada metni sürükleyip Servis menüsünden
LLMi çalıştırabiliyorum; buna bir klavye kısayolu da ekleyerek terminal hatalarını yorumlama, hızlı arama ve metin editörü/IDE içinde doğrudan prompt girme için kullanıyorumhn.algolia.comAPI’sinden yazı ve yorumları alıpjqile açtıktan sonrallm -m claude-3-opusa vererek konu bazlı Markdown özetleri ve doğrudan alıntılar üretmesini sağlıyorum300’den fazla yorum içeren bu başlıkta çalıştırılmış sonucu: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
pipveyaaptile kurulduğunda hemen çalışan yazılımlar artardı; şu anda insanın API anahtarını yapıştırması gereken zahmetli bir adım kalıyorAPI limitine yaklaşınca GPU ile az miktarda Bitcoin kazıp ek API kapasitesini otomatik ödemek, yapay zeka çağına yakışır bir şaka da olurdu
Opus ve önceki Claude modelleri hâlâ Sally problemini doğru çözemiyor
“Sally’nin 3 erkek kardeşi var ve her erkek kardeşinin 2 kız kardeşi varsa, Sally’nin kaç kız kardeşi vardır?” sorusuna Claude, Sally’nin kendisi dışında kız kardeşi olmadığı sonucuna varıp 0 diye yanıtlıyor
https://imgur.com/a/EawcbeL
Prompt yönteminin önemi yüzünden modellerin en yüksek performansını karşılaştırmak epey zorlaşıyor; her modelin en iyi performansı verdiği prompt tarzı da farklı
Örneğin Sally ve üç erkek kardeş aynı anneyi paylaşıyor ama babaları farklı olabilir; erkek kardeşlerin Sally ve Mary adında iki kız kardeşi vardır, fakat Mary ile Sally’nin ebeveyn kümeleri farklı olduğu için birbirlerinin kız kardeşi olmayabilirler
Doktora düzeyinde zeka deniyor ama yukarıdaki problemi bile doğru akıl yürüterek çözemiyor; doktora düzeyinde bilgi miktarı ile gelişmiş muhakeme farklı şeyler ve birçok kişi bu farkı ayırt edemiyor gibi görünüyor
Otonom sürüşte de şeridi takip etmek kolay ama şeritleri ve nesneleri tanımak zor; bir aracın temel hareketleri yapması, durumu gerçekten anladığı yanılgısına yol açabildiği gibi LLM’lerde de benzer görünüyor
Yalnızca modelin yanlış yaptığı şeylere takılmak yerine, doğru yaptığı şaşırtıcı işleri de birlikte görmek gerekiyor
Claude 3 Opus’un APPS benchmark’inde %70,2 alması, kodlama için oldukça yararlı olabileceğini gösteriyor
APPS, problem açıklamalarını Python koduna dönüştürme becerisini ölçer; problemlerin ortalama uzunluğu neredeyse 300 kelimedir
İlginç şekilde, diğer en üst seviye modeller bu benchmark sonuçlarını yayımlamadı
Claude 3 model kartı: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Tablo 1: https://twitter.com/karinanguyen_/status/1764666528220557320
APPS veri kümesi: https://huggingface.co/datasets/codeparrot/apps
APPS makalesi: https://arxiv.org/abs/2105.09938v3
Öğrenci ortalaması sırasıyla 64,4 ve 61,5 iken Opus 3, 72 ve 63 puan aldı
AMC 12 katılımcılarının ABD’deki 12. sınıf öğrencilerinin toplam 3–4 milyonu içinden büyük olasılıkla 100 binden az olduğu ve üst düzey öğrencilerin yalnızca yarısının katıldığı varsayılsa bile AMC ortalaması, ABD lise öğrencilerinin en üst %2–4’lük dilimini temsil ediyor olabilir
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
Açıklamaya göre, başka alanlardaki doktoralı kişiler internet kullanarak 30 dakikadan fazla uğraşsa bile %34; aynı alandaki doktoralı kişiler internet kullansa bile %65–75 doğruluğa ulaşıyor
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
ChatGPT-4 ile karşılaştırınca birkaç mertebe daha kötü hissettirdi ve gerçek kullanım deneyimi geçmişe doğru büyük bir geri adım gibiydi
Sadece introductory’de bile iyi bir sonuç, ama hangi ölçüte göre olduğunu bilmek daha iyi olurdu
Claude 3 açıklamasında, önceki modellere kıyasla gereksiz retlerin azaldığı kısmı sürekli gözüme takılıyor
Şirketin herkesin uyuşturucu ya da bomba yapımını öğrenmesini sağlayan bir ürün satmak istememesini anlıyorum ama kendi bilgisayarımda çalışan bir model benden istediğim işi yapmayı reddederse bu rahatsız edici
İstediğim sonucu almak için modeli ikna etmem ya da kandırmam gerekiyor; bir aracın sahibinin komutlarını reddetmesi, insan ile araç arasındaki ilişkiye hakaret gibi geliyor
Çekici vidaya kullanmak istiyorsam bu benim seçimimdir, buna çekiç karar vermez; üçüncü bir tarafın tanımladığı “güvenlik” yüzünden yapay zeka araçlarının sahiplerinin komutlarını reddetmesini sağlamaya neden bu kadar takıntılı olunduğunu anlamıyorum
Kendi araçları kullanılarak başkalarının yaptığı eylemlerin vicdanlarında bir yük olmasını istemiyorlar
Ancak birçok kişi düşünce suçuna inanıyor ve cinsellik konusunda püriten inançlara sahip; buna uymazsanız itibar ve fon bulma maliyetleri doğuyor
Kullanıcı modelle suç işlerse bunu hukuk sistemi ele alsın; Big Brother’ın düşünce suçlarını da gözetlemesine gerek olmadığını düşünüyorum
Şu anda çekiç benzetmesi genel olarak doğru görünebilir, ancak yapay zeka hizalama tarafında bu sistemlerin yakında, en geç 10 yıl içinde, yeteneklerinin büyük ölçüde artacağı düşünülüyor
Bir aracın varsayılan durumu ahlaken nötrdür ve hem iyi hem kötü insanları daha etkili kılar; saldırı ve savunma simetrikse sorun küçüktür, ancak bunun böyle olması için bir neden yok
Otomatik yüksek kapasiteli makineli tüfeklere düzenleme getirilmesinin nedeni de tekil kötü niyetli bir aktörün saldırı kapasitesi ile savunulamazlık arasındaki asimetrinin çok büyük olmasıdır; yapay zeka saldırıları savunmadan çok daha kolay hale gelirse açıklık yönündeki ideoloji gerçek dünyada başarısız olabilir
Yine de korkulukları az sayıda grubun belirlemesi sorunlu ve bu, yapay zekanın fazla hızlı ortaya çıkmasının bir yan etkisi gibi görünüyor
Hükümet baskısı ya da “bizim çekicimiz yanlışlıkla bebekleri yaralamaz” türü rekabetçi pazarlama yüzünden de olabilir; çekiçlerde böyle bir özelliğin olmaması bir tercih değil, sınırlamaların yan ürünü olabilir
Photoshop’un para görsellerini düzenlemeye izin vermemesi de rahatsız edici mi? O model kullanıcının malı değil ve onu milyarlarca dolar harcayarak geliştiren de kullanıcı değil
Ticari yazılımlarda her zaman olduğu gibi, geliştiricinin belirlediği koşullarla kullanırsınız ya da hiç kullanmazsınız
Hedef pazar, çeşitli işleri otomatikleştirerek yüz milyonlarca ila milyarlarca dolar işçilik maliyeti tasarrufu yapmak isteyen büyük şirketler; onların istediği de doğru bilgi ve iyi korkuluklara sahip, son derece güvenilir bir model
Büyük bir çok uluslu sigorta şirketinin, müşteri destek chatbot’unun şakayla yönlendiren bir müşteriye erotik metin yazma ihtimalini göze alması beklenemez
Önemli kullanıcılar bireyler değil; duygusal emek veren müşteri destek personelini değiştirmek isteyen işverenler ve onlar kontrollü, nazik, korkulukları olan insan ikameleri istiyor
Opus karmaşık sorularda Gemini Pro ve GPT-4’ü açık ara geride bıraktı
43 sayfalık bir hayat sigortası yatırımı PDF’inde çeşitli sayıları bulma göreviydi ve diğer modeller yaklaşamadı bile
Yalnızca Claude 3 Sonnet, tek bir soruyu kaçıracak kadar yakındı
43 sayfalık bir PDF için ideal olabilir ve erişimim olduğu için Pro 1.5 ile test edebilirim
Claude Pro’ya abone olup Opus’u denerken görüntü ve SDXL ince ayarıyla ilgili karmaşık sorular sordum, RTX 6000 Ada ile H100 maliyet karşılaştırması hesaplatttım; çok hata yaptı
Runpod GPU fiyatları ekran görüntüsünü verdiğimde RTX 6000 Ada fiyatını $1.14 yerine $0.114 olarak yanlış okudu ve sonraki hesaplamalarda da
.278 * $0.114ya da.116 * $4.69, sunduğu toplamlarla uyuşmuyorduBuna karşılık ChatGPT 4 aynı ekran görüntüsünde fiyatı doğru okudu, RTX 6000 Ada’nın kullanılamaz olduğunu fark edip kendi kendine 4090 ile değiştirdi ve daha tutarlı hesaplamalar yaptı
Formül öğelerini bulup el yapımı bir ayrıştırıcıya ve fonksiyonlara göndermek, sonucu da çıktı token’larına geri yerleştirmek dışında bu sorunu düzeltmenin bir yolu yok gibi görünüyor
Referans: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
Henüz hiçbir LLM’in ortaya çıkan bir hesap makinesi olmadı
Görme yeteneğinin, görüntü girdisi olmayan görevlerde de zekayı artırdığı mı kastediliyor?
Örneğin karmaşık bir aritmetik ifadede hesap makinesinin doğru cevabı 22.08555452004’tü; Python’suz GPT-4 22.3038, Claude 3 Opus ise 22.0492 verdi
Sonra da r/wallStreetBets botunu istediğiniz kadar çalıştırmak gibi
Veritabanı ile frontend’in iç içe geçtiği basit bir kodlama işi prompt’unu denedim; ücretsiz ve daha zayıf model olan Claude 3 Sonnet, ChatGPT Classic’ten daha iyi bir yanıt verdi.
Daha az bilinen bir SQL ORM kütüphanesinin doğru metodunu kullandı, GPT-4 ise yanlış metodu kullandı.
Ancak SQL üretme prompt’unda ChatGPT Classic’ten daha kötü bir yanıt verdi; doğru gibi görünüyordu ama çok daha uzundu.
ChatGPT bağlantısı 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ChatGPT bağlantısı 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
Yeşil ikon, birinci nesil ChatGPT modelini ifade eder; büyük olasılıkla GPT-3.5 Turbo’dur.
GPT-4 ile çalıştırınca beklenen sonuç çıkıyor: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
İnternetteki ChatGPT başarısızlık örneklerinin önemli bir kısmının zayıf model çıktıları olduğunu gösteren iyi bir örnek.
Yeşil arka planlı OpenAI ikonu GPT-3.5’i, siyah veya mor ikon GPT-4’ü gösterir; API’deki GPT-4 Turbo ise Drizzle bilgisi daha fazla olduğundan olsa gerek biraz daha iyi iş çıkardı.
Opus’u biraz kullanınca benchmark’ların gerçek performanstan sistematik olarak sapıp sapmadığından şüphelenmeye başladım.
Gerçekte GPT-4’ten daha iyi görünmüyor, hatta biraz daha kötü görünüyor.
Temel kalkülüs/fizik sorularında yavaşlamanın hızla orantılı olduğunu açıkça belirtmeme rağmen sabit yavaşlama varsaydı; trafik simülasyonu testinde ise daha önce konuştuğumuz yön kavramını unutup GPT-4’ün zaten kötü olan sonucundan bile daha kötü oldu.
Bağlam içinde öğrettikten sonra temel ışık renklerini anlama testinde de daha kötüydü; kodlamada ise uzun vadeli sermaye kazancı vergisi hesaplama probleminde GPT-4’ün biraz gerisinde kaldı.
Claude 3’ü https://double.bot üzerindeki Chat’e ekledik; kodlama için deneyebilirsiniz.
Şu anda ücretsiz ve bugün öğleden sonra otomatik tamamlamaya da Claude 3’ü eklemeyi planlıyoruz.
İlk testlere göre GPT-4’ün ilk API alternatifi gibi görünüyor; bu büyük bir olay.
Codeium’un zaten oldukça iyi bir desteği var.
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
Aynı alanda bir ürün geliştiriyorum ve bu tür talepler birkaç kez geldi; bir IDE eklentisi söz konusuysa nerede çalışıyor olursa olsun herhangi bir yapay zeka modeline bağlanabilmesi gerekir gibi geliyor.
Herhangi bir modelin GPT-4’ü geçmesi büyük iş ve bunu başarmış olmaları çok etkileyici.
Yine de GPT-4 bir yıllık bir model ve OpenAI henüz yeni nesil modelini açıklamadı.
GPT-3 makalesi 2020’de çıktı, Anthropic ise ancak 2021’de kuruldu; yani OpenAI üç nesillik deneyim biriktirmişken Anthropic fiilen sıfırdan başlayıp bazı benchmark’larda geçici de olsa öne geçmiş durumda.
OpenAI’ın yeni nesil modeli muhtemelen eğitimini çoktan tamamladı ve ince ayar ile güvenlik değerlendirmesi aşamasında; ancak Anthropic’in varlık nedeni güvenlik olduğundan, bu modeli aceleye getirip o kısmı üstünkörü yaptıklarını düşünmek zor.
GPT-4-1106-previewileGPT-4-0125-preview.Referans: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Burada GPT-4’ü çok az geçmiş; şu ana kadar başka modeller bunu yapamamış gibi göründüğü için bu bile tek başına etkileyici.