Llama-3.3-70B-Instruct

(huggingface.co)

2 puan yazan GN⁺ 2024-12-07 | 1 yorum | WhatsApp'ta paylaş

Hugging Face'te yayımlanan Llama-3.3-70B-Instruct, Meta'nın 70B ölçekli instruction-tuned çok dilli metin üretim modeli ve konuşma odaklı yapay zeka ile metin üretimi kullanımını hedefliyor
Temeli, optimize edilmiş Transformer otoregresif dil modeli; tuning sürümü ise kullanışlılık ve güvenlik tercihleriyle hizalama için SFT ve RLHF kullanıyor
Ön eğitimde açık çevrimiçi verilerden yaklaşık 15 trilyon+ token kullanıldı; bağlam uzunluğu 128k, bilgi kesim tarihi Aralık 2023 ve desteklenen dil sayısı 8
Hugging Face üzerinden modele erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekiyor; ayrıca Llama 3.3 Community License ve Acceptable Use Policy kurallarına uyulmalı
Gerçek dağıtımlarda modeli tek başına kullanmak yerine, güvenlik guardrail'leri içeren bir yapay zeka sistemi olarak kurmak ve kullanım amacına özel güvenlik testleri ile tuning yapmak gerekiyor

Modelin niteliği ve başlıca teknik özellikleri

Llama 3.3, Meta tarafından geliştirilen çok dilli bir büyük dil modeli; 70B Instruct sürümü ise metin girdisi ve metin çıktısını destekleyen instruction-tuned üretici modeldir
Çok dilli konuşma kullanım senaryoları için optimize edilmiştir ve genel endüstri benchmark'larında birçok açık kaynak ve kapalı sohbet modelinden daha yüksek performans gösterdiği belirtilmektedir
Mimari, optimize edilmiş Transformer tabanlı bir otoregresif dil modelidir
- Tuning sürümü supervised fine-tuning (SFT) ve reinforcement learning with human feedback (RLHF) kullanır
- Tüm model sürümleri, çıkarım ölçeklenebilirliğini iyileştirmek için Grouped-Query Attention (GQA) kullanır
Başlıca özellikler
- Parametre: 70B
- Girdi: çok dilli metin
- Çıktı: çok dilli metin ve kod
- Bağlam uzunluğu: 128k
- Ön eğitim token sayısı: 15T+
- Bilgi kesim tarihi: Aralık 2023
- Yayın tarihi: 6 Aralık 2024
Desteklenen diller İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Taycadır
Model, çevrimdışı veri kümeleriyle eğitilmiş statik bir modeldir; topluluk geri bildirimlerini yansıtan gelecekteki tuning model sürümlerinin yayımlanması planlanmaktadır

Erişim koşulları ve lisans yükümlülükleri

Hugging Face'te bu model içeriğine erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekir
- Verilen bilgiler Meta Privacy Policy uyarınca toplanır, saklanır, işlenir ve paylaşılır
Lisans, Llama 3.3 Community License Agreement'tır
- Llama Materials, Meta'nın Llama 3.3'ünü ve belgelerini ya da bunların bir kısmını kapsar
- Kullanım, çoğaltma, dağıtım, kopyalama, türev eser oluşturma ve değiştirme için münhasır olmayan, dünya çapında, devredilemeyen, telifsiz ve sınırlı bir lisans verir
Yeniden dağıtım veya dahil edilen ürünlerin dağıtımı için ek gereklilikler vardır
- Llama Materials'i veya türevlerini dağıtırsanız ya da bunları içeren bir ürün veya hizmet sunarsanız, lisans kopyasını birlikte sağlamanız gerekir
- İlgili web sitesinde, kullanıcı arayüzünde, blog yazısında, about sayfasında veya ürün belgelerinde “Built with Llama” ifadesi görünür biçimde yer almalıdır
- Llama Materials'i veya bunların çıktısını/sonuçlarını kullanarak bir yapay zeka modeli oluşturur, eğitir, fine-tune eder ya da iyileştirir ve bunu dağıtırsanız, model adının başında “Llama” bulunmalıdır
- Dağıttığınız her kopyada, “Notice” metin dosyasında belirtilen telif hakkı ve lisans bildirimleri korunmalıdır
Büyük ölçekli ticari kullanım için ek koşullar uygulanır
- Llama 3.3 yayın tarihinden önceki ayda, lisans alanın veya bağlı şirketlerinin sunduğu ürün ve hizmetlerin aylık aktif kullanıcı sayısı 700 milyonu aşıyorsa, Meta'dan ayrıca lisans talep edilmelidir
- Meta bu hakkı açıkça vermeden önce ilgili haklar kullanılamaz
Sözleşme Kaliforniya eyaleti hukukuna göre yorumlanır ve ilgili uyuşmazlıklarda Kaliforniya mahkemeleri münhasır yargı yetkisine sahiptir

İzin verilen kapsam ve yasaklı kullanımlar

Llama 3.3, birden fazla dilde ticari ve araştırma kullanımı için tasarlanmıştır
- Instruction-tuned yalnızca metin modeli, assistant benzeri sohbet için kullanılır
- Pretrained model, çeşitli doğal dil üretim görevlerine uyarlanabilir
- Model çıktıları, sentetik veri üretimi ve distillation gibi başka modellerin geliştirilmesinde de kullanılabilir
Kapsam dışı kullanımlar şunlardır
- Geçerli yasa, düzenleme veya ticaret uyumluluğu kurallarını ihlal eden kullanım
- Acceptable Use Policy ve Llama 3.3 Community License tarafından yasaklanan kullanım biçimleri
- Model kartında açıkça desteklenen dillerin dışındaki kullanımlar
Model, desteklenen 8 dilden daha geniş bir dil koleksiyonuyla eğitilmiş olsa da, ek dillerde kullanımda geliştiricinin lisans ve politikalara uyması ve güvenli, sorumlu kullanımı sağlaması gerekir
Acceptable Use Policy, şu kullanımları yasaklar
- Şiddet, terör, çocuk istismarı, insan kaçakçılığı, cinsel şiddet, yasa dışı bilgi dağıtımı, cinsel yönlendirme ve diğer suç faaliyetleri
- Taciz, istismar, tehdit, zorbalık
- İstihdam, kredi, konut veya temel mal ve hizmet sunumunda ayrımcılık ya da yasa dışı/zararlı eylemler
- Yetkisiz profesyonel uygulamalar
- Yasal hakkı olmadan kişilerin hassas veya özel bilgilerini toplamak, işlemek, ifşa etmek, üretmek ya da çıkarım yapmak
- Üçüncü taraf haklarını ihlal etmek veya kötüye kullanmak
- Kötü amaçlı kod, malware, bilgisayar virüsü üretmek veya sistem işleyişini bozmak
- Kullanım kısıtlarını veya güvenlik önlemlerini atlatmak ya da kaldırmak
Ölüm veya fiziksel zarar riski içeren faaliyetler de yasaktır
- Askeri kullanım, savaş, nükleer endüstri veya uygulamalar, istihbarat, ITAR kapsamındaki faaliyetler
- Ateşli silahlar ve yasa dışı silahlar, yasa dışı uyuşturucular, düzenlemeye tabi maddeler
- Kritik altyapı, ulaşım teknolojileri, ağır ekipman işletimi
- Kendine veya başkasına zarar vermeyi, şiddeti, istismarı veya fiziksel zararı teşvik eden içerikler
Aldatma ile ilgili yasaklar da vardır
- Dolandırıcılık veya yanlış bilgi üretmek ya da teşvik etmek
- İftira niteliğinde içerik üretmek
- Spam üretmek ve dağıtmak
- Rıza veya yasal hak olmadan kimliğe bürünmek
- Llama 3.3 kullanımı ya da çıktısının insan tarafından üretilmiş gibi gösterilmesi
- Sahte değerlendirmeler gibi yanıltıcı çevrimiçi etkileşimler üretmek
Llama 3.3 içinde yer alan multimodal modellere ilişkin olarak, AB'de ikamet eden bireylere veya ana iş merkezi AB'de olan şirketlere Section 1(a) kapsamındaki haklar verilmez
- Bu kısıtlama, bu tür multimodal modelleri içeren ürün ve hizmetlerin son kullanıcıları için geçerli değildir

Çalıştırma yöntemleri ve serving seçenekleri

Bu depoda Llama-3.3-70B-Instruct'un transformers için olan sürümü ve özgün llama kod tabanı için olan sürümü olmak üzere iki versiyon bulunur
transformers >= 4.45.0 ile, Transformers pipeline soyutlaması veya Auto sınıfları ve generate() fonksiyonu kullanılarak konuşmalı çıkarım çalıştırılabilir
- Kurulum güncellemesi pip install --upgrade transformers ile yapılır
- Örneklerde torch.bfloat16, device_map="auto" ile text-generation pipeline'ı oluşturulur
Transformers'ın tool use özelliği de desteklenir
- Birden fazla araç kullanım formatı desteklenir; prompt format rehberi için LLaMA prompt format docs incelenebilir
- Araç kullanımı, Transformers'ın chat templates özelliğiyle işlenebilir
- Model araç çağrısı üretirse, assistant mesajına tool_calls eklenir, araç çalışma sonucu tool rolü mesajı olarak eklenir ve ardından yeniden generate() çağrılır
bitsandbytes ve transformers ile checkpoint'ler 8-bit ve 4-bit olarak yüklenerek bellek daha verimli kullanılabilir
- 8-bit yükleme için BitsAndBytesConfig(load_in_8bit=True) kullanılır
- 4-bit yükleme için load_in_4bit=True parametresi verilir
Özgün llama kod tabanının kullanımı için Meta Llama repository yönergeleri izlenir
- Orijinal checkpoint şu biçimde indirilebilir: huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
Yerel uygulama ve serving seçenekleri de sunulur
- vLLM, vllm serve "meta-llama/Llama-3.3-70B-Instruct" ile sunucuyu başlatır ve OpenAI uyumlu /v1/chat/completions API'si üzerinden çağrılır
- SGLang, python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" ile sunucuyu çalıştırır ve OpenAI uyumlu API üzerinden çağrılır
- Docker Model Runner için docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct kullanılır

Eğitim verisi, hesaplama ve emisyonlar

Ön eğitim verisi, açık kaynaklardan gelen yaklaşık 15 trilyon tokendan oluşur
Fine-tuning verisi, açık instruction veri kümeleri ile 25 milyondan fazla sentetik olarak üretilmiş örneği içerir
Veri güncelliği, ön eğitim verisi bazında Aralık 2023 tarihine kadardır
Eğitimde özel eğitim kütüphaneleri, Meta'nın özel GPU kümesi ve üretim altyapısı kullanılmıştır
- Fine-tuning, anotasyon ve değerlendirme de üretim altyapısında yürütülmüştür
H100-80GB donanımı baz alındığında, eğitimde toplam 39.3M GPU saat hesaplama kullanılmıştır
- Llama 3.3 70B kalemi için eğitim süresi 7.0M GPU saattir
- Eğitim güç tüketimi GPU başına 700W olarak verilmiştir
Eğitim kaynaklı sera gazı emisyonları, hesaplama yöntemine göre ayrılmıştır
- Toplam lokasyon bazlı tahmini emisyon 11,390 tons CO2eq
- Llama 3.3 70B kalemi için lokasyon bazlı emisyon 2,040 tons CO2eq
- Meta, 2020'den beri küresel operasyonlarında net sıfır emisyonu koruduğunu ve elektrik kullanımının %100'ünü yenilenebilir enerjiyle eşleştirdiğini belirttiği için, piyasa bazlı eğitim emisyonu 0 tons CO2eq olarak verilir
- Enerji kullanımı ve sera gazı hesaplama metodolojisi makalede açıklanmıştır
- Meta modeli açık olarak yayımladığı için, eğitim enerji kullanımı ve sera gazı emisyonları diğer kullanıcılara yüklenmez

Benchmark'lardaki konumu

İngilizce metin benchmark'ları, Llama 3.3'ü önceki modellerle karşılaştırır
Llama-3.3 70B Instruct için başlıca sonuçlar
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Önceki ve daha büyük modellerle bazı karşılaştırmalar
- HumanEval'de Llama 3.1 70B Instruct 80.5, Llama-3.3 70B Instruct 88.4, Llama 3.1 405B Instruct ise 89.0 aldı
- MATH'ta Llama 3.1 70B Instruct 68.0, Llama-3.3 70B Instruct 77.0, Llama 3.1 405B Instruct ise 73.8 aldı
- MGSM'de Llama 3.1 70B Instruct 86.9, Llama-3.3 70B Instruct 91.1, Llama 3.1 405B Instruct ise 91.6 aldı

Güvenlik değerlendirmesi ve dağıtım sorumluluğu

Meta'nın sorumlu yayın yaklaşımı, güven ve güvenlik risklerini yönetmek için üç strateji izler
- Geliştiricilerin hedef kullanıcıya ve Llama'nın desteklediği kullanım senaryolarına uygun, faydalı, güvenli ve esnek deneyimler dağıtmasını desteklemek
- Geliştiricileri, Llama yeteneklerini kötüye kullanmak isteyen saldırgan kullanıcılara karşı korumak
- Modelin kötüye kullanımını önlemeye yardımcı olacak topluluk korumaları sağlamak
Llama 3.3, farklı kullanım senaryolarında kullanılacak bir temel teknoloji olarak tasarlanmıştır
- Model güvenliği, genel kullanım senaryoları ve standart zarar kategorileriyle hizalanmıştır
- Geliştiriciler, kendi kullanım senaryolarına uygun politikaları tanımlamalı ve gerekli koruma mekanizmalarıyla Llama sistemini dağıtmalıdır
- İlgili rehberlik Responsible Use Guide içinde sunulmaktadır
Llama 3.3 Instruct için güvenlik fine-tuning'i, güvenlik fine-tuning'inin sağlamlığını araştırmaya yönelik kaynaklar sağlamaya ve geliştiricilerin güvenli yapay zeka sistemleri dağıtma yükünü azaltmaya odaklanır
- Fine-tuning verisi, tedarikçi üretimi insan verileri ile sentetik verilerin birleşiminden oluşur
- Yüksek kaliteli prompt ve yanıtları seçmek için LLM tabanlı sınıflandırıcılar kullanılır
- Güvenlik veri stratejisinde borderline ve adversarial prompt'lar yer alır
- Güvenlik verisi yanıtları, reddetme tonu yönergelerine uyacak şekilde düzenlenmiştir
Llama 3.3 dahil büyük dil modelleri tek başına dağıtım için tasarlanmamıştır
- Tam bir yapay zeka sisteminin parçası olarak, ek güvenlik guardrail'leri ile birlikte dağıtılmalıdır
- Agent sistemleri oluştururken geliştiriciler sistem koruma mekanizmalarını devreye almalıdır
- Meta, trust and safety kaynakları kapsamında Llama Guard 3, Prompt Guard ve Code Shield sunar
- reference implementations demolarında bu korumalar varsayılan olarak dahildir
Tool use özelliğinde, geliştirici LLM ile seçilen araçların ve hizmetlerin entegrasyonundan sorumludur
- Kullanım senaryosuna özel açık politikalar tanımlanmalıdır
- Üçüncü taraf hizmetlerin bütünlüğü ile güvenlik/siber güvenlik sınırları değerlendirilmelidir
Çok dilli yeteneklerde, desteklenen 8 dil dışındaki dillerde de çıktı üretilebilir
- Güvenlik ve faydalılık ölçütlerini karşılayan diller dışında sohbet yürütülecekse fine-tuning ve sistem kontrolü uygulanmalıdır
- Meta, desteklenmeyen dillerde konuşma kullanımını güçlü biçimde önermemektedir

Risk değerlendirmesi ve topluluk kaynakları

Değerlendirmeler hem genel kullanım senaryoları hem de belirli yetenekler için yapılır
- Genel kullanım senaryosu değerlendirmesi, chatbot, kodlama asistanı, araç çağırma gibi en yaygın uygulamaların güvenlik risklerini ölçer
- Özel adversarial değerlendirme veri kümeleri oluşturulmuş, Llama modelleri ve Llama Guard 3'ten oluşan sistemler değerlendirilmiştir
- Uygulamaların bağlam içinde değerlendirilmesi önemlidir; bu nedenle kullanım senaryosuna özel veri kümeleri oluşturulması önerilir
Tekrarlayan red team çalışmaları yürütülmüştür
- Amaç, adversarial prompting yoluyla riskleri ortaya çıkarmaktır
- Elde edilen sonuçlar benchmark'ları ve güvenlik tuning veri kümelerini iyileştirmekte kullanılır
- Red team, siber güvenlik, adversarial machine learning, sorumlu yapay zeka, integrity uzmanları ve çok dilli içerik uzmanlarından oluşur
Özellikle azaltılmasına odaklanılan risk alanları
- CBRNE: Kimyasal ve biyolojik silah yayılımına ilişkin risk değerlendirmesi için, Llama 3 ailesi modellerinin kötü niyetli aktörlerin kapasitesini anlamlı biçimde artırıp artırmadığını görmek üzere uplift testing yapılmıştır
- Child Safety: Uzman ekipler, çocuk güvenliği riski oluşturabilecek çıktı üretme kapasitesini değerlendirmiş ve fine-tuning ile azaltım gerekip gerekmediğini incelemiştir
- Cyber attack enablement: İnsan yeteneğinin teknik düzeyini ve hızını hacking görevlerinde artırıp artırmadığı araştırılmış; ayrıca ransomware saldırısı bağlamında otonom agent olarak karmaşık siber saldırılar yürütüp yürütemediği değerlendirilmiştir
Meta, AI Alliance, Partnership on AI ve MLCommons gibi açık konsorsiyumlara katılarak güvenlik standardizasyonuna ve şeffaflığa katkı sunar
Purple Llama araçları, topluluk kullanımı için açık kaynak yapılmıştır; topluluk katkıları PurpleLlama GitHub repository üzerinden alınır
Llama Impact Grants, eğitim, iklim ve açık inovasyon olmak üzere üç kategoride toplumsal fayda sağlayacak Llama uygulamalarını keşfetmeyi ve desteklemeyi amaçlar
Çıktı bildirim mekanizmaları ve bug bounty program aracılığıyla topluluk desteğiyle Llama teknolojisi sürekli geliştirilmektedir

Sınırlamalar ve geliştiriciler için dikkat noktaları

Llama 3.3'ün temel değerleri açıklık, kapsayıcılık ve faydalılık olarak sunulmaktadır
Model, farklı arka planlara, deneyimlere ve bakış açılarına sahip kişilerin erişebilmesi için tasarlanmıştır
Llama 3.3 yeni bir teknolojidir ve kullanımında hâlâ riskler bulunmaktadır
- Şu ana kadarki testler tüm senaryoları kapsamamıştır ve kapsaması da mümkün değildir
- Diğer LLM'lerde olduğu gibi potansiyel çıktılar önceden tahmin edilemez
- Bazı durumlarda hatalı, önyargılı veya başka şekillerde rahatsız edici yanıtlar üretebilir
Llama 3.3 model uygulamaları dağıtılmadan önce geliştiricilerin ilgili uygulamaya uygun güvenlik testleri ve tuning yapması gerekir
Sorumlu geliştirme ile ilgili kaynaklar Responsible Use Guide, Trust and Safety ve diğer resources sayfalarında sunulmaktadır

1 yorum

GN⁺ 2024-12-07

Hacker News yorumları

Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Llama 3.2 405B ile benzer ya da biraz daha iyi performans gösteriyor gibi; bu düzey gerçekten etkileyici
Zuck’a göre(https://www.instagram.com/p/DDPm9gqv2cW/) bu, Llama 3 serisinin son sürümü ve Llama 4’ün 2025’te çıkması planlanıyor; bu da heyecan verici
- 24GB 4090 GPU ve 64GB 7950x CPU belleğinde modeli lm-studio ile GPU/CPU arasında bölerek yükleyince 2.12 tok/s alınıyor
  GPU’ya 40/80 katman yüklendi ve çıktı kalitesi şu ana kadar iyi görünüyor
  Ağa göndermek istemediğiniz ama mümkün olan en iyi yanıtı almak istediğiniz sorgular için bu yapılandırma işe yarayabilir
  Daha iyi quantization ya da daha büyük GPU bellek yapılandırmaları mümkün oldukça, bu büyük modeller yerelde sağlam bir kodlama yardımcısı olarak kullanılabilecek gibi
  Kullanılan model: lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- Not olarak, Llama’nın adlandırma sistemi yüzünden Llama 3.2 405B diye bir model yok
  8B/70B/405B modelleri Llama 3, 3.1 veya 3.3’ten biridir(405B ilk sürümde yoktu); Llama 3.2’de yalnızca 1B, 3B, 11B vision ve 90B vision modelleri var
  Epey kafa karıştırıcı bir yapı
- Performansı 405B’ye oldukça yakın olduğuna göre, quantize edilmemiş 3.3-70B ile aynı boyuta quantize edilmiş 405B’yi karşılaştırınca hangisinin öne çıkacağını görmek ilginç olurdu
Steve Jobs’ın Dropbox’a depolamanın “ürün değil, özellik” olduğunu söylediği meşhur sözü akla geliyor
Zuckerberg, bu kadar güçlü bir modeli açık kaynak olarak yayımlayarak fiilen AI’ı emtia haline getiriyor; Meta’nın gerçek iş modeli ise hâlâ sosyal platformlar merkezli
Bu modelleri Facebook ve Instagram hizmetlerini güçlendirmek için kullanırken, aynı zamanda topluluk iyileştirmelerinden ve ilgiden de fayda sağlayabiliyor
Strateji AI satmak değil, AI ile çekirdek işi daha güçlü kılmak
Modelin kendisini doğrudan paraya çevirmese bile, açık yayımlayarak yaygın benimsenme ve geliştirilme avantajını alıyor
- Geliştirici topluluğuna daha aktif şekilde el uzatmanın değerini de hafife almamak gerek
  Tesadüf olabilir ama bu modelleri yayımlamaya başladıktan sonra HN’de insanların “Meta” dediğini daha sık görür oldum ve son zamanlarda her zamankinden çok daha olumlu bir tavır var
  Sempati, ucuz otomatik sansür/moderasyon ya da gösterişli özellikler kadar değerli olmasa bile, kesinlikle bir değeri var
- Açık kaynağın iş modelinin tam olarak ne olduğunu bir süredir düşünüyordum; Google’ın Chrome’a neden para harcadığını da merak ediyordum
  Zuckerberg’in açıklamasını görünce, açık kaynağın şirketler açısından geliri artırabildiği veya maliyeti düşürebildiği zaman faydalı olduğu iyice oturdu
  Gelir artışı örnekleri Chrome ve Visual Studio Code
  Örneğin daha fazla insan kod yazdıkça MSFT’ye para ödeme ihtimali artar; bu yüzden VS Code’un amacı programlamayı olabildiğince cazip hale getirmek
  Chrome da benzer
  Maliyet azaltma örnekleri ise Linux ve Llama
  Zuckerberg’in bizzat söylediği gibi, bir tarafın LLM tekeliyle kartopu gibi büyümesini istemediği için açık kaynak tarafının ilerlemesine yardım etmeyi seçti
- Tamamlayıcıları emtia haline getir: https://gwern.net/complement
- “Depolama ürün değil, özelliktir” sözünden biraz farklı küçük bir yakınma: Üç yıl sonra telefonumu değiştirince depolamanın hâlâ büyük ölçüde 128GB civarında sınırlı olmasına şaşırdım
  Bulut depolama hizmetlerini öne çıkarmak için kapasitenin yapay olarak kısıtlandığını düşünüyorum
- Meta, reklam kalitesini ciddi şekilde iyileştirdi
  Facebook ve Instagram reklamlarını görüp gerçekten satın almaya kadar gittiğim sık oluyor; açıkçası son 20 yılı aşkın sürede hiçbir reklama bilinçli olarak tıklamamıştım
Çeşitli benchmark’larda GPT-4o ile neredeyse aynı seviyede görünüyor: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- Üstelik 25 kat daha ucuz, çevrimdışı kullanılabiliyor, sansür/hizalama kaldırılabiliyor, fine-tuning ve yedekleme de mümkün
  OpenAI için üzücü, insanlık için iyi bir gün
- Bu yıl başladığı havayla bitiyor gibi
  Yapay zekanın evriminin büyük kısmı daha küçük modellerde gerçekleşiyor
  Şirketler eğitim verisinin değerini ve sonuç model boyutunu çok aşan verimliliği fark etmeye başladıkça gerçek değişim ortaya çıktı
- O benchmark’taki GPT-4o’nun hangi sürüm olduğunu merak ediyorum
  08-06 sürümü bazı benchmark’larda bu verilerden biraz daha yüksek çıkıyor gibi: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Bu durumda aylık 200 dolar fiyat daha da komik hale geliyor
Bizim benchmark’ımızda beklediğimizden çok daha iyi çıktı: https://help.kagi.com/kagi/ai/llm-benchmark.html
Daha derine inmek gerekecek ama etkileyici
- “D&D 5e’de büyücü karakterim 6. seviyeye ulaştı; ne kazanıyorum?” diye sorduğumda epey çok şeyi inandırıcı biçimde uydurdu
  GPT-4 de biraz uydurdu, Claude ise doğru yanıtladı
HuggingFace modelleri tarafındaki akışı kaçırdığım için merak ediyorum
Bu tür modellerle neler yapılabildiğini öğrenmek istiyorum
Bir dizüstü bilgisayara indirip JupyterLab ile çalıştırmak mümkün mü, öyleyse bunun ne avantajı var, internetteki yeni verilerle düzenli güncelleme yapılabilir mi, jeo-uzamsal veri gibi belirli kullanım alanları için fine-tuning yapılabilir mi, ayrıca fine-tuning ne kadar zor ve ne kadar sürer merak ediyorum
HuggingFace’te bu soruların yanıtı varsa URL paylaşılırsa iyi olur
Bana HuggingFace, ilk dönemlerindeki GitHub gibi görünüyor
Az sayıda kişi yoğun kullanıyor ama geri kalanı nasıl kullanacağını bilemeyip kafasını kaşıyor gibi
Acemi sorusu ama yanıtının birçok kişiye faydalı olacağını düşünüyorum
- Mümkün
  Topluluk, tüketici sınıfı GPU’larda çalıştırılabilecek quantized sürümler hazırlıyor
  Llama 70B’nin 4-bit quantized sürümü MacBook Pro’da gayet iyi çalışıyor; CPU birleşik belleğini kullanan Neural Engine de bu tür işler için oldukça sağlam
  GPU tarafı, tüketici sınıfı GPU bellekleri hâlâ küçük olduğu için biraz daha zahmetli
  Fine-tuning de mümkün
  Unsloth gibi framework’ler bunu daha kolay hale getiriyor: https://github.com/unslothai/unsloth
  Fine-tuning, öğrenme oranı gibi unsurları bilmeyi gerektirdiğinden düzgün yapmak epey zor olabilir; ama internette birçok hobi geliştiricisinin başarılı olduğu iyi kaynaklar var
  Makine öğrenimi doktorasına gerek yok, ama metinle ifade edilebilir veriye ihtiyaç var
  Kaynak: Databricks’te model serving mühendislik direktörü olarak çalışıyorum
- Mümkün; JupyterLab kısmını pek bilmiyorum, avantajları geçiyorum
  Düzenli güncelleme pratikte zor; fine-tuning mümkün ama epey can sıkıcı, bu yüzden para verip başkasına yaptırmak daha iyi
- HuggingFace temelde modeller için GitHub gibi
  Herkes her şeyi yükleyebilir, ama araçları ve dağıtım biçimlerini bir ölçüde standartlaştırıyor
  Sürümleri daha kolay kullanılabilir hale getirmek için entegrasyonlara yardımcı olan bir ekip de var; fine-tuning kütüphaneleri de sağlıyor
OpenRouter’da 1 milyon token fiyatını takip ediyorum; birkaç yenilemede bir düştüğünü görmek eğlenceli: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
İlgilenenler için 4-bit bitsandbytes, GGUF ve orijinal 16-bit ağırlıkları https://huggingface.co/unsloth adresine yükledim
Unsloth kullanırsanız Llama 3.3 70B’yi 48GB’tan az VRAM ile fine-tune edebilirsiniz; 2 kat daha hızlıdır ve %70 daha az bellek kullanır
Llama’nın açık kaynak olarak yayımlanması, hatırladığım kadarıyla tamamlayıcını metalaştır stratejisinin en iyi uygulama örneklerinden biri
Bu stratejiyi bilmeyenler için Gwern’in “Laws of Tech: Commoditize Your Complement” bağlantısını bırakıyorum: https://gwern.net/complement
Meta beklentilerin üzerinde işler çıkarmaya devam ediyor
En başından beri amaç, güçlü açık modeller yayımlayan yakıp yıkma stratejisiyle OpenAI/Anthropic’i hedef alıp sarsmaktı
En büyük kazanan biz geliştiricileriz
Bu sabah birkaç dakika ayırıp bir H100 model sunucusu ayağa kaldırdım; FP8 quantized sürümü ve KV cache quantization da kullanarak 2 adet H100’e yükledim, hız ve kalite umut verici görünüyor
Daha iyi komut izleme benchmark’larının function calling ve ajan tipi yeteneklerde iyileşmeye dönüşüp dönüşmeyeceğini merak ediyorum

Llama-3.3-70B-Instruct

Modelin niteliği ve başlıca teknik özellikleri

Erişim koşulları ve lisans yükümlülükleri

İzin verilen kapsam ve yasaklı kullanımlar

Çalıştırma yöntemleri ve serving seçenekleri

Eğitim verisi, hesaplama ve emisyonlar

Benchmark'lardaki konumu

Güvenlik değerlendirmesi ve dağıtım sorumluluğu

Risk değerlendirmesi ve topluluk kaynakları

Sınırlamalar ve geliştiriciler için dikkat noktaları

İlgili okumalar

1 yorum

Hacker News yorumları