Llama-3.3-70B-Instruct
(huggingface.co)- Hugging Face'te yayımlanan Llama-3.3-70B-Instruct, Meta'nın 70B ölçekli instruction-tuned çok dilli metin üretim modeli ve konuşma odaklı yapay zeka ile metin üretimi kullanımını hedefliyor
- Temeli, optimize edilmiş Transformer otoregresif dil modeli; tuning sürümü ise kullanışlılık ve güvenlik tercihleriyle hizalama için SFT ve RLHF kullanıyor
- Ön eğitimde açık çevrimiçi verilerden yaklaşık 15 trilyon+ token kullanıldı; bağlam uzunluğu 128k, bilgi kesim tarihi Aralık 2023 ve desteklenen dil sayısı 8
- Hugging Face üzerinden modele erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekiyor; ayrıca Llama 3.3 Community License ve Acceptable Use Policy kurallarına uyulmalı
- Gerçek dağıtımlarda modeli tek başına kullanmak yerine, güvenlik guardrail'leri içeren bir yapay zeka sistemi olarak kurmak ve kullanım amacına özel güvenlik testleri ile tuning yapmak gerekiyor
Modelin niteliği ve başlıca teknik özellikleri
- Llama 3.3, Meta tarafından geliştirilen çok dilli bir büyük dil modeli;
70B Instructsürümü ise metin girdisi ve metin çıktısını destekleyen instruction-tuned üretici modeldir - Çok dilli konuşma kullanım senaryoları için optimize edilmiştir ve genel endüstri benchmark'larında birçok açık kaynak ve kapalı sohbet modelinden daha yüksek performans gösterdiği belirtilmektedir
- Mimari, optimize edilmiş Transformer tabanlı bir otoregresif dil modelidir
- Tuning sürümü supervised fine-tuning (SFT) ve reinforcement learning with human feedback (RLHF) kullanır
- Tüm model sürümleri, çıkarım ölçeklenebilirliğini iyileştirmek için Grouped-Query Attention (GQA) kullanır
- Başlıca özellikler
- Parametre: 70B
- Girdi: çok dilli metin
- Çıktı: çok dilli metin ve kod
- Bağlam uzunluğu: 128k
- Ön eğitim token sayısı: 15T+
- Bilgi kesim tarihi: Aralık 2023
- Yayın tarihi: 6 Aralık 2024
- Desteklenen diller İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Taycadır
- Model, çevrimdışı veri kümeleriyle eğitilmiş statik bir modeldir; topluluk geri bildirimlerini yansıtan gelecekteki tuning model sürümlerinin yayımlanması planlanmaktadır
Erişim koşulları ve lisans yükümlülükleri
- Hugging Face'te bu model içeriğine erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekir
- Verilen bilgiler Meta Privacy Policy uyarınca toplanır, saklanır, işlenir ve paylaşılır
- Lisans, Llama 3.3 Community License Agreement'tır
- Llama Materials, Meta'nın Llama 3.3'ünü ve belgelerini ya da bunların bir kısmını kapsar
- Kullanım, çoğaltma, dağıtım, kopyalama, türev eser oluşturma ve değiştirme için münhasır olmayan, dünya çapında, devredilemeyen, telifsiz ve sınırlı bir lisans verir
- Yeniden dağıtım veya dahil edilen ürünlerin dağıtımı için ek gereklilikler vardır
- Llama Materials'i veya türevlerini dağıtırsanız ya da bunları içeren bir ürün veya hizmet sunarsanız, lisans kopyasını birlikte sağlamanız gerekir
- İlgili web sitesinde, kullanıcı arayüzünde, blog yazısında, about sayfasında veya ürün belgelerinde “Built with Llama” ifadesi görünür biçimde yer almalıdır
- Llama Materials'i veya bunların çıktısını/sonuçlarını kullanarak bir yapay zeka modeli oluşturur, eğitir, fine-tune eder ya da iyileştirir ve bunu dağıtırsanız, model adının başında “Llama” bulunmalıdır
- Dağıttığınız her kopyada, “Notice” metin dosyasında belirtilen telif hakkı ve lisans bildirimleri korunmalıdır
- Büyük ölçekli ticari kullanım için ek koşullar uygulanır
- Llama 3.3 yayın tarihinden önceki ayda, lisans alanın veya bağlı şirketlerinin sunduğu ürün ve hizmetlerin aylık aktif kullanıcı sayısı 700 milyonu aşıyorsa, Meta'dan ayrıca lisans talep edilmelidir
- Meta bu hakkı açıkça vermeden önce ilgili haklar kullanılamaz
- Sözleşme Kaliforniya eyaleti hukukuna göre yorumlanır ve ilgili uyuşmazlıklarda Kaliforniya mahkemeleri münhasır yargı yetkisine sahiptir
İzin verilen kapsam ve yasaklı kullanımlar
- Llama 3.3, birden fazla dilde ticari ve araştırma kullanımı için tasarlanmıştır
- Instruction-tuned yalnızca metin modeli, assistant benzeri sohbet için kullanılır
- Pretrained model, çeşitli doğal dil üretim görevlerine uyarlanabilir
- Model çıktıları, sentetik veri üretimi ve distillation gibi başka modellerin geliştirilmesinde de kullanılabilir
- Kapsam dışı kullanımlar şunlardır
- Geçerli yasa, düzenleme veya ticaret uyumluluğu kurallarını ihlal eden kullanım
- Acceptable Use Policy ve Llama 3.3 Community License tarafından yasaklanan kullanım biçimleri
- Model kartında açıkça desteklenen dillerin dışındaki kullanımlar
- Model, desteklenen 8 dilden daha geniş bir dil koleksiyonuyla eğitilmiş olsa da, ek dillerde kullanımda geliştiricinin lisans ve politikalara uyması ve güvenli, sorumlu kullanımı sağlaması gerekir
- Acceptable Use Policy, şu kullanımları yasaklar
- Şiddet, terör, çocuk istismarı, insan kaçakçılığı, cinsel şiddet, yasa dışı bilgi dağıtımı, cinsel yönlendirme ve diğer suç faaliyetleri
- Taciz, istismar, tehdit, zorbalık
- İstihdam, kredi, konut veya temel mal ve hizmet sunumunda ayrımcılık ya da yasa dışı/zararlı eylemler
- Yetkisiz profesyonel uygulamalar
- Yasal hakkı olmadan kişilerin hassas veya özel bilgilerini toplamak, işlemek, ifşa etmek, üretmek ya da çıkarım yapmak
- Üçüncü taraf haklarını ihlal etmek veya kötüye kullanmak
- Kötü amaçlı kod, malware, bilgisayar virüsü üretmek veya sistem işleyişini bozmak
- Kullanım kısıtlarını veya güvenlik önlemlerini atlatmak ya da kaldırmak
- Ölüm veya fiziksel zarar riski içeren faaliyetler de yasaktır
- Askeri kullanım, savaş, nükleer endüstri veya uygulamalar, istihbarat, ITAR kapsamındaki faaliyetler
- Ateşli silahlar ve yasa dışı silahlar, yasa dışı uyuşturucular, düzenlemeye tabi maddeler
- Kritik altyapı, ulaşım teknolojileri, ağır ekipman işletimi
- Kendine veya başkasına zarar vermeyi, şiddeti, istismarı veya fiziksel zararı teşvik eden içerikler
- Aldatma ile ilgili yasaklar da vardır
- Dolandırıcılık veya yanlış bilgi üretmek ya da teşvik etmek
- İftira niteliğinde içerik üretmek
- Spam üretmek ve dağıtmak
- Rıza veya yasal hak olmadan kimliğe bürünmek
- Llama 3.3 kullanımı ya da çıktısının insan tarafından üretilmiş gibi gösterilmesi
- Sahte değerlendirmeler gibi yanıltıcı çevrimiçi etkileşimler üretmek
- Llama 3.3 içinde yer alan multimodal modellere ilişkin olarak, AB'de ikamet eden bireylere veya ana iş merkezi AB'de olan şirketlere Section 1(a) kapsamındaki haklar verilmez
- Bu kısıtlama, bu tür multimodal modelleri içeren ürün ve hizmetlerin son kullanıcıları için geçerli değildir
Çalıştırma yöntemleri ve serving seçenekleri
- Bu depoda Llama-3.3-70B-Instruct'un
transformersiçin olan sürümü ve özgünllamakod tabanı için olan sürümü olmak üzere iki versiyon bulunur transformers >= 4.45.0ile, Transformerspipelinesoyutlaması veya Auto sınıfları vegenerate()fonksiyonu kullanılarak konuşmalı çıkarım çalıştırılabilir- Kurulum güncellemesi
pip install --upgrade transformersile yapılır - Örneklerde
torch.bfloat16,device_map="auto"iletext-generationpipeline'ı oluşturulur
- Kurulum güncellemesi
- Transformers'ın tool use özelliği de desteklenir
- Birden fazla araç kullanım formatı desteklenir; prompt format rehberi için LLaMA prompt format docs incelenebilir
- Araç kullanımı, Transformers'ın chat templates özelliğiyle işlenebilir
- Model araç çağrısı üretirse, assistant mesajına
tool_callseklenir, araç çalışma sonucutoolrolü mesajı olarak eklenir ve ardından yenidengenerate()çağrılır
bitsandbytesvetransformersile checkpoint'ler 8-bit ve 4-bit olarak yüklenerek bellek daha verimli kullanılabilir- 8-bit yükleme için
BitsAndBytesConfig(load_in_8bit=True)kullanılır - 4-bit yükleme için
load_in_4bit=Trueparametresi verilir
- 8-bit yükleme için
- Özgün
llamakod tabanının kullanımı için Meta Llama repository yönergeleri izlenir- Orijinal checkpoint şu biçimde indirilebilir:
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
- Orijinal checkpoint şu biçimde indirilebilir:
- Yerel uygulama ve serving seçenekleri de sunulur
- vLLM,
vllm serve "meta-llama/Llama-3.3-70B-Instruct"ile sunucuyu başlatır ve OpenAI uyumlu/v1/chat/completionsAPI'si üzerinden çağrılır - SGLang,
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"ile sunucuyu çalıştırır ve OpenAI uyumlu API üzerinden çağrılır - Docker Model Runner için
docker model run hf.co/meta-llama/Llama-3.3-70B-Instructkullanılır
- vLLM,
Eğitim verisi, hesaplama ve emisyonlar
- Ön eğitim verisi, açık kaynaklardan gelen yaklaşık 15 trilyon tokendan oluşur
- Fine-tuning verisi, açık instruction veri kümeleri ile 25 milyondan fazla sentetik olarak üretilmiş örneği içerir
- Veri güncelliği, ön eğitim verisi bazında Aralık 2023 tarihine kadardır
- Eğitimde özel eğitim kütüphaneleri, Meta'nın özel GPU kümesi ve üretim altyapısı kullanılmıştır
- Fine-tuning, anotasyon ve değerlendirme de üretim altyapısında yürütülmüştür
- H100-80GB donanımı baz alındığında, eğitimde toplam 39.3M GPU saat hesaplama kullanılmıştır
- Llama 3.3 70B kalemi için eğitim süresi 7.0M GPU saattir
- Eğitim güç tüketimi GPU başına 700W olarak verilmiştir
- Eğitim kaynaklı sera gazı emisyonları, hesaplama yöntemine göre ayrılmıştır
- Toplam lokasyon bazlı tahmini emisyon 11,390 tons CO2eq
- Llama 3.3 70B kalemi için lokasyon bazlı emisyon 2,040 tons CO2eq
- Meta, 2020'den beri küresel operasyonlarında net sıfır emisyonu koruduğunu ve elektrik kullanımının %100'ünü yenilenebilir enerjiyle eşleştirdiğini belirttiği için, piyasa bazlı eğitim emisyonu 0 tons CO2eq olarak verilir
- Enerji kullanımı ve sera gazı hesaplama metodolojisi makalede açıklanmıştır
- Meta modeli açık olarak yayımladığı için, eğitim enerji kullanımı ve sera gazı emisyonları diğer kullanıcılara yüklenmez
Benchmark'lardaki konumu
- İngilizce metin benchmark'ları, Llama 3.3'ü önceki modellerle karşılaştırır
- Llama-3.3 70B Instruct için başlıca sonuçlar
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- Önceki ve daha büyük modellerle bazı karşılaştırmalar
- HumanEval'de Llama 3.1 70B Instruct 80.5, Llama-3.3 70B Instruct 88.4, Llama 3.1 405B Instruct ise 89.0 aldı
- MATH'ta Llama 3.1 70B Instruct 68.0, Llama-3.3 70B Instruct 77.0, Llama 3.1 405B Instruct ise 73.8 aldı
- MGSM'de Llama 3.1 70B Instruct 86.9, Llama-3.3 70B Instruct 91.1, Llama 3.1 405B Instruct ise 91.6 aldı
Güvenlik değerlendirmesi ve dağıtım sorumluluğu
- Meta'nın sorumlu yayın yaklaşımı, güven ve güvenlik risklerini yönetmek için üç strateji izler
- Geliştiricilerin hedef kullanıcıya ve Llama'nın desteklediği kullanım senaryolarına uygun, faydalı, güvenli ve esnek deneyimler dağıtmasını desteklemek
- Geliştiricileri, Llama yeteneklerini kötüye kullanmak isteyen saldırgan kullanıcılara karşı korumak
- Modelin kötüye kullanımını önlemeye yardımcı olacak topluluk korumaları sağlamak
- Llama 3.3, farklı kullanım senaryolarında kullanılacak bir temel teknoloji olarak tasarlanmıştır
- Model güvenliği, genel kullanım senaryoları ve standart zarar kategorileriyle hizalanmıştır
- Geliştiriciler, kendi kullanım senaryolarına uygun politikaları tanımlamalı ve gerekli koruma mekanizmalarıyla Llama sistemini dağıtmalıdır
- İlgili rehberlik Responsible Use Guide içinde sunulmaktadır
- Llama 3.3 Instruct için güvenlik fine-tuning'i, güvenlik fine-tuning'inin sağlamlığını araştırmaya yönelik kaynaklar sağlamaya ve geliştiricilerin güvenli yapay zeka sistemleri dağıtma yükünü azaltmaya odaklanır
- Fine-tuning verisi, tedarikçi üretimi insan verileri ile sentetik verilerin birleşiminden oluşur
- Yüksek kaliteli prompt ve yanıtları seçmek için LLM tabanlı sınıflandırıcılar kullanılır
- Güvenlik veri stratejisinde borderline ve adversarial prompt'lar yer alır
- Güvenlik verisi yanıtları, reddetme tonu yönergelerine uyacak şekilde düzenlenmiştir
- Llama 3.3 dahil büyük dil modelleri tek başına dağıtım için tasarlanmamıştır
- Tam bir yapay zeka sisteminin parçası olarak, ek güvenlik guardrail'leri ile birlikte dağıtılmalıdır
- Agent sistemleri oluştururken geliştiriciler sistem koruma mekanizmalarını devreye almalıdır
- Meta, trust and safety kaynakları kapsamında Llama Guard 3, Prompt Guard ve Code Shield sunar
- reference implementations demolarında bu korumalar varsayılan olarak dahildir
- Tool use özelliğinde, geliştirici LLM ile seçilen araçların ve hizmetlerin entegrasyonundan sorumludur
- Kullanım senaryosuna özel açık politikalar tanımlanmalıdır
- Üçüncü taraf hizmetlerin bütünlüğü ile güvenlik/siber güvenlik sınırları değerlendirilmelidir
- Çok dilli yeteneklerde, desteklenen 8 dil dışındaki dillerde de çıktı üretilebilir
- Güvenlik ve faydalılık ölçütlerini karşılayan diller dışında sohbet yürütülecekse fine-tuning ve sistem kontrolü uygulanmalıdır
- Meta, desteklenmeyen dillerde konuşma kullanımını güçlü biçimde önermemektedir
Risk değerlendirmesi ve topluluk kaynakları
- Değerlendirmeler hem genel kullanım senaryoları hem de belirli yetenekler için yapılır
- Genel kullanım senaryosu değerlendirmesi, chatbot, kodlama asistanı, araç çağırma gibi en yaygın uygulamaların güvenlik risklerini ölçer
- Özel adversarial değerlendirme veri kümeleri oluşturulmuş, Llama modelleri ve Llama Guard 3'ten oluşan sistemler değerlendirilmiştir
- Uygulamaların bağlam içinde değerlendirilmesi önemlidir; bu nedenle kullanım senaryosuna özel veri kümeleri oluşturulması önerilir
- Tekrarlayan red team çalışmaları yürütülmüştür
- Amaç, adversarial prompting yoluyla riskleri ortaya çıkarmaktır
- Elde edilen sonuçlar benchmark'ları ve güvenlik tuning veri kümelerini iyileştirmekte kullanılır
- Red team, siber güvenlik, adversarial machine learning, sorumlu yapay zeka, integrity uzmanları ve çok dilli içerik uzmanlarından oluşur
- Özellikle azaltılmasına odaklanılan risk alanları
- CBRNE: Kimyasal ve biyolojik silah yayılımına ilişkin risk değerlendirmesi için, Llama 3 ailesi modellerinin kötü niyetli aktörlerin kapasitesini anlamlı biçimde artırıp artırmadığını görmek üzere uplift testing yapılmıştır
- Child Safety: Uzman ekipler, çocuk güvenliği riski oluşturabilecek çıktı üretme kapasitesini değerlendirmiş ve fine-tuning ile azaltım gerekip gerekmediğini incelemiştir
- Cyber attack enablement: İnsan yeteneğinin teknik düzeyini ve hızını hacking görevlerinde artırıp artırmadığı araştırılmış; ayrıca ransomware saldırısı bağlamında otonom agent olarak karmaşık siber saldırılar yürütüp yürütemediği değerlendirilmiştir
- Meta, AI Alliance, Partnership on AI ve MLCommons gibi açık konsorsiyumlara katılarak güvenlik standardizasyonuna ve şeffaflığa katkı sunar
- Purple Llama araçları, topluluk kullanımı için açık kaynak yapılmıştır; topluluk katkıları PurpleLlama GitHub repository üzerinden alınır
- Llama Impact Grants, eğitim, iklim ve açık inovasyon olmak üzere üç kategoride toplumsal fayda sağlayacak Llama uygulamalarını keşfetmeyi ve desteklemeyi amaçlar
- Çıktı bildirim mekanizmaları ve bug bounty program aracılığıyla topluluk desteğiyle Llama teknolojisi sürekli geliştirilmektedir
Sınırlamalar ve geliştiriciler için dikkat noktaları
- Llama 3.3'ün temel değerleri açıklık, kapsayıcılık ve faydalılık olarak sunulmaktadır
- Model, farklı arka planlara, deneyimlere ve bakış açılarına sahip kişilerin erişebilmesi için tasarlanmıştır
- Llama 3.3 yeni bir teknolojidir ve kullanımında hâlâ riskler bulunmaktadır
- Şu ana kadarki testler tüm senaryoları kapsamamıştır ve kapsaması da mümkün değildir
- Diğer LLM'lerde olduğu gibi potansiyel çıktılar önceden tahmin edilemez
- Bazı durumlarda hatalı, önyargılı veya başka şekillerde rahatsız edici yanıtlar üretebilir
- Llama 3.3 model uygulamaları dağıtılmadan önce geliştiricilerin ilgili uygulamaya uygun güvenlik testleri ve tuning yapması gerekir
- Sorumlu geliştirme ile ilgili kaynaklar Responsible Use Guide, Trust and Safety ve diğer resources sayfalarında sunulmaktadır
1 yorum
Hacker News yorumları
Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Llama 3.2 405B ile benzer ya da biraz daha iyi performans gösteriyor gibi; bu düzey gerçekten etkileyici
Zuck’a göre(https://www.instagram.com/p/DDPm9gqv2cW/) bu, Llama 3 serisinin son sürümü ve Llama 4’ün 2025’te çıkması planlanıyor; bu da heyecan verici
GPU’ya 40/80 katman yüklendi ve çıktı kalitesi şu ana kadar iyi görünüyor
Ağa göndermek istemediğiniz ama mümkün olan en iyi yanıtı almak istediğiniz sorgular için bu yapılandırma işe yarayabilir
Daha iyi quantization ya da daha büyük GPU bellek yapılandırmaları mümkün oldukça, bu büyük modeller yerelde sağlam bir kodlama yardımcısı olarak kullanılabilecek gibi
Kullanılan model:
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf8B/70B/405B modelleri Llama 3, 3.1 veya 3.3’ten biridir(405B ilk sürümde yoktu); Llama 3.2’de yalnızca 1B, 3B, 11B vision ve 90B vision modelleri var
Epey kafa karıştırıcı bir yapı
Steve Jobs’ın Dropbox’a depolamanın “ürün değil, özellik” olduğunu söylediği meşhur sözü akla geliyor
Zuckerberg, bu kadar güçlü bir modeli açık kaynak olarak yayımlayarak fiilen AI’ı emtia haline getiriyor; Meta’nın gerçek iş modeli ise hâlâ sosyal platformlar merkezli
Bu modelleri Facebook ve Instagram hizmetlerini güçlendirmek için kullanırken, aynı zamanda topluluk iyileştirmelerinden ve ilgiden de fayda sağlayabiliyor
Strateji AI satmak değil, AI ile çekirdek işi daha güçlü kılmak
Modelin kendisini doğrudan paraya çevirmese bile, açık yayımlayarak yaygın benimsenme ve geliştirilme avantajını alıyor
Tesadüf olabilir ama bu modelleri yayımlamaya başladıktan sonra HN’de insanların “Meta” dediğini daha sık görür oldum ve son zamanlarda her zamankinden çok daha olumlu bir tavır var
Sempati, ucuz otomatik sansür/moderasyon ya da gösterişli özellikler kadar değerli olmasa bile, kesinlikle bir değeri var
Zuckerberg’in açıklamasını görünce, açık kaynağın şirketler açısından geliri artırabildiği veya maliyeti düşürebildiği zaman faydalı olduğu iyice oturdu
Gelir artışı örnekleri Chrome ve Visual Studio Code
Örneğin daha fazla insan kod yazdıkça MSFT’ye para ödeme ihtimali artar; bu yüzden VS Code’un amacı programlamayı olabildiğince cazip hale getirmek
Chrome da benzer
Maliyet azaltma örnekleri ise Linux ve Llama
Zuckerberg’in bizzat söylediği gibi, bir tarafın LLM tekeliyle kartopu gibi büyümesini istemediği için açık kaynak tarafının ilerlemesine yardım etmeyi seçti
Bulut depolama hizmetlerini öne çıkarmak için kapasitenin yapay olarak kısıtlandığını düşünüyorum
Facebook ve Instagram reklamlarını görüp gerçekten satın almaya kadar gittiğim sık oluyor; açıkçası son 20 yılı aşkın sürede hiçbir reklama bilinçli olarak tıklamamıştım
Çeşitli benchmark’larda GPT-4o ile neredeyse aynı seviyede görünüyor: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
OpenAI için üzücü, insanlık için iyi bir gün
Yapay zekanın evriminin büyük kısmı daha küçük modellerde gerçekleşiyor
Şirketler eğitim verisinin değerini ve sonuç model boyutunu çok aşan verimliliği fark etmeye başladıkça gerçek değişim ortaya çıktı
08-06 sürümü bazı benchmark’larda bu verilerden biraz daha yüksek çıkıyor gibi: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
Bizim benchmark’ımızda beklediğimizden çok daha iyi çıktı: https://help.kagi.com/kagi/ai/llm-benchmark.html
Daha derine inmek gerekecek ama etkileyici
GPT-4 de biraz uydurdu, Claude ise doğru yanıtladı
HuggingFace modelleri tarafındaki akışı kaçırdığım için merak ediyorum
Bu tür modellerle neler yapılabildiğini öğrenmek istiyorum
Bir dizüstü bilgisayara indirip JupyterLab ile çalıştırmak mümkün mü, öyleyse bunun ne avantajı var, internetteki yeni verilerle düzenli güncelleme yapılabilir mi, jeo-uzamsal veri gibi belirli kullanım alanları için fine-tuning yapılabilir mi, ayrıca fine-tuning ne kadar zor ve ne kadar sürer merak ediyorum
HuggingFace’te bu soruların yanıtı varsa URL paylaşılırsa iyi olur
Bana HuggingFace, ilk dönemlerindeki GitHub gibi görünüyor
Az sayıda kişi yoğun kullanıyor ama geri kalanı nasıl kullanacağını bilemeyip kafasını kaşıyor gibi
Acemi sorusu ama yanıtının birçok kişiye faydalı olacağını düşünüyorum
Topluluk, tüketici sınıfı GPU’larda çalıştırılabilecek quantized sürümler hazırlıyor
Llama 70B’nin 4-bit quantized sürümü MacBook Pro’da gayet iyi çalışıyor; CPU birleşik belleğini kullanan Neural Engine de bu tür işler için oldukça sağlam
GPU tarafı, tüketici sınıfı GPU bellekleri hâlâ küçük olduğu için biraz daha zahmetli
Fine-tuning de mümkün
Unsloth gibi framework’ler bunu daha kolay hale getiriyor: https://github.com/unslothai/unsloth
Fine-tuning, öğrenme oranı gibi unsurları bilmeyi gerektirdiğinden düzgün yapmak epey zor olabilir; ama internette birçok hobi geliştiricisinin başarılı olduğu iyi kaynaklar var
Makine öğrenimi doktorasına gerek yok, ama metinle ifade edilebilir veriye ihtiyaç var
Kaynak: Databricks’te model serving mühendislik direktörü olarak çalışıyorum
Düzenli güncelleme pratikte zor; fine-tuning mümkün ama epey can sıkıcı, bu yüzden para verip başkasına yaptırmak daha iyi
Herkes her şeyi yükleyebilir, ama araçları ve dağıtım biçimlerini bir ölçüde standartlaştırıyor
Sürümleri daha kolay kullanılabilir hale getirmek için entegrasyonlara yardımcı olan bir ekip de var; fine-tuning kütüphaneleri de sağlıyor
OpenRouter’da 1 milyon token fiyatını takip ediyorum; birkaç yenilemede bir düştüğünü görmek eğlenceli: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
İlgilenenler için 4-bit bitsandbytes, GGUF ve orijinal 16-bit ağırlıkları https://huggingface.co/unsloth adresine yükledim
Unsloth kullanırsanız Llama 3.3 70B’yi 48GB’tan az VRAM ile fine-tune edebilirsiniz; 2 kat daha hızlıdır ve %70 daha az bellek kullanır
Llama’nın açık kaynak olarak yayımlanması, hatırladığım kadarıyla tamamlayıcını metalaştır stratejisinin en iyi uygulama örneklerinden biri
Bu stratejiyi bilmeyenler için Gwern’in “Laws of Tech: Commoditize Your Complement” bağlantısını bırakıyorum: https://gwern.net/complement
Meta beklentilerin üzerinde işler çıkarmaya devam ediyor
En başından beri amaç, güçlü açık modeller yayımlayan yakıp yıkma stratejisiyle OpenAI/Anthropic’i hedef alıp sarsmaktı
En büyük kazanan biz geliştiricileriz
Bu sabah birkaç dakika ayırıp bir H100 model sunucusu ayağa kaldırdım; FP8 quantized sürümü ve KV cache quantization da kullanarak 2 adet H100’e yükledim, hız ve kalite umut verici görünüyor
Daha iyi komut izleme benchmark’larının function calling ve ajan tipi yeteneklerde iyileşmeye dönüşüp dönüşmeyeceğini merak ediyorum