2 puan yazan GN⁺ 2024-12-07 | 1 yorum | WhatsApp'ta paylaş
  • Hugging Face'te yayımlanan Llama-3.3-70B-Instruct, Meta'nın 70B ölçekli instruction-tuned çok dilli metin üretim modeli ve konuşma odaklı yapay zeka ile metin üretimi kullanımını hedefliyor
  • Temeli, optimize edilmiş Transformer otoregresif dil modeli; tuning sürümü ise kullanışlılık ve güvenlik tercihleriyle hizalama için SFT ve RLHF kullanıyor
  • Ön eğitimde açık çevrimiçi verilerden yaklaşık 15 trilyon+ token kullanıldı; bağlam uzunluğu 128k, bilgi kesim tarihi Aralık 2023 ve desteklenen dil sayısı 8
  • Hugging Face üzerinden modele erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekiyor; ayrıca Llama 3.3 Community License ve Acceptable Use Policy kurallarına uyulmalı
  • Gerçek dağıtımlarda modeli tek başına kullanmak yerine, güvenlik guardrail'leri içeren bir yapay zeka sistemi olarak kurmak ve kullanım amacına özel güvenlik testleri ile tuning yapmak gerekiyor

Modelin niteliği ve başlıca teknik özellikleri

  • Llama 3.3, Meta tarafından geliştirilen çok dilli bir büyük dil modeli; 70B Instruct sürümü ise metin girdisi ve metin çıktısını destekleyen instruction-tuned üretici modeldir
  • Çok dilli konuşma kullanım senaryoları için optimize edilmiştir ve genel endüstri benchmark'larında birçok açık kaynak ve kapalı sohbet modelinden daha yüksek performans gösterdiği belirtilmektedir
  • Mimari, optimize edilmiş Transformer tabanlı bir otoregresif dil modelidir
    • Tuning sürümü supervised fine-tuning (SFT) ve reinforcement learning with human feedback (RLHF) kullanır
    • Tüm model sürümleri, çıkarım ölçeklenebilirliğini iyileştirmek için Grouped-Query Attention (GQA) kullanır
  • Başlıca özellikler
    • Parametre: 70B
    • Girdi: çok dilli metin
    • Çıktı: çok dilli metin ve kod
    • Bağlam uzunluğu: 128k
    • Ön eğitim token sayısı: 15T+
    • Bilgi kesim tarihi: Aralık 2023
    • Yayın tarihi: 6 Aralık 2024
  • Desteklenen diller İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Taycadır
  • Model, çevrimdışı veri kümeleriyle eğitilmiş statik bir modeldir; topluluk geri bildirimlerini yansıtan gelecekteki tuning model sürümlerinin yayımlanması planlanmaktadır

Erişim koşulları ve lisans yükümlülükleri

  • Hugging Face'te bu model içeriğine erişmek için iletişim bilgilerini paylaşmayı kabul etmek gerekir
    • Verilen bilgiler Meta Privacy Policy uyarınca toplanır, saklanır, işlenir ve paylaşılır
  • Lisans, Llama 3.3 Community License Agreement'tır
    • Llama Materials, Meta'nın Llama 3.3'ünü ve belgelerini ya da bunların bir kısmını kapsar
    • Kullanım, çoğaltma, dağıtım, kopyalama, türev eser oluşturma ve değiştirme için münhasır olmayan, dünya çapında, devredilemeyen, telifsiz ve sınırlı bir lisans verir
  • Yeniden dağıtım veya dahil edilen ürünlerin dağıtımı için ek gereklilikler vardır
    • Llama Materials'i veya türevlerini dağıtırsanız ya da bunları içeren bir ürün veya hizmet sunarsanız, lisans kopyasını birlikte sağlamanız gerekir
    • İlgili web sitesinde, kullanıcı arayüzünde, blog yazısında, about sayfasında veya ürün belgelerinde “Built with Llama” ifadesi görünür biçimde yer almalıdır
    • Llama Materials'i veya bunların çıktısını/sonuçlarını kullanarak bir yapay zeka modeli oluşturur, eğitir, fine-tune eder ya da iyileştirir ve bunu dağıtırsanız, model adının başında “Llama” bulunmalıdır
    • Dağıttığınız her kopyada, “Notice” metin dosyasında belirtilen telif hakkı ve lisans bildirimleri korunmalıdır
  • Büyük ölçekli ticari kullanım için ek koşullar uygulanır
    • Llama 3.3 yayın tarihinden önceki ayda, lisans alanın veya bağlı şirketlerinin sunduğu ürün ve hizmetlerin aylık aktif kullanıcı sayısı 700 milyonu aşıyorsa, Meta'dan ayrıca lisans talep edilmelidir
    • Meta bu hakkı açıkça vermeden önce ilgili haklar kullanılamaz
  • Sözleşme Kaliforniya eyaleti hukukuna göre yorumlanır ve ilgili uyuşmazlıklarda Kaliforniya mahkemeleri münhasır yargı yetkisine sahiptir

İzin verilen kapsam ve yasaklı kullanımlar

  • Llama 3.3, birden fazla dilde ticari ve araştırma kullanımı için tasarlanmıştır
    • Instruction-tuned yalnızca metin modeli, assistant benzeri sohbet için kullanılır
    • Pretrained model, çeşitli doğal dil üretim görevlerine uyarlanabilir
    • Model çıktıları, sentetik veri üretimi ve distillation gibi başka modellerin geliştirilmesinde de kullanılabilir
  • Kapsam dışı kullanımlar şunlardır
    • Geçerli yasa, düzenleme veya ticaret uyumluluğu kurallarını ihlal eden kullanım
    • Acceptable Use Policy ve Llama 3.3 Community License tarafından yasaklanan kullanım biçimleri
    • Model kartında açıkça desteklenen dillerin dışındaki kullanımlar
  • Model, desteklenen 8 dilden daha geniş bir dil koleksiyonuyla eğitilmiş olsa da, ek dillerde kullanımda geliştiricinin lisans ve politikalara uyması ve güvenli, sorumlu kullanımı sağlaması gerekir
  • Acceptable Use Policy, şu kullanımları yasaklar
    • Şiddet, terör, çocuk istismarı, insan kaçakçılığı, cinsel şiddet, yasa dışı bilgi dağıtımı, cinsel yönlendirme ve diğer suç faaliyetleri
    • Taciz, istismar, tehdit, zorbalık
    • İstihdam, kredi, konut veya temel mal ve hizmet sunumunda ayrımcılık ya da yasa dışı/zararlı eylemler
    • Yetkisiz profesyonel uygulamalar
    • Yasal hakkı olmadan kişilerin hassas veya özel bilgilerini toplamak, işlemek, ifşa etmek, üretmek ya da çıkarım yapmak
    • Üçüncü taraf haklarını ihlal etmek veya kötüye kullanmak
    • Kötü amaçlı kod, malware, bilgisayar virüsü üretmek veya sistem işleyişini bozmak
    • Kullanım kısıtlarını veya güvenlik önlemlerini atlatmak ya da kaldırmak
  • Ölüm veya fiziksel zarar riski içeren faaliyetler de yasaktır
    • Askeri kullanım, savaş, nükleer endüstri veya uygulamalar, istihbarat, ITAR kapsamındaki faaliyetler
    • Ateşli silahlar ve yasa dışı silahlar, yasa dışı uyuşturucular, düzenlemeye tabi maddeler
    • Kritik altyapı, ulaşım teknolojileri, ağır ekipman işletimi
    • Kendine veya başkasına zarar vermeyi, şiddeti, istismarı veya fiziksel zararı teşvik eden içerikler
  • Aldatma ile ilgili yasaklar da vardır
    • Dolandırıcılık veya yanlış bilgi üretmek ya da teşvik etmek
    • İftira niteliğinde içerik üretmek
    • Spam üretmek ve dağıtmak
    • Rıza veya yasal hak olmadan kimliğe bürünmek
    • Llama 3.3 kullanımı ya da çıktısının insan tarafından üretilmiş gibi gösterilmesi
    • Sahte değerlendirmeler gibi yanıltıcı çevrimiçi etkileşimler üretmek
  • Llama 3.3 içinde yer alan multimodal modellere ilişkin olarak, AB'de ikamet eden bireylere veya ana iş merkezi AB'de olan şirketlere Section 1(a) kapsamındaki haklar verilmez
    • Bu kısıtlama, bu tür multimodal modelleri içeren ürün ve hizmetlerin son kullanıcıları için geçerli değildir

Çalıştırma yöntemleri ve serving seçenekleri

  • Bu depoda Llama-3.3-70B-Instruct'un transformers için olan sürümü ve özgün llama kod tabanı için olan sürümü olmak üzere iki versiyon bulunur
  • transformers >= 4.45.0 ile, Transformers pipeline soyutlaması veya Auto sınıfları ve generate() fonksiyonu kullanılarak konuşmalı çıkarım çalıştırılabilir
    • Kurulum güncellemesi pip install --upgrade transformers ile yapılır
    • Örneklerde torch.bfloat16, device_map="auto" ile text-generation pipeline'ı oluşturulur
  • Transformers'ın tool use özelliği de desteklenir
    • Birden fazla araç kullanım formatı desteklenir; prompt format rehberi için LLaMA prompt format docs incelenebilir
    • Araç kullanımı, Transformers'ın chat templates özelliğiyle işlenebilir
    • Model araç çağrısı üretirse, assistant mesajına tool_calls eklenir, araç çalışma sonucu tool rolü mesajı olarak eklenir ve ardından yeniden generate() çağrılır
  • bitsandbytes ve transformers ile checkpoint'ler 8-bit ve 4-bit olarak yüklenerek bellek daha verimli kullanılabilir
    • 8-bit yükleme için BitsAndBytesConfig(load_in_8bit=True) kullanılır
    • 4-bit yükleme için load_in_4bit=True parametresi verilir
  • Özgün llama kod tabanının kullanımı için Meta Llama repository yönergeleri izlenir
    • Orijinal checkpoint şu biçimde indirilebilir: huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
  • Yerel uygulama ve serving seçenekleri de sunulur
    • vLLM, vllm serve "meta-llama/Llama-3.3-70B-Instruct" ile sunucuyu başlatır ve OpenAI uyumlu /v1/chat/completions API'si üzerinden çağrılır
    • SGLang, python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" ile sunucuyu çalıştırır ve OpenAI uyumlu API üzerinden çağrılır
    • Docker Model Runner için docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct kullanılır

Eğitim verisi, hesaplama ve emisyonlar

  • Ön eğitim verisi, açık kaynaklardan gelen yaklaşık 15 trilyon tokendan oluşur
  • Fine-tuning verisi, açık instruction veri kümeleri ile 25 milyondan fazla sentetik olarak üretilmiş örneği içerir
  • Veri güncelliği, ön eğitim verisi bazında Aralık 2023 tarihine kadardır
  • Eğitimde özel eğitim kütüphaneleri, Meta'nın özel GPU kümesi ve üretim altyapısı kullanılmıştır
    • Fine-tuning, anotasyon ve değerlendirme de üretim altyapısında yürütülmüştür
  • H100-80GB donanımı baz alındığında, eğitimde toplam 39.3M GPU saat hesaplama kullanılmıştır
    • Llama 3.3 70B kalemi için eğitim süresi 7.0M GPU saattir
    • Eğitim güç tüketimi GPU başına 700W olarak verilmiştir
  • Eğitim kaynaklı sera gazı emisyonları, hesaplama yöntemine göre ayrılmıştır
    • Toplam lokasyon bazlı tahmini emisyon 11,390 tons CO2eq
    • Llama 3.3 70B kalemi için lokasyon bazlı emisyon 2,040 tons CO2eq
    • Meta, 2020'den beri küresel operasyonlarında net sıfır emisyonu koruduğunu ve elektrik kullanımının %100'ünü yenilenebilir enerjiyle eşleştirdiğini belirttiği için, piyasa bazlı eğitim emisyonu 0 tons CO2eq olarak verilir
    • Enerji kullanımı ve sera gazı hesaplama metodolojisi makalede açıklanmıştır
    • Meta modeli açık olarak yayımladığı için, eğitim enerji kullanımı ve sera gazı emisyonları diğer kullanıcılara yüklenmez

Benchmark'lardaki konumu

  • İngilizce metin benchmark'ları, Llama 3.3'ü önceki modellerle karşılaştırır
  • Llama-3.3 70B Instruct için başlıca sonuçlar
    • MMLU(CoT): 86.0
    • MMLU Pro(CoT): 68.9
    • IFEval: 92.1
    • GPQA Diamond(CoT): 50.5
    • HumanEval: 88.4
    • MBPP EvalPlus(base): 87.6
    • MATH(CoT): 77.0
    • BFCL v2: 77.3
    • MGSM: 91.1
  • Önceki ve daha büyük modellerle bazı karşılaştırmalar
    • HumanEval'de Llama 3.1 70B Instruct 80.5, Llama-3.3 70B Instruct 88.4, Llama 3.1 405B Instruct ise 89.0 aldı
    • MATH'ta Llama 3.1 70B Instruct 68.0, Llama-3.3 70B Instruct 77.0, Llama 3.1 405B Instruct ise 73.8 aldı
    • MGSM'de Llama 3.1 70B Instruct 86.9, Llama-3.3 70B Instruct 91.1, Llama 3.1 405B Instruct ise 91.6 aldı

Güvenlik değerlendirmesi ve dağıtım sorumluluğu

  • Meta'nın sorumlu yayın yaklaşımı, güven ve güvenlik risklerini yönetmek için üç strateji izler
    • Geliştiricilerin hedef kullanıcıya ve Llama'nın desteklediği kullanım senaryolarına uygun, faydalı, güvenli ve esnek deneyimler dağıtmasını desteklemek
    • Geliştiricileri, Llama yeteneklerini kötüye kullanmak isteyen saldırgan kullanıcılara karşı korumak
    • Modelin kötüye kullanımını önlemeye yardımcı olacak topluluk korumaları sağlamak
  • Llama 3.3, farklı kullanım senaryolarında kullanılacak bir temel teknoloji olarak tasarlanmıştır
    • Model güvenliği, genel kullanım senaryoları ve standart zarar kategorileriyle hizalanmıştır
    • Geliştiriciler, kendi kullanım senaryolarına uygun politikaları tanımlamalı ve gerekli koruma mekanizmalarıyla Llama sistemini dağıtmalıdır
    • İlgili rehberlik Responsible Use Guide içinde sunulmaktadır
  • Llama 3.3 Instruct için güvenlik fine-tuning'i, güvenlik fine-tuning'inin sağlamlığını araştırmaya yönelik kaynaklar sağlamaya ve geliştiricilerin güvenli yapay zeka sistemleri dağıtma yükünü azaltmaya odaklanır
    • Fine-tuning verisi, tedarikçi üretimi insan verileri ile sentetik verilerin birleşiminden oluşur
    • Yüksek kaliteli prompt ve yanıtları seçmek için LLM tabanlı sınıflandırıcılar kullanılır
    • Güvenlik veri stratejisinde borderline ve adversarial prompt'lar yer alır
    • Güvenlik verisi yanıtları, reddetme tonu yönergelerine uyacak şekilde düzenlenmiştir
  • Llama 3.3 dahil büyük dil modelleri tek başına dağıtım için tasarlanmamıştır
    • Tam bir yapay zeka sisteminin parçası olarak, ek güvenlik guardrail'leri ile birlikte dağıtılmalıdır
    • Agent sistemleri oluştururken geliştiriciler sistem koruma mekanizmalarını devreye almalıdır
    • Meta, trust and safety kaynakları kapsamında Llama Guard 3, Prompt Guard ve Code Shield sunar
    • reference implementations demolarında bu korumalar varsayılan olarak dahildir
  • Tool use özelliğinde, geliştirici LLM ile seçilen araçların ve hizmetlerin entegrasyonundan sorumludur
    • Kullanım senaryosuna özel açık politikalar tanımlanmalıdır
    • Üçüncü taraf hizmetlerin bütünlüğü ile güvenlik/siber güvenlik sınırları değerlendirilmelidir
  • Çok dilli yeteneklerde, desteklenen 8 dil dışındaki dillerde de çıktı üretilebilir
    • Güvenlik ve faydalılık ölçütlerini karşılayan diller dışında sohbet yürütülecekse fine-tuning ve sistem kontrolü uygulanmalıdır
    • Meta, desteklenmeyen dillerde konuşma kullanımını güçlü biçimde önermemektedir

Risk değerlendirmesi ve topluluk kaynakları

  • Değerlendirmeler hem genel kullanım senaryoları hem de belirli yetenekler için yapılır
    • Genel kullanım senaryosu değerlendirmesi, chatbot, kodlama asistanı, araç çağırma gibi en yaygın uygulamaların güvenlik risklerini ölçer
    • Özel adversarial değerlendirme veri kümeleri oluşturulmuş, Llama modelleri ve Llama Guard 3'ten oluşan sistemler değerlendirilmiştir
    • Uygulamaların bağlam içinde değerlendirilmesi önemlidir; bu nedenle kullanım senaryosuna özel veri kümeleri oluşturulması önerilir
  • Tekrarlayan red team çalışmaları yürütülmüştür
    • Amaç, adversarial prompting yoluyla riskleri ortaya çıkarmaktır
    • Elde edilen sonuçlar benchmark'ları ve güvenlik tuning veri kümelerini iyileştirmekte kullanılır
    • Red team, siber güvenlik, adversarial machine learning, sorumlu yapay zeka, integrity uzmanları ve çok dilli içerik uzmanlarından oluşur
  • Özellikle azaltılmasına odaklanılan risk alanları
    • CBRNE: Kimyasal ve biyolojik silah yayılımına ilişkin risk değerlendirmesi için, Llama 3 ailesi modellerinin kötü niyetli aktörlerin kapasitesini anlamlı biçimde artırıp artırmadığını görmek üzere uplift testing yapılmıştır
    • Child Safety: Uzman ekipler, çocuk güvenliği riski oluşturabilecek çıktı üretme kapasitesini değerlendirmiş ve fine-tuning ile azaltım gerekip gerekmediğini incelemiştir
    • Cyber attack enablement: İnsan yeteneğinin teknik düzeyini ve hızını hacking görevlerinde artırıp artırmadığı araştırılmış; ayrıca ransomware saldırısı bağlamında otonom agent olarak karmaşık siber saldırılar yürütüp yürütemediği değerlendirilmiştir
  • Meta, AI Alliance, Partnership on AI ve MLCommons gibi açık konsorsiyumlara katılarak güvenlik standardizasyonuna ve şeffaflığa katkı sunar
  • Purple Llama araçları, topluluk kullanımı için açık kaynak yapılmıştır; topluluk katkıları PurpleLlama GitHub repository üzerinden alınır
  • Llama Impact Grants, eğitim, iklim ve açık inovasyon olmak üzere üç kategoride toplumsal fayda sağlayacak Llama uygulamalarını keşfetmeyi ve desteklemeyi amaçlar
  • Çıktı bildirim mekanizmaları ve bug bounty program aracılığıyla topluluk desteğiyle Llama teknolojisi sürekli geliştirilmektedir

Sınırlamalar ve geliştiriciler için dikkat noktaları

  • Llama 3.3'ün temel değerleri açıklık, kapsayıcılık ve faydalılık olarak sunulmaktadır
  • Model, farklı arka planlara, deneyimlere ve bakış açılarına sahip kişilerin erişebilmesi için tasarlanmıştır
  • Llama 3.3 yeni bir teknolojidir ve kullanımında hâlâ riskler bulunmaktadır
    • Şu ana kadarki testler tüm senaryoları kapsamamıştır ve kapsaması da mümkün değildir
    • Diğer LLM'lerde olduğu gibi potansiyel çıktılar önceden tahmin edilemez
    • Bazı durumlarda hatalı, önyargılı veya başka şekillerde rahatsız edici yanıtlar üretebilir
  • Llama 3.3 model uygulamaları dağıtılmadan önce geliştiricilerin ilgili uygulamaya uygun güvenlik testleri ve tuning yapması gerekir
  • Sorumlu geliştirme ile ilgili kaynaklar Responsible Use Guide, Trust and Safety ve diğer resources sayfalarında sunulmaktadır

1 yorum

 
GN⁺ 2024-12-07
Hacker News yorumları
  • Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
    Llama 3.2 405B ile benzer ya da biraz daha iyi performans gösteriyor gibi; bu düzey gerçekten etkileyici
    Zuck’a göre(https://www.instagram.com/p/DDPm9gqv2cW/) bu, Llama 3 serisinin son sürümü ve Llama 4’ün 2025’te çıkması planlanıyor; bu da heyecan verici

    • 24GB 4090 GPU ve 64GB 7950x CPU belleğinde modeli lm-studio ile GPU/CPU arasında bölerek yükleyince 2.12 tok/s alınıyor
      GPU’ya 40/80 katman yüklendi ve çıktı kalitesi şu ana kadar iyi görünüyor
      Ağa göndermek istemediğiniz ama mümkün olan en iyi yanıtı almak istediğiniz sorgular için bu yapılandırma işe yarayabilir
      Daha iyi quantization ya da daha büyük GPU bellek yapılandırmaları mümkün oldukça, bu büyük modeller yerelde sağlam bir kodlama yardımcısı olarak kullanılabilecek gibi
      Kullanılan model: lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
    • Not olarak, Llama’nın adlandırma sistemi yüzünden Llama 3.2 405B diye bir model yok
      8B/70B/405B modelleri Llama 3, 3.1 veya 3.3’ten biridir(405B ilk sürümde yoktu); Llama 3.2’de yalnızca 1B, 3B, 11B vision ve 90B vision modelleri var
      Epey kafa karıştırıcı bir yapı
    • Performansı 405B’ye oldukça yakın olduğuna göre, quantize edilmemiş 3.3-70B ile aynı boyuta quantize edilmiş 405B’yi karşılaştırınca hangisinin öne çıkacağını görmek ilginç olurdu
  • Steve Jobs’ın Dropbox’a depolamanın “ürün değil, özellik” olduğunu söylediği meşhur sözü akla geliyor
    Zuckerberg, bu kadar güçlü bir modeli açık kaynak olarak yayımlayarak fiilen AI’ı emtia haline getiriyor; Meta’nın gerçek iş modeli ise hâlâ sosyal platformlar merkezli
    Bu modelleri Facebook ve Instagram hizmetlerini güçlendirmek için kullanırken, aynı zamanda topluluk iyileştirmelerinden ve ilgiden de fayda sağlayabiliyor
    Strateji AI satmak değil, AI ile çekirdek işi daha güçlü kılmak
    Modelin kendisini doğrudan paraya çevirmese bile, açık yayımlayarak yaygın benimsenme ve geliştirilme avantajını alıyor

    • Geliştirici topluluğuna daha aktif şekilde el uzatmanın değerini de hafife almamak gerek
      Tesadüf olabilir ama bu modelleri yayımlamaya başladıktan sonra HN’de insanların “Meta” dediğini daha sık görür oldum ve son zamanlarda her zamankinden çok daha olumlu bir tavır var
      Sempati, ucuz otomatik sansür/moderasyon ya da gösterişli özellikler kadar değerli olmasa bile, kesinlikle bir değeri var
    • Açık kaynağın iş modelinin tam olarak ne olduğunu bir süredir düşünüyordum; Google’ın Chrome’a neden para harcadığını da merak ediyordum
      Zuckerberg’in açıklamasını görünce, açık kaynağın şirketler açısından geliri artırabildiği veya maliyeti düşürebildiği zaman faydalı olduğu iyice oturdu
      Gelir artışı örnekleri Chrome ve Visual Studio Code
      Örneğin daha fazla insan kod yazdıkça MSFT’ye para ödeme ihtimali artar; bu yüzden VS Code’un amacı programlamayı olabildiğince cazip hale getirmek
      Chrome da benzer
      Maliyet azaltma örnekleri ise Linux ve Llama
      Zuckerberg’in bizzat söylediği gibi, bir tarafın LLM tekeliyle kartopu gibi büyümesini istemediği için açık kaynak tarafının ilerlemesine yardım etmeyi seçti
    • Tamamlayıcıları emtia haline getir: https://gwern.net/complement
    • “Depolama ürün değil, özelliktir” sözünden biraz farklı küçük bir yakınma: Üç yıl sonra telefonumu değiştirince depolamanın hâlâ büyük ölçüde 128GB civarında sınırlı olmasına şaşırdım
      Bulut depolama hizmetlerini öne çıkarmak için kapasitenin yapay olarak kısıtlandığını düşünüyorum
    • Meta, reklam kalitesini ciddi şekilde iyileştirdi
      Facebook ve Instagram reklamlarını görüp gerçekten satın almaya kadar gittiğim sık oluyor; açıkçası son 20 yılı aşkın sürede hiçbir reklama bilinçli olarak tıklamamıştım
  • Çeşitli benchmark’larda GPT-4o ile neredeyse aynı seviyede görünüyor: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109

    • Üstelik 25 kat daha ucuz, çevrimdışı kullanılabiliyor, sansür/hizalama kaldırılabiliyor, fine-tuning ve yedekleme de mümkün
      OpenAI için üzücü, insanlık için iyi bir gün
    • Bu yıl başladığı havayla bitiyor gibi
      Yapay zekanın evriminin büyük kısmı daha küçük modellerde gerçekleşiyor
      Şirketler eğitim verisinin değerini ve sonuç model boyutunu çok aşan verimliliği fark etmeye başladıkça gerçek değişim ortaya çıktı
    • O benchmark’taki GPT-4o’nun hangi sürüm olduğunu merak ediyorum
      08-06 sürümü bazı benchmark’larda bu verilerden biraz daha yüksek çıkıyor gibi: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
    • Bu durumda aylık 200 dolar fiyat daha da komik hale geliyor
  • Bizim benchmark’ımızda beklediğimizden çok daha iyi çıktı: https://help.kagi.com/kagi/ai/llm-benchmark.html
    Daha derine inmek gerekecek ama etkileyici

    • “D&D 5e’de büyücü karakterim 6. seviyeye ulaştı; ne kazanıyorum?” diye sorduğumda epey çok şeyi inandırıcı biçimde uydurdu
      GPT-4 de biraz uydurdu, Claude ise doğru yanıtladı
  • HuggingFace modelleri tarafındaki akışı kaçırdığım için merak ediyorum
    Bu tür modellerle neler yapılabildiğini öğrenmek istiyorum
    Bir dizüstü bilgisayara indirip JupyterLab ile çalıştırmak mümkün mü, öyleyse bunun ne avantajı var, internetteki yeni verilerle düzenli güncelleme yapılabilir mi, jeo-uzamsal veri gibi belirli kullanım alanları için fine-tuning yapılabilir mi, ayrıca fine-tuning ne kadar zor ve ne kadar sürer merak ediyorum
    HuggingFace’te bu soruların yanıtı varsa URL paylaşılırsa iyi olur
    Bana HuggingFace, ilk dönemlerindeki GitHub gibi görünüyor
    Az sayıda kişi yoğun kullanıyor ama geri kalanı nasıl kullanacağını bilemeyip kafasını kaşıyor gibi
    Acemi sorusu ama yanıtının birçok kişiye faydalı olacağını düşünüyorum

    • Mümkün
      Topluluk, tüketici sınıfı GPU’larda çalıştırılabilecek quantized sürümler hazırlıyor
      Llama 70B’nin 4-bit quantized sürümü MacBook Pro’da gayet iyi çalışıyor; CPU birleşik belleğini kullanan Neural Engine de bu tür işler için oldukça sağlam
      GPU tarafı, tüketici sınıfı GPU bellekleri hâlâ küçük olduğu için biraz daha zahmetli
      Fine-tuning de mümkün
      Unsloth gibi framework’ler bunu daha kolay hale getiriyor: https://github.com/unslothai/unsloth
      Fine-tuning, öğrenme oranı gibi unsurları bilmeyi gerektirdiğinden düzgün yapmak epey zor olabilir; ama internette birçok hobi geliştiricisinin başarılı olduğu iyi kaynaklar var
      Makine öğrenimi doktorasına gerek yok, ama metinle ifade edilebilir veriye ihtiyaç var
      Kaynak: Databricks’te model serving mühendislik direktörü olarak çalışıyorum
    • Mümkün; JupyterLab kısmını pek bilmiyorum, avantajları geçiyorum
      Düzenli güncelleme pratikte zor; fine-tuning mümkün ama epey can sıkıcı, bu yüzden para verip başkasına yaptırmak daha iyi
    • HuggingFace temelde modeller için GitHub gibi
      Herkes her şeyi yükleyebilir, ama araçları ve dağıtım biçimlerini bir ölçüde standartlaştırıyor
      Sürümleri daha kolay kullanılabilir hale getirmek için entegrasyonlara yardımcı olan bir ekip de var; fine-tuning kütüphaneleri de sağlıyor
  • OpenRouter’da 1 milyon token fiyatını takip ediyorum; birkaç yenilemede bir düştüğünü görmek eğlenceli: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct

  • İlgilenenler için 4-bit bitsandbytes, GGUF ve orijinal 16-bit ağırlıkları https://huggingface.co/unsloth adresine yükledim
    Unsloth kullanırsanız Llama 3.3 70B’yi 48GB’tan az VRAM ile fine-tune edebilirsiniz; 2 kat daha hızlıdır ve %70 daha az bellek kullanır

  • Llama’nın açık kaynak olarak yayımlanması, hatırladığım kadarıyla tamamlayıcını metalaştır stratejisinin en iyi uygulama örneklerinden biri
    Bu stratejiyi bilmeyenler için Gwern’in “Laws of Tech: Commoditize Your Complement” bağlantısını bırakıyorum: https://gwern.net/complement

  • Meta beklentilerin üzerinde işler çıkarmaya devam ediyor
    En başından beri amaç, güçlü açık modeller yayımlayan yakıp yıkma stratejisiyle OpenAI/Anthropic’i hedef alıp sarsmaktı
    En büyük kazanan biz geliştiricileriz

  • Bu sabah birkaç dakika ayırıp bir H100 model sunucusu ayağa kaldırdım; FP8 quantized sürümü ve KV cache quantization da kullanarak 2 adet H100’e yükledim, hız ve kalite umut verici görünüyor
    Daha iyi komut izleme benchmark’larının function calling ve ajan tipi yeteneklerde iyileşmeye dönüşüp dönüşmeyeceğini merak ediyorum