- Microsoft araştırmacıları, BitNet b1.58 2B4T adlı aşırı verimli bir yapay zeka modeli geliştirdi
- 1 bit niceleme ile yüksek hız ve düşük bellek kullanımı sağlanıyor; model CPU üzerinde de çalışabiliyor ve MIT lisansı ile yayımlandı
- Apple M2 gibi CPU’larda çalışabiliyor ve GPU olmadan da işleyebiliyor
- 2 milyar parametreye sahip BitNet b1.58 2B4T, Meta, Google ve Alibaba modellerinden daha iyi performans gösteriyor
- Ancak Microsoft’un bitnet.cpp framework’ünü kullanmak gerekiyor ve GPU ile uyumluluk sorunu hâlâ devam ediyor
Microsoft’un ultra hafif 1 bit yapay zeka modeli BitNet b1.58 2B4T
Ultra hafif model BitNet’in kavramı
- BitNet, 1 bit niceleme uygulanan bir yapay zeka modeli; parametreleri göstermek için yalnızca -1, 0, 1 olmak üzere üç değer kullanıyor
- Mevcut nicelenmiş modeller genellikle 8 bit veya 4 bit ile ifade edilirken, BitNet yalnızca 1 bit kullanarak ezici bir bellek verimliliği sağlıyor
- Bu yaklaşım, düşük donanımlı sistemlerde, özellikle de GPU’suz CPU ortamlarında büyük avantaj sunuyor
BitNet b1.58 2B4T’nin özellikleri
- Parametre sayısı: 2 milyar
- Eğitim verisi: 4 trilyon token (yaklaşık 33 milyon kitaplık içerik)
- MIT lisansı ile açık kaynak olarak yayımlandı
- Apple M2 CPU gibi genel amaçlı CPU’larda da çalışabiliyor
Performans karşılaştırması ve benchmark sonuçları
- BitNet b1.58 2B4T, aşağıdaki modellerden bazı benchmark’larda daha iyi performans gösteriyor:
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
- Kullanılan başlıca benchmark’lar:
- GSM8K: ilkokul düzeyinde matematik sorularını değerlendirme
- PIQA: fiziksel sağduyu yürütme yeteneğini değerlendirme
- Bazı testlerde 2 kata kadar daha yüksek hız, bellek kullanımı ise belirgin biçimde daha düşük
Sınırlamalar ve uyumluluk sorunları
- BitNet’in performansı, Microsoft’un özel framework’ü
bitnet.cpp üzerine dayanıyor
bitnet.cpp şu anda yalnızca belirli CPU’ları destekliyor, GPU desteği ise yok
- Bu nedenle, yapay zeka altyapısının standardı olan GPU ortamlarıyla uyumluluk eksikliği bir dezavantaj olarak gösteriliyor
4 yorum
> BitNet, 1 bit kuantizasyon uygulanan bir yapay zeka modeli; parametreleri ifade etmek için yalnızca -1, 0, 1 olmak üzere üç değer kullanıyor.
Değer sayısı 3 ama 1 bit mi? Garip geldiği için HN yorumlarına biraz baktım,
> https://compilade.net/blog/ternary-packing
Bayt başına 2 değeri ifade eden 8 bit yerine, 3 değeri ifade eden 5 adet ternary digit ile işlendiği için, teknik olarak tam anlamıyla 1 bitlik bir model değil;
log(3) / log(2) = 1.5849...bitlik bir model. Model adındab1.58geçiyor olması da bunun doğru olduğunu düşündürüyor.2억 개의 파라미터를ifadesinin20억 개의 파라미터를olarak düzeltilmesi gerekiyor.Hacker News görüşleri
비교된 모든 모델은 1-2억 개의ifadesi비교된 모든 모델은 10-20억 개의olarak düzeltilmeli.AI bağlamında billion çevirisi kulağa tuhaf geliyor.