- Taalas, Llama 3.1 8B modelini doğrudan ASIC çipine işleyerek saniyede 17.000 token çıkarım hızına ulaştığını söyleyen bir startup
- GPU tabanlı sistemlere göre 10 kat daha ucuz, 10 kat daha az güç tüketen ve 10 kat daha hızlı çıkarım performansı sunduğunu iddia ediyor
- Modelin ağırlıklarını doğrudan silikon transistörlere işleyen bir mimariyle, GPU’lardaki bellek darboğazını ortadan kaldırıyor
- Harici DRAM/HBM olmadan, çip içindeki SRAM ile KV cache ve LoRA adaptörlerini işliyor
- Model başına çip üretiminde yalnızca üstteki iki katmanı özelleştiren bir yöntem kullanarak, Llama 3.1 için çipi 2 ayda tamamladı
Taalas çipine genel bakış
- Taalas, 2,5 yıllık bir şirket ve bu çip ilk ürünü
- Çip, sabit işlevli bir ASIC; yalnızca tek bir modeli depolayabiliyor ve yeniden yazılamıyor
- CD-ROM ya da oyun kartuşu gibi tek modele adanmış bir yapıya sahip
GPU tabanlı LLM çıkarımındaki verimsizlik
- LLM’ler birden çok katmandan (layer) oluşur; örneğin Llama 3.1 8B, 32 katmana sahip
- GPU, her katmanın ağırlık matrisini VRAM’den yükleyip hesaplama yaptıktan sonra tekrar kaydeder
- Her token üretilirken bu sürecin 32 kez tekrarlanması gerekir
- Bu bellek gidiş gelişleri gecikme ve enerji tüketimi yaratır; buna bellek bant genişliği darboğazı ya da Von Neumann darboğazı denir
Taalas’ın ‘hardwired’ yaklaşımı
- Taalas, Llama 3.1’in 32 katmanını sıralı biçimde silikonun üzerine işliyor
- Modelin ağırlıkları fiziksel transistörler olarak uygulanıyor
- Girdi vektörü geldiğinde, her katmanın transistörlerinden geçerek elektrik sinyali biçiminde kesintisiz işleniyor
- Ara sonuçlar VRAM’e kaydedilmeden, bağlantılar (pipeline registers) üzerinden doğrudan bir sonraki katmana aktarılıyor
- Şirket, 4 bit veri depolama ve çarpma işlemini tek bir transistörle gerçekleştiren ‘magic multiplier’ adlı bir yapı geliştirdiğini söylüyor
Bellek yapısı
- Harici DRAM/HBM kullanılmıyor; bunun yerine çip içinde az miktarda SRAM bulunuyor
- Çünkü DRAM ile mantık kapılarını aynı üretimde birleştirmek zor
- Bu çip içi SRAM, KV cache (konuşma sırasında geçici bellek) ve LoRA adaptörlerini saklamak için kullanılıyor
Model başına çip üretim yöntemi
- Her model için çipi yeniden üretmek normalde yüksek maliyetli
- Taalas, temel çip yapısını ortak tasarlayıp, belirli modele göre yalnızca üstteki iki katmanı (mask) değiştiriyor
- Bu, tamamen yeni bir çip üretmekten çok daha hızlı bir yöntem
- Llama 3.1 8B için çip geliştirme yaklaşık 2 ay sürdü
- Yapay zeka sektörü ölçüsünde yavaş olsa da, özel çip üretim hızı açısından oldukça hızlı
Geleceğe dair beklenti
- GPU olmadan yerel model çalıştıran kullanıcılar açısından, bu tür donanımların seri üretimi umut veriyor
5 yorum
Hacker News yorumları
8B katsayı (coefficients) 53B transistöre paketlenmiş. Katsayı başına yaklaşık 6,5 transistör kullanılıyor
Görünüşe göre blok kuantizasyonu (block quantization) kullanılmış. Örneğin 3 bitlik 4 katsayılı bloklarda yalnızca 330 farklı blok gerekir
Llama 3.1’in matrisleri 4096x4096, yani 16 milyon katsayıdan oluşuyor; bunun 330 blokla sıkıştırılabildiği düşünülüyor
Blok başına yaklaşık 250 bin transistör bütçesi varsayılırsa katsayı başına yaklaşık 5 transistör düşüyor. FP4 seviyesinde bile gayet uygulanabilir görünüyor
model.toVHDL()gibi bir özellik gelmesini umuyorumİnsanların bunun mümkün olmasına şaşırması asıl şaşırtıcı olan şey
GPU’nun ortaya çıkış nedeni de sonuçta yazılımsal işlemleri donanıma taşımaktı. LLM’ler de aynı matematiksel yapıya sahip olduğundan bunun doğal bir evrim olduğu düşünülüyor
Form faktörden çok asıl yenilik gecikme (latency)
Bulut çıkarımında sırf ağ ek yükü 50~200ms iken, PCIe’ye takılan özel bir ASIC ilk token’ı mikrosaniye seviyesinde üretebilir
Gerçek zamanlı video üretimi veya 100ms altı yanıt gerektiren ajanlar için bu belirleyici. Maliyet GPU’dan yüksek olabilir ama yeni gerçek zamanlı uygulamaları mümkün kılar
Gemma 5 Mini gibi modellerin yerel donanımda doğrudan çalıştığı bir gelecek heyecan verici
H.264 ya da AV1 encoder’ları gibi, belirli modellere özel “AI çekirdekleri” ortaya çıkabilir
Structured ASIC platform, yapısal ASIC çağını yeniden açarak maliyetleri de düşürebilir
Bu, sanki CD-ROM ya da oyun kartuşu gibi tek bir modeli taşıyan çipleri düşündürüyor. Bilgisayara bir slot takıp modeli değiştirmek gibi
Eğer ASIC’i ucuza basmak mümkün olursa model kullanım biçimi tamamen değişir
Modeller USB aygıtı olarak satılır ve 20 milyarın altındaki dense modeller kişisel asistan için yeterli olur
Bu, adeta ekran kartının yeniden doğuşu gibi. Artık çok sayıda open-weight model varken, düşük satın alma ve işletme maliyetiyle büyük bir pazar açılabilir
MoE mimarisinde bunun nasıl işleyeceği merak ediliyor
Dense LLM’lerde tüm ağırlıkları yakın tutmak avantajlı ama MoE daha çok bellek erişimi odaklı, bu yüzden MAC ile bellek arasında dengesizlik oluşuyor. Sonunda yeniden chiplet yaklaşımına dönülmesi olası
Bir gün AI’ye özel PCIe genişleme kartlarının ana akım olacağı düşünülüyor
Eskinin ekran kartı ya da ses kartı gibi, yeni model çıktıkça kart değiştirip PC’nin “zekâsını” yükseltme dönemi gelebilir
Bilgi işlem tarihinde yerel ve sunucu döngüsü hep tekrarlandı ama kurum içi talep hiçbir zaman tamamen kaybolmayacak
Sonuçta AI çip yuvası olan anakartlar ya da yüksek hızlı porta takılan AI çevre birimleri ortaya çıkabilir
Apple gibi üreticilerin bu tür çipleri 3 yıl içinde doğrudan entegre edip edemeyeceği merak ediliyor. Bugünkü model seviyesinde aşırı hızlı yerel performans beklentisi var
Dijital olarak diferansiyel ve integral hesaplamakla analog olarak diferansiyel ve integral hesaplamak arasındaki farkı düşündürüyor.
LLM modeli yerine bununla metin gömme modeli yapmak daha iyi olurdu bence.
Evet, bir kez yapınca sürekli kullanılıyor.
Yapay zeka sayesinde yeni çip tasarımı ve geliştirme hızı hızlanıyorsa, bu gerçekten geleceğin kendisi olabilir gibi görünüyor. Yaklaşık 25 yıl önce donanım performansının rekabet içinde sürekli yükseldiği zamanları da hatırlatıyor.