Taalas’ın LLM’yi çipin üstüne ‘basma’ yöntemi

(anuragk.com)

23 puan yazan GN⁺ 2026-02-23 | 5 yorum | WhatsApp'ta paylaş

Taalas, Llama 3.1 8B modelini doğrudan ASIC çipine işleyerek saniyede 17.000 token çıkarım hızına ulaştığını söyleyen bir startup
GPU tabanlı sistemlere göre 10 kat daha ucuz, 10 kat daha az güç tüketen ve 10 kat daha hızlı çıkarım performansı sunduğunu iddia ediyor
Modelin ağırlıklarını doğrudan silikon transistörlere işleyen bir mimariyle, GPU’lardaki bellek darboğazını ortadan kaldırıyor
Harici DRAM/HBM olmadan, çip içindeki SRAM ile KV cache ve LoRA adaptörlerini işliyor
Model başına çip üretiminde yalnızca üstteki iki katmanı özelleştiren bir yöntem kullanarak, Llama 3.1 için çipi 2 ayda tamamladı

Taalas çipine genel bakış

Taalas, 2,5 yıllık bir şirket ve bu çip ilk ürünü
Çip, sabit işlevli bir ASIC; yalnızca tek bir modeli depolayabiliyor ve yeniden yazılamıyor
- CD-ROM ya da oyun kartuşu gibi tek modele adanmış bir yapıya sahip

GPU tabanlı LLM çıkarımındaki verimsizlik

LLM’ler birden çok katmandan (layer) oluşur; örneğin Llama 3.1 8B, 32 katmana sahip
GPU, her katmanın ağırlık matrisini VRAM’den yükleyip hesaplama yaptıktan sonra tekrar kaydeder
- Her token üretilirken bu sürecin 32 kez tekrarlanması gerekir
Bu bellek gidiş gelişleri gecikme ve enerji tüketimi yaratır; buna bellek bant genişliği darboğazı ya da Von Neumann darboğazı denir

Taalas’ın ‘hardwired’ yaklaşımı

Taalas, Llama 3.1’in 32 katmanını sıralı biçimde silikonun üzerine işliyor
- Modelin ağırlıkları fiziksel transistörler olarak uygulanıyor
Girdi vektörü geldiğinde, her katmanın transistörlerinden geçerek elektrik sinyali biçiminde kesintisiz işleniyor
- Ara sonuçlar VRAM’e kaydedilmeden, bağlantılar (pipeline registers) üzerinden doğrudan bir sonraki katmana aktarılıyor
Şirket, 4 bit veri depolama ve çarpma işlemini tek bir transistörle gerçekleştiren ‘magic multiplier’ adlı bir yapı geliştirdiğini söylüyor

Bellek yapısı

Harici DRAM/HBM kullanılmıyor; bunun yerine çip içinde az miktarda SRAM bulunuyor
- Çünkü DRAM ile mantık kapılarını aynı üretimde birleştirmek zor
Bu çip içi SRAM, KV cache (konuşma sırasında geçici bellek) ve LoRA adaptörlerini saklamak için kullanılıyor

Model başına çip üretim yöntemi

Her model için çipi yeniden üretmek normalde yüksek maliyetli
Taalas, temel çip yapısını ortak tasarlayıp, belirli modele göre yalnızca üstteki iki katmanı (mask) değiştiriyor
- Bu, tamamen yeni bir çip üretmekten çok daha hızlı bir yöntem
Llama 3.1 8B için çip geliştirme yaklaşık 2 ay sürdü
- Yapay zeka sektörü ölçüsünde yavaş olsa da, özel çip üretim hızı açısından oldukça hızlı

Geleceğe dair beklenti

GPU olmadan yerel model çalıştıran kullanıcılar açısından, bu tür donanımların seri üretimi umut veriyor

5 yorum

GN⁺ 2026-02-23

Hacker News yorumları

8B katsayı (coefficients) 53B transistöre paketlenmiş. Katsayı başına yaklaşık 6,5 transistör kullanılıyor
Görünüşe göre blok kuantizasyonu (block quantization) kullanılmış. Örneğin 3 bitlik 4 katsayılı bloklarda yalnızca 330 farklı blok gerekir
Llama 3.1’in matrisleri 4096x4096, yani 16 milyon katsayıdan oluşuyor; bunun 330 blokla sıkıştırılabildiği düşünülüyor
Blok başına yaklaşık 250 bin transistör bütçesi varsayılırsa katsayı başına yaklaşık 5 transistör düşüyor. FP4 seviyesinde bile gayet uygulanabilir görünüyor
- PyTorch’ta model.toVHDL() gibi bir özellik gelmesini umuyorum
İnsanların bunun mümkün olmasına şaşırması asıl şaşırtıcı olan şey
GPU’nun ortaya çıkış nedeni de sonuçta yazılımsal işlemleri donanıma taşımaktı. LLM’ler de aynı matematiksel yapıya sahip olduğundan bunun doğal bir evrim olduğu düşünülüyor
- İnsanların şaşırmasının nedeni muhtemelen ROI zamanlaması. Modele özel bir çipi ne zaman tape-out etmenin kârlı olacağı asıl mesele. MoE mimarisi de bu süreçte yeni zorluklar çıkarabilir
- Bu, CPU ile GPU karşılaştırması değil, CPU/GPU ile ASIC karşılaştırması. ASIC hız, güç ve maliyet açısından avantajlı ama tasarlaması zor ve yeniden programlanamıyor. LLM gibi performansa duyarlı işlevler için ASIC uygun
- Ağırlıkları doğrudan kapılara gömme yaklaşımı gerçekten yeni. Buna “Weights to gates” demek yerinde olur
- Ama sorun düşük esneklik. Veri merkezi talebi değiştiğinde ya da yeni model çıktığında uyum sağlamak zor. Yine de drone ve savunma gibi enerji verimliliği ile hızın kritik olduğu alanlarda gerçekçi
- Nvidia’nın da kesinlikle bunun benzerlerini denediği düşünülüyor. Ticari açıdan henüz erken olsa da verimlilik odaklı AI donanımına gidiş açık
Form faktörden çok asıl yenilik gecikme (latency)
Bulut çıkarımında sırf ağ ek yükü 50~200ms iken, PCIe’ye takılan özel bir ASIC ilk token’ı mikrosaniye seviyesinde üretebilir
Gerçek zamanlı video üretimi veya 100ms altı yanıt gerektiren ajanlar için bu belirleyici. Maliyet GPU’dan yüksek olabilir ama yeni gerçek zamanlı uygulamaları mümkün kılar
- Sadece gecikme değil, bant genişliği güvenilirliği ve kontrol de önemli. Merkezi ve yerel bilgi işlem arasında hep bir çekişme vardı. Şirketler kontrol, kullanıcılar özerklik ister. Sonuçta piyasada her zaman “kendi bilgisayarımı tamamen kontrol etmek istiyorum” talebi olacaktır
- AI servislerinin gerçekte nereden sunulduğu merak ediliyor. Örneğin Londra’da Claude kullanırken isteğin nereye gittiğini bilmek zor. LLM için bir edge ağ ideal olurdu; ASIC bunu mümkün kılabilir
Gemma 5 Mini gibi modellerin yerel donanımda doğrudan çalıştığı bir gelecek heyecan verici
H.264 ya da AV1 encoder’ları gibi, belirli modellere özel “AI çekirdekleri” ortaya çıkabilir
Structured ASIC platform, yapısal ASIC çağını yeniden açarak maliyetleri de düşürebilir
- Büyük şirketlerin buna sınırlı ilgi göstermesinin iki nedeni olabilir. Birincisi, AI o kadar hızlı ilerliyor ki çip seri üretime geçtiğinde çoktan eski kalabilir. İkincisi, bulut abonelik modeli ve veri toplamaya dayalı iş yapısı, çevrimdışı çiplerle uyumlu değil
- Apple’ın buna dün başlamış olması gerektiği düşünülüyor. Telefonda ya da MacBook’ta tamamen yerel çalışan AI, asıl istenen gelecek. Bulut tabanlı AI, AOL döneminden kalma bir şey gibi duruyor
- Cerebras ve Groq gibi programlanabilir ASIC çözümleri zaten GPU’lara kıyasla kat kat hızlı olsa da piyasadan sınırlı karşılık görüyor
Bu, sanki CD-ROM ya da oyun kartuşu gibi tek bir modeli taşıyan çipleri düşündürüyor. Bilgisayara bir slot takıp modeli değiştirmek gibi
- O slot fiilen USB-C olurdu. Powerbank formunda bir çıkarım ASIC’i takıp kullanmak hayal ediliyor
- Eski eGPU’lar gibi masanın altında duran yerel model cihazı isteniyor. Tamamen çevrimdışı, tam gizlilik
- Böyle bir donanım open-weight modelleri teşvik eder ve gizliliği güçlendirir. Robotların işe göre model kartuşu değiştirdiği bir donanım MoE bile mümkün olabilir
- Modele özel kartuşlar performans/güç verimliliğinde çok daha iyi olabilir. Ama tüketici tarafında ekonomik olup olmayacağı belirsiz
- Güç tüketimi belirleyici değişken. Ev kullanımı için 2,5W’ta saniyede 170 token harika olurdu. Bu tür gelişmeler bir gün pozitronik beyin fikrine bile uzanabilir
Eğer ASIC’i ucuza basmak mümkün olursa model kullanım biçimi tamamen değişir
Modeller USB aygıtı olarak satılır ve 20 milyarın altındaki dense modeller kişisel asistan için yeterli olur
Bu, adeta ekran kartının yeniden doğuşu gibi. Artık çok sayıda open-weight model varken, düşük satın alma ve işletme maliyetiyle büyük bir pazar açılabilir
MoE mimarisinde bunun nasıl işleyeceği merak ediliyor
Dense LLM’lerde tüm ağırlıkları yakın tutmak avantajlı ama MoE daha çok bellek erişimi odaklı, bu yüzden MAC ile bellek arasında dengesizlik oluşuyor. Sonunda yeniden chiplet yaklaşımına dönülmesi olası
- Google’ın TPUv4’ü, Optical Circuit Switch ile 3D torus yapısı kurup MoE iletişim desenlerine göre dinamik yeniden kablolama yapıyor. 4.096 çipi tek bir pod içinde bağlıyor ve SparseCore ile kesintili bellek erişimini ele alıyor. Bu veri merkezi ölçeğinde bir konu ama ölçeklenebilirlik örneği olarak ilginç
- Her Expert modelini silikona işlemek hızı muazzam artırırdı. Sonuçta en büyük kısıt ASIC basım maliyeti
Bir gün AI’ye özel PCIe genişleme kartlarının ana akım olacağı düşünülüyor
Eskinin ekran kartı ya da ses kartı gibi, yeni model çıktıkça kart değiştirip PC’nin “zekâsını” yükseltme dönemi gelebilir
- Bu yön neredeyse kaçınılmaz bir evrim gibi görünüyor. Önce devletler ve büyük şirketler talep eder, sonra tüketici pazarına yayılır.
  Bilgi işlem tarihinde yerel ve sunucu döngüsü hep tekrarlandı ama kurum içi talep hiçbir zaman tamamen kaybolmayacak
Sonuçta AI çip yuvası olan anakartlar ya da yüksek hızlı porta takılan AI çevre birimleri ortaya çıkabilir
Apple gibi üreticilerin bu tür çipleri 3 yıl içinde doğrudan entegre edip edemeyeceği merak ediliyor. Bugünkü model seviyesinde aşırı hızlı yerel performans beklentisi var
- Modeli modüler bellek güncellemeleri (diff) ile güncellemek mümkün olur mu? Performans kaybının ne kadar olacağı merak ediliyor
- Ama 3 yıl boyunca eskimiş bir modeli çalıştırmanın anlamı olmayabilir. İlerleme hızı çok yüksek

dolsangodkimchi 2026-03-04

Dijital olarak diferansiyel ve integral hesaplamakla analog olarak diferansiyel ve integral hesaplamak arasındaki farkı düşündürüyor.

chcv0313 2026-03-04

LLM modeli yerine bununla metin gömme modeli yapmak daha iyi olurdu bence.

bungker 2026-03-04

Evet, bir kez yapınca sürekli kullanılıyor.

parkindani 2026-02-23

Yapay zeka sayesinde yeni çip tasarımı ve geliştirme hızı hızlanıyorsa, bu gerçekten geleceğin kendisi olabilir gibi görünüyor. Yaklaşık 25 yıl önce donanım performansının rekabet içinde sürekli yükseldiği zamanları da hatırlatıyor.