- tinygrad, sadelik ile performansı birleştiren bir sinir ağı framework'ü olarak, en az işlem yapısıyla karmaşık modellerin uygulanmasını sağlıyor
- Buna dayanan tinybox, derin öğrenme eğitimi ve çıkarım için yüksek performanslı çevrimdışı bir yapay zeka bilgisayarı olup red, green ve exa olmak üzere üç model halinde sunuluyor
- Üst seviye model green v2 blackwell, 4 adet RTX PRO 6000 GPU ile 3086 TFLOPS performans sunuyor ve $65,000 fiyatla hemen teslim edilebiliyor
- En üst düzey exabox, yaklaşık 1 EXAFLOP performansı hedefliyor, 2027'de çıkması planlanıyor ve yaklaşık 10 milyon dolar fiyat bandında yer alıyor
- Üretici tiny corp, petaflop'u ticarileştirme ve herkes için yapay zekayı hayata geçirme hedefiyle hareket ediyor
tinygrad genel bakış
- tinygrad, sadelik ve performansa odaklanan bir sinir ağı framework'ü ve hızla büyüyen bir proje
- Karmaşık ağları yalnızca 3 tür OpType ile oluşturuyor: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps, 1 ila 3 tensör üzerinde eleman bazlı işlemler yapıyor; SQRT, LOG2, ADD, MUL, WHERE gibi işlemleri içeriyor
- ReduceOps, tek bir tensörü girdi olarak alıp daha küçük bir tensör döndürüyor; SUM, MAX gibi işlemler bulunuyor
- MovementOps, veriyi kopyalamadan taşıyan sanal işlemler olup ShapeTracker kullanarak RESHAPE, PERMUTE, EXPAND gibi işlemleri gerçekleştiriyor
- CONV veya MATMUL işlemlerinin nasıl uygulandığı doğrudan kod içinde görülebiliyor
tinybox ürün serisi
- tinybox, derin öğrenme için yüksek performanslı bir bilgisayar olup red, green, exa olmak üzere üç modelden oluşuyor
- Her modelin başlıca teknik özellikleri şöyle
-
red v2
- GPU: 4x 9070XT
- FP16(FP32 acc) performans: 778 TFLOPS
- GPU RAM: 64GB, bant genişliği 2560 GB/s
- CPU: 32 çekirdekli AMD EPYC
- Sistem RAM: 128GB, bant genişliği 204.8 GB/s
- Disk: 2TB NVMe, okuma hızı 7.3 GB/s
- Ağ: 2x 1GbE + OCP3.0
- Güç: 1600W
- Gürültü: 50dB altı
- Fiyat: $12,000, hemen teslim edilebilir
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- FP16(FP32 acc) performans: 3086 TFLOPS
- GPU RAM: 384GB, bant genişliği 7168 GB/s
- CPU: 32 çekirdekli AMD GENOA
- Sistem RAM: 192GB, bant genişliği 460.8 GB/s
- Disk: 4TB RAID + 1TB boot sürücüsü, okuma hızı 59.3 GB/s
- Ağ: 2x 10GbE + OCP3.0
- Güç: 2x 1600W
- Gürültü: 65dB (10m mesafeden)
- Fiyat: $65,000, hemen teslim edilebilir
-
exabox
- GPU: 720x RDNA5 AT0 XL
- FP16(FP32 acc) performans: yaklaşık 1 EXAFLOP
- GPU RAM: 25,920GB, bant genişliği 1244 TB/s
- CPU: 120x 32 çekirdekli AMD GENOA
- Sistem RAM: 23,040GB, bant genişliği 55.2 TB/s
- Disk: 480TB RAID, okuma hızı 7.1 TB/s
- Ağ: PCIe5 3.2 TB/s genişleme desteği
- Güç: 600kW
- Boyut: 20x8x8.5 ft, ağırlık 20,000 lbs
- Planlanan çıkış: 2027, tahmini fiyat yaklaşık $10M
- Tüm modeller Ubuntu 24.04 işletim sistemini kullanıyor ve bağımsız ya da rack-mount olarak kurulabiliyor
- Ürün ve stok güncellemeleri mailing list üzerinden paylaşılıyor
SSS
-
tinybox genel bakış
-
Derin öğrenme için yüksek performanslı bir bilgisayar** olup** fiyat/performans oranı çok yüksek
- MLPerf Training 4.0 benchmark'ında 10 kat daha pahalı sistemlerle karşılaştırmalı test edildi
- Yalnızca eğitim değil, çıkarım (inference) da yapılabiliyor
-
Sipariş ve teslimat
- Web sitesinden sipariş verilebiliyor ve ödeme sonrası 1 hafta içinde gönderim yapılıyor
- San Diego'dan yerinde teslim alma veya dünya geneline gönderim destekleniyor
-
Özelleştirme ve ödeme
-
Fiyat ve kaliteyi korumak için özelleştirme yapılamıyor
-
tinygrad kullanım alanları
- openpilot içinde Snapdragon 845 GPU tabanlı sürüş modelini çalıştırmak için kullanılıyor
- Qualcomm SNPE yerine geçiyor; daha hızlı, ONNX yükleme, eğitim desteği ve attention özelliği sunuyor
-
Özellikler ve performans
- Yalnızca inference için değildir; autodiff tabanlı forward/backward pass desteği sunar
- PyTorch benzeri bir API sağlar ama yapısı daha sadedir
- Alfa sürümündedir; kararlılığı düşük olsa da son dönemde görece daha stabil hale geldi
- PyTorch'tan 2 kat hızlı makale yeniden üretimi mümkün olduğunda alfa aşamasından çıkılması planlanıyor
- Hız artışı nedenleri
- Her işlem için özel kernel derleme ile şekle göre optimizasyon
- lazy tensor yapısıyla işlemleri agresif biçimde fusion etme
- Sade backend sayesinde kernel optimizasyonunda genel performans artışı
-
Geliştirme ve topluluk
- Geliştirme GitHub ve Discord üzerinde sürüyor
- tinygrad katkıları (PR), işe alım ve yatırım katılımı için başlıca yollardan biri sayılıyor
- tiny corp'un hedefi, petaflop'u ticarileştirmek ve herkes için yapay zekayı hayata geçirmek
1 yorum
Hacker News yorumları
Bu web sitesi AI yerine insan eliyle yapılmış gibi bir his verdiği için ironik geldi
Tasarımı ve yazıların tonu çok insani
Yine de fikir harika ve bu tür yerelde eğitilen modellerin büyük şirket modellerine bağımlılığı azaltan bir gelecek olacağını düşünüyorum
Yalnız 240V devreye doğrudan bağlanabilse iyi olurdu. İki adet 120V devre bulmak epey zahmetli
Sanırım bunun nedeni sektör insanlarının sinyali gürültüden ayırma konusunda hassas olması
Muhtemelen düşük kaliteli PR hacmi, bunları nazikçe görmezden gelebilecek kadar düşük olduğu için nasıl üretildiği önemli değil
Temel modelin 12 bin dolar olması fazla pahalı
Ben Apple M3 Max (128GB RAM) ile 120B parametreli modeli 80W güçte saniyede 15–20 token hızında çalıştırıyorum
Kusursuz değil ama 12 bin dolarlık ekipmandan daha iyi hissettiriyor
Onlarla
gpt-oss-120b Q8’i saniyede yaklaşık 30 token hızında çalıştırabiliyorsunred v2’nin 120B modeli düzgün şekilde çalıştırması mümkün görünmüyorBen çift A100 AI homelab kurdum; 80GB VRAM’i NVLink ile birleştirdim
120B model güçlü kuantizasyon olmadan mümkün değil ve o seviyede model kararsızlaşıyor
KV cache alanı da yetmiyor, yaklaşık 4k context civarında OOM veriyor
Şu anda 70B modeli çalıştırmak bile sınırda. Benim sistemimde
red v2’den 16GB daha fazla VRAM varÜstelik neden 12U olduğunu da anlamıyorum. Benim rig’im 4U
green v2tarafında GPU daha iyi ama 65 bin dolarsa CPU ve RAM’in de çok daha iyi olması gerekirdiVarlığına seviniyorum ama açıkçası bileşen oranlarını anlamıyorum
Ben
Epyc Milankutudagpt-oss-120b Q4’ü RAM ve GPU arasında bölerek çalıştırıyorum ve saniyede yaklaşık 30–50 token alıyorum64G VRAM / 128G RAM yapılandırması verimsiz. MoE modellerinde de router için yaklaşık 20B yetiyor, geri kalan VRAM boşa gidiyor
Muhtemel yanıt şu olurdu: “Fiyatı düşük tutup kaliteyi korumak için sunucu boyutu özelleştirmesi sunmuyoruz.”
red v2’den daha iyi ROI sağlayacağını düşünüyorumBen 8 GPU’lu bir sunucu kullanıyorum (5
RTX 8000, 3RTX 6000 Ada) ve temel inference için 8000 de yeterligreenmodel daha hızlı olurdu ama fazladan 25 bin dolarlık maliyet ikna edici değilBlackwell 6000’den daha ucuza mı geldiğini merak ediyorum4 adet
Blackwell 600032–36 bin dolar civarında, kalan 30 bin doların nereye gittiğini anlamıyorumBazı yerel AI framework’leri, VRAM’in yalnızca bir kısmını cache olarak kullanan LRU politikalarını destekliyor; bu yüzden ek yük yönetilebilir olabilir
exaboxilginç görünüyorKimin müşteri olacağını merak ediyorum. Vera Rubin tanıtımını gördükten sonra NVIDIA ile hyperscale pazarında rekabet etmeye çalıştıklarını hayal bile edemiyorum
Muhtemelen fiyat/performansa bakan ML girişimlerini hedefliyorlar
Fiyatlara bakınca gerçekten de Vera Rubin’e göre benzer GPU RAM seviyesinde yarı fiyat görünüyor
Tabii NV’nin interconnect kalitesine yaklaşamaz
Yine de bunu kimin alacağını bilmiyorum. NV zaten sevkiyata başlamış durumda
O nişe oynanırsa rekabet mümkün. Pazar payı %0,01’in altındaysa büyük şirketler de pek umursamaz
exaboxilginç” yorumuna şaka olarak “Crysis çalıştırıyor mu” diye yanıt verilmişBu yeni bir kripto madencisi türü mü diye düşündüm
Eskiden madencilik donanımı satıyorlardı, şimdi de AI için satıyorlar gibi hissettiriyor
Tinybox hoş ama pazar muhtemelen “Kimi 2.5’i saniyede 50 token ile çalıştırır” gibi açık performans garantili ürünleri daha çok isteyecektir
Decoy effect kavramını hatırlatıyor
Bu ekipmanda soğutmanın nasıl yapıldığını merak ediyorum
tinygrad’ın “
pytorch’dan 2 kat hızlı olduğunda alfadan çıkar” şartı konusundapytorch’un hangi iş yüklerinde donanıma göre 2 kattan fazla yavaş kaldığını somut olarak açıklamak gerekirÇoğu makale standart bileşenler kullanıyor ve
pytorchzaten GPU performansının %50’sinden fazlasını çıkarabiliyorEğer performans ancak özel kernel yazarak alınabiliyorsa, bu başka bir mesele
Neden 6 GPU yapılandırmasını bıraktıklarını anlamıyorum
4 GPU (
9070,RTX6000) 2 slot tasarım olduğu için standart anakartla da kurulabiliyor6 GPU tarafında riser, PCIe retimer, çift PSU ve özel kasa gerekiyor, yani daha karmaşık
Ama buna rağmen fiyat/performansın daha iyi olduğunu düşünüyorum