6 puan yazan GN⁺ 2026-03-22 | 1 yorum | WhatsApp'ta paylaş
  • tinygrad, sadelik ile performansı birleştiren bir sinir ağı framework'ü olarak, en az işlem yapısıyla karmaşık modellerin uygulanmasını sağlıyor
  • Buna dayanan tinybox, derin öğrenme eğitimi ve çıkarım için yüksek performanslı çevrimdışı bir yapay zeka bilgisayarı olup red, green ve exa olmak üzere üç model halinde sunuluyor
  • Üst seviye model green v2 blackwell, 4 adet RTX PRO 6000 GPU ile 3086 TFLOPS performans sunuyor ve $65,000 fiyatla hemen teslim edilebiliyor
  • En üst düzey exabox, yaklaşık 1 EXAFLOP performansı hedefliyor, 2027'de çıkması planlanıyor ve yaklaşık 10 milyon dolar fiyat bandında yer alıyor
  • Üretici tiny corp, petaflop'u ticarileştirme ve herkes için yapay zekayı hayata geçirme hedefiyle hareket ediyor

tinygrad genel bakış

  • tinygrad, sadelik ve performansa odaklanan bir sinir ağı framework'ü ve hızla büyüyen bir proje
  • Karmaşık ağları yalnızca 3 tür OpType ile oluşturuyor: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps, 1 ila 3 tensör üzerinde eleman bazlı işlemler yapıyor; SQRT, LOG2, ADD, MUL, WHERE gibi işlemleri içeriyor
    • ReduceOps, tek bir tensörü girdi olarak alıp daha küçük bir tensör döndürüyor; SUM, MAX gibi işlemler bulunuyor
    • MovementOps, veriyi kopyalamadan taşıyan sanal işlemler olup ShapeTracker kullanarak RESHAPE, PERMUTE, EXPAND gibi işlemleri gerçekleştiriyor
  • CONV veya MATMUL işlemlerinin nasıl uygulandığı doğrudan kod içinde görülebiliyor

tinybox ürün serisi

  • tinybox, derin öğrenme için yüksek performanslı bir bilgisayar olup red, green, exa olmak üzere üç modelden oluşuyor
  • Her modelin başlıca teknik özellikleri şöyle
    • red v2

      • GPU: 4x 9070XT
      • FP16(FP32 acc) performans: 778 TFLOPS
      • GPU RAM: 64GB, bant genişliği 2560 GB/s
      • CPU: 32 çekirdekli AMD EPYC
      • Sistem RAM: 128GB, bant genişliği 204.8 GB/s
      • Disk: 2TB NVMe, okuma hızı 7.3 GB/s
      • Ağ: 2x 1GbE + OCP3.0
      • Güç: 1600W
      • Gürültü: 50dB altı
      • Fiyat: $12,000, hemen teslim edilebilir
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • FP16(FP32 acc) performans: 3086 TFLOPS
      • GPU RAM: 384GB, bant genişliği 7168 GB/s
      • CPU: 32 çekirdekli AMD GENOA
      • Sistem RAM: 192GB, bant genişliği 460.8 GB/s
      • Disk: 4TB RAID + 1TB boot sürücüsü, okuma hızı 59.3 GB/s
      • Ağ: 2x 10GbE + OCP3.0
      • Güç: 2x 1600W
      • Gürültü: 65dB (10m mesafeden)
      • Fiyat: $65,000, hemen teslim edilebilir
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • FP16(FP32 acc) performans: yaklaşık 1 EXAFLOP
      • GPU RAM: 25,920GB, bant genişliği 1244 TB/s
      • CPU: 120x 32 çekirdekli AMD GENOA
      • Sistem RAM: 23,040GB, bant genişliği 55.2 TB/s
      • Disk: 480TB RAID, okuma hızı 7.1 TB/s
      • Ağ: PCIe5 3.2 TB/s genişleme desteği
      • Güç: 600kW
      • Boyut: 20x8x8.5 ft, ağırlık 20,000 lbs
      • Planlanan çıkış: 2027, tahmini fiyat yaklaşık $10M
      • Tüm modeller Ubuntu 24.04 işletim sistemini kullanıyor ve bağımsız ya da rack-mount olarak kurulabiliyor
      • Ürün ve stok güncellemeleri mailing list üzerinden paylaşılıyor

SSS

  • tinybox genel bakış

    • Derin öğrenme için yüksek performanslı bir bilgisayar** olup** fiyat/performans oranı çok yüksek

      • MLPerf Training 4.0 benchmark'ında 10 kat daha pahalı sistemlerle karşılaştırmalı test edildi
      • Yalnızca eğitim değil, çıkarım (inference) da yapılabiliyor
  • Sipariş ve teslimat

    • Web sitesinden sipariş verilebiliyor ve ödeme sonrası 1 hafta içinde gönderim yapılıyor
    • San Diego'dan yerinde teslim alma veya dünya geneline gönderim destekleniyor
  • Özelleştirme ve ödeme

    • Fiyat ve kaliteyi korumak için özelleştirme yapılamıyor

  • tinygrad kullanım alanları

    • openpilot içinde Snapdragon 845 GPU tabanlı sürüş modelini çalıştırmak için kullanılıyor
    • Qualcomm SNPE yerine geçiyor; daha hızlı, ONNX yükleme, eğitim desteği ve attention özelliği sunuyor
  • Özellikler ve performans

    • Yalnızca inference için değildir; autodiff tabanlı forward/backward pass desteği sunar
    • PyTorch benzeri bir API sağlar ama yapısı daha sadedir
    • Alfa sürümündedir; kararlılığı düşük olsa da son dönemde görece daha stabil hale geldi
    • PyTorch'tan 2 kat hızlı makale yeniden üretimi mümkün olduğunda alfa aşamasından çıkılması planlanıyor
    • Hız artışı nedenleri
      • Her işlem için özel kernel derleme ile şekle göre optimizasyon
      • lazy tensor yapısıyla işlemleri agresif biçimde fusion etme
      • Sade backend sayesinde kernel optimizasyonunda genel performans artışı
  • Geliştirme ve topluluk

    • Geliştirme GitHub ve Discord üzerinde sürüyor
    • tinygrad katkıları (PR), işe alım ve yatırım katılımı için başlıca yollardan biri sayılıyor
    • tiny corp'un hedefi, petaflop'u ticarileştirmek ve herkes için yapay zekayı hayata geçirmek

1 yorum

 
GN⁺ 2026-03-22
Hacker News yorumları
  • Bu web sitesi AI yerine insan eliyle yapılmış gibi bir his verdiği için ironik geldi
    Tasarımı ve yazıların tonu çok insani
    Yine de fikir harika ve bu tür yerelde eğitilen modellerin büyük şirket modellerine bağımlılığı azaltan bir gelecek olacağını düşünüyorum
    Yalnız 240V devreye doğrudan bağlanabilse iyi olurdu. İki adet 120V devre bulmak epey zahmetli

    • AI ile ilgili yazılar arasında gerçekten saygı görenlerin çoğunda AI tarafından yazıldığına dair neredeyse hiç iz yok
      Sanırım bunun nedeni sektör insanlarının sinyali gürültüden ayırma konusunda hassas olması
    • Kod katkılarını “Invest with your PRs” diyerek herkese açık şekilde toplarken AI üretimi kodla ilgili bir politika olmaması tuhaf geldi
      Muhtemelen düşük kaliteli PR hacmi, bunları nazikçe görmezden gelebilecek kadar düşük olduğu için nasıl üretildiği önemli değil
    • 65 bin dolarlık ekipman alan biri için iki devre bulmak küçük bir sorun gibi duruyor
    • Aslında ABD’deki 240V devreler iki adet 120V hattın birleştirilmiş hali olduğu için yeniden kablolama zor değil
  • Temel modelin 12 bin dolar olması fazla pahalı
    Ben Apple M3 Max (128GB RAM) ile 120B parametreli modeli 80W güçte saniyede 15–20 token hızında çalıştırıyorum
    Kusursuz değil ama 12 bin dolarlık ekipmandan daha iyi hissettiriyor

    • M3 Max’in tflops performansı 12k’lık kutuyla kıyaslanamayacak kadar düşük
    • Bu tür ekipmanlar enayiler için. Geçen yıl 160GB VRAM’i 1.000 dolara aldım, 96GB P40 VRAM de 1.000 doların altında
      Onlarla gpt-oss-120b Q8’i saniyede yaklaşık 30 token hızında çalıştırabiliyorsun
  • red v2’nin 120B modeli düzgün şekilde çalıştırması mümkün görünmüyor
    Ben çift A100 AI homelab kurdum; 80GB VRAM’i NVLink ile birleştirdim
    120B model güçlü kuantizasyon olmadan mümkün değil ve o seviyede model kararsızlaşıyor
    KV cache alanı da yetmiyor, yaklaşık 4k context civarında OOM veriyor
    Şu anda 70B modeli çalıştırmak bile sınırda. Benim sistemimde red v2’den 16GB daha fazla VRAM var
    Üstelik neden 12U olduğunu da anlamıyorum. Benim rig’im 4U
    green v2 tarafında GPU daha iyi ama 65 bin dolarsa CPU ve RAM’in de çok daha iyi olması gerekirdi
    Varlığına seviniyorum ama açıkçası bileşen oranlarını anlamıyorum

    • Performans fena değil ama çılgın seviyede de değil
      Ben Epyc Milan kutuda gpt-oss-120b Q4’ü RAM ve GPU arasında bölerek çalıştırıyorum ve saniyede yaklaşık 30–50 token alıyorum
      64G VRAM / 128G RAM yapılandırması verimsiz. MoE modellerinde de router için yaklaşık 20B yetiyor, geri kalan VRAM boşa gidiyor
    • 12U olmasının sebebi muhtemelen tek kasa SKU kullanmalarıdır
      Muhtemel yanıt şu olurdu: “Fiyatı düşük tutup kaliteyi korumak için sunucu boyutu özelleştirmesi sunmuyoruz.”
    • Açıkçası iki adet RTX 8000’in red v2’den daha iyi ROI sağlayacağını düşünüyorum
      Ben 8 GPU’lu bir sunucu kullanıyorum (5 RTX 8000, 3 RTX 6000 Ada) ve temel inference için 8000 de yeterli
      green model daha hızlı olurdu ama fazladan 25 bin dolarlık maliyet ikna edici değil
    • Bunun Blackwell 6000’den daha ucuza mı geldiğini merak ediyorum
      4 adet Blackwell 6000 32–36 bin dolar civarında, kalan 30 bin doların nereye gittiğini anlamıyorum
    • KV’yi sistem RAM’ine ya da depolamaya offload ederek daha uzun context kullanılamaz mı diye düşünüyorum
      Bazı yerel AI framework’leri, VRAM’in yalnızca bir kısmını cache olarak kullanan LRU politikalarını destekliyor; bu yüzden ek yük yönetilebilir olabilir
  • exabox ilginç görünüyor
    Kimin müşteri olacağını merak ediyorum. Vera Rubin tanıtımını gördükten sonra NVIDIA ile hyperscale pazarında rekabet etmeye çalıştıklarını hayal bile edemiyorum
    Muhtemelen fiyat/performansa bakan ML girişimlerini hedefliyorlar
    Fiyatlara bakınca gerçekten de Vera Rubin’e göre benzer GPU RAM seviyesinde yarı fiyat görünüyor
    Tabii NV’nin interconnect kalitesine yaklaşamaz
    Yine de bunu kimin alacağını bilmiyorum. NV zaten sevkiyata başlamış durumda

    • Büyük şirketlerin altyapısı çoğu zaman 5 yıldan daha eski olduğu için, yükseltme maliyeti çok yüksek ve kolayca değiştirilemiyor
      O nişe oynanırsa rekabet mümkün. Pazar payı %0,01’in altındaysa büyük şirketler de pek umursamaz
    • exabox ilginç” yorumuna şaka olarak “Crysis çalıştırıyor mu” diye yanıt verilmiş
  • Bu yeni bir kripto madencisi türü mü diye düşündüm
    Eskiden madencilik donanımı satıyorlardı, şimdi de AI için satıyorlar gibi hissettiriyor

    • Benziyor ama farkı, ödül bloğu olmaması
  • Tinybox hoş ama pazar muhtemelen “Kimi 2.5’i saniyede 50 token ile çalıştırır” gibi açık performans garantili ürünleri daha çok isteyecektir

  • Decoy effect kavramını hatırlatıyor

  • Bu ekipmanda soğutmanın nasıl yapıldığını merak ediyorum

  • tinygrad’ın “pytorch’dan 2 kat hızlı olduğunda alfadan çıkar” şartı konusunda
    pytorch’un hangi iş yüklerinde donanıma göre 2 kattan fazla yavaş kaldığını somut olarak açıklamak gerekir
    Çoğu makale standart bileşenler kullanıyor ve pytorch zaten GPU performansının %50’sinden fazlasını çıkarabiliyor
    Eğer performans ancak özel kernel yazarak alınabiliyorsa, bu başka bir mesele

  • Neden 6 GPU yapılandırmasını bıraktıklarını anlamıyorum
    4 GPU (9070, RTX6000) 2 slot tasarım olduğu için standart anakartla da kurulabiliyor
    6 GPU tarafında riser, PCIe retimer, çift PSU ve özel kasa gerekiyor, yani daha karmaşık
    Ama buna rağmen fiyat/performansın daha iyi olduğunu düşünüyorum