3 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Jalapeño, LLM çıkarımına (inference) odaklanan bir hızlandırıcı ve Broadcom ile birlikte geliştirilen çok nesilli bir hesaplama platformunun ilk ürünü
  • Tasarım başlangıcından üretim tape-out aşamasına kadar yalnızca 9 ay sürdü; bunun, yüksek performanslı ileri yarı iletkenlerde şimdiye kadarki en hızlı ASIC geliştirme döngüsü olduğu düşünülüyor
  • İlk testlerde genel amaçlı AI GPU’larına kıyasla yaklaşık %50 maliyet tasarrufu sağlandı; watt başına performans da mevcut en ileri çözümlerden belirgin biçimde daha iyi
  • Çip mimarisinden kernel, bellek ve ağ katmanına kadar her şeyi doğrudan tasarlayan full-stack stratejisinin bir parçası olarak, Nvidia GPU bağımlılığını azaltmayı ve bir yazılım şirketinin ötesine geçip AI altyapı sağlayıcısına dönüşmeyi hedefliyor
  • 2026 sonundan itibaren Microsoft gibi iş ortaklarıyla birlikte gigawatt ölçekli veri merkezlerine konuşlandırılması planlanıyor; 1 trilyon dolarlık IPO öncesinde kârlılığı kanıtlama baskısı altında bu adımın önemi artıyor

Jalapeño çipi tanıtıldı

  • Çarşamba günü OpenAI ve Broadcom (NASDAQ: AVGO), OpenAI’nin ilk Intelligence Processor’ü Jalapeño’yu tanıttı
  • Bu hızlandırıcı, LLM çıkarımının geleceği hedeflenerek tasarlandı ve iki şirketin birlikte geliştirdiği çok nesilli hesaplama platformunun ilk AI hızlandırıcısı oldu
  • Broadcom Yönetim Kurulu Başkanı ve CEO’su Hock Tan ile Başkan Charlie Kawwas, çip örneklerini bizzat OpenAI CEO’su Sam Altman ve Başkan Greg Brockman’a teslim etti
  • Bu, tüketici ürünlerinin ötesine geçerek AI altyapı sağlayıcısı olmayı amaçlayan OpenAI stratejisinde önemli bir adım

Çip yapısı ve performansı

  • Jalapeño, mevcut AI iş yükü hızlandırıcılarının uyarlanmış bir genel amaçlı sürümü değil; modern LLM çıkarımı için sıfırdan (blank-slate) tasarlanmış bir çip
  • Belirli AI görevlerine göre tasarlanabilen bir ASIC olarak, Nvidia GPU’lardan daha az esnek ama daha düşük maliyetli
  • Performans ve verimlilik

    • İlk testlerde genel amaçlı AI GPU’larına kıyasla yaklaşık %50 maliyet tasarrufu sağlandı (Hock Tan röportajı)
    • Nihai performans hâlâ ölçülüyor, ancak watt başına performansın mevcut en ileri düzeye kıyasla büyük ölçüde iyileştiği belirtiliyor
    • Veri hareketini azaltıp işlem, bellek ve ağ kaynakları arasındaki dengeyi kurarak, gerçek kullanım oranını teorik azami performansa yaklaştırıyor
    • Paylaşılan çip görselinde 8 HBM alanı ve ortada bir hesaplama kalıbı görülebiliyor
  • Çalışma doğrulaması

    • Mühendislik örnekleri, seri üretim hedef frekans ve güç seviyelerinde ML iş yüklerini çalıştırıyor; bunlar arasında GPT‑5.3‑Codex‑Spark da bulunuyor
    • Ayrıntılı teknik raporun önümüzdeki birkaç ay içinde yayımlanması bekleniyor
    • Broadcom’un silikon uygulaması ve Tomahawk ağ silikonları, büyük ölçekli üretimi destekliyor

9 ayda tape-out, OpenAI modelleri geliştirmeyi hızlandırdı

  • İlk tasarımdan üretim tape-out aşamasına kadar ortak geliştirme yalnızca 9 ay sürdü; bunun, yüksek performanslı ileri yarı iletkenlerde şimdiye kadarki en hızlı ASIC geliştirme döngüsü olduğu düşünülüyor
  • Tasarım ve optimizasyon sürecinin bir bölümünde OpenAI’nin kendi modelleri kullanıldı; Brockman, bu modellerin geliştirmeyi ne kadar hızlandırdığının “şaşırtıcı” olduğunu söyledi
  • Kullanıcılara sunulan aynı modeller, gelecekte modelleri çalıştıran altyapının iyileştirilmesine de katkı sağlayacak
  • Eğer AI, mühendislerin çipleri daha hızlı tasarlamasına yardımcı olursa, bu durum sektör genelinde hesaplama maliyetlerinin düşmesine ve gelişmiş AI’ye erişimin artmasına yol açabilir

Çok nesilli platform ve iş ortakları

  • Jalapeño, 2026 sonundaki ilk dağıtımı hedefleyen ve sonraki yıllarda genişleyecek çok nesilli hesaplama platformunun ilk adımı
  • İş birliği yapısı

    • OpenAI — hızlandırıcı tasarımı, LLM temellerine dair derin uzmanlık
    • Broadcom — çip gerçekleştirme, ağ ve bağlantı teknolojileri
    • Celestica — kart, raf ve sistem entegrasyonu uzmanlığı
  • Geçen yıl OpenAI ve Broadcom, 10 gigawatt ölçekli hesaplama için özel çip geliştirme planlarını duyurmuştu; bu tanıtım da o planın ilk çipini ortaya koyuyor
  • Patlayıcı talep

    • Broadcom CEO’su Hock Tan, bunun 2026’dan itibaren Microsoft gibi iş ortaklarıyla gigawatt ölçekli veri merkezleri kurulumunu mümkün kılacağını söyledi; 2026 sonunda küçük ölçekli prototiplerin ardından genişleme planlanıyor
    • Brockman, “yeterince hızlı biçimde yeterli hesaplama gücü elde edemiyoruz” derken, Tan 6 müşteriden gelen talebin “kelimenin tam anlamıyla karşılanamaz düzeyde” olduğunu ve 2027–2028’de de aynı ya da daha yüksek olacağını belirtti
    • OpenAI donanım programı başkanı Richard Ho, mimarinin frontier AI modelleri için en kritik olan kernel’ler, bellek hareketi, ağ iletişimi ve serving kalıpları etrafında optimize edildiğini açıkladı

Full-stack strateji ve rekabet tablosu

  • OpenAI, frontier modeller geliştirmek ve ürünler inşa etmekle yetinmeyip, bunun altındaki altyapıyı da doğrudan tasarlıyor — buna çip mimarisi, kernel’ler, bellek sistemi, ağ, zamanlama, dağıtım sistemleri ve ürün deneyimi dâhil
  • Böylece Google (TPU), Amazon (Trainium) ve Microsoft (Azure Maia 100) gibi kendi silikonuna sahip full-stack AI şirketleri arasına katılıyor
  • Nvidia bağımlılığını azaltma

    • “Kimse Nvidia’ya bağımlı kalmak istemiyor” (Quilter Cheviot teknoloji araştırma başkanı Ben Barringer); bu da çip tedarikini çeşitlendirme eğilimini gösteriyor
    • OpenAI, Nvidia’nın en büyük müşterilerinden biri olmasının yanında AMD (Instinct MI450 serisi), Cerebras ve diğerleriyle de tedarik anlaşmaları yaptı
  • Ticari anlamı

    • Nvidia, AI veri merkezlerinin temel bileşenlerini sağlayarak dünyanın en değerli şirketi hâline gelirken, AI altyapı pazarının kâr potansiyeli de daha görünür oldu
    • Değeri 1 trilyon dolar olarak anılan bir IPO öncesindeki OpenAI için, çıkarım maliyetlerini düşürmek devasa eğitim maliyetlerini geri kazanmanın ve kârlılığı kanıtlamanın anahtarlarından biri
    • Broadcom hisseleri 2026 boyunca yükseldi ve 2022 sonuna kıyasla yaklaşık 7 kat seviyeye ulaştı; bu da iş birliğinin etkisinin fiyatlandığını gösteriyor

Gelişmiş AI’nin kitleselleşmesi

  • Çıkarım, AI’nin insanlarla buluştuğu nokta; maliyet, hız ve güvenilirlikteki iyileşmeler doğrudan daha hızlı ChatGPT yanıtları, beklemesiz Codex işleri, daha ucuz API ürünleri ve talep patlamalarında daha istikrarlı erişim anlamına geliyor
  • Gelişmiş modelleri daha fazla insanın her gün kullanabileceği kadar erişilebilir, istikrarlı ve ucuz hâle getirmek, AI’nin kitleselleşmesinin anahtarı
  • Öğrenciler, geliştiriciler, küçük işletmeler, araştırmacılar ve şirketler dâhil; öğrenmek, üretmek ve zor problemleri çözmek isteyen herkes için altyapıyı faydalı zekâya dönüştürmeye katkı sağlıyor

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • “OpenAI modeliyle tasarım ve optimizasyonu hızlandırdık” kısmı hakkında daha fazla ayrıntı görmek isterim
    Şu anki ifadeyle, sanki Microsoft Office ya da 5K LG Ultrafine 40 inç monitör sayesinde geliştirme hızlandı deniyormuş gibi bir pazarlama söylemi duruyor
    Gerçekten ima edildiği kadar büyük bir şeyse, OpenAI muhtemelen bunu çok daha güçlü vurgulardı

    • Bir çip CEO’sunun bakış açısından, “tasarım” ve “üretim”in ne anlama geldiğine göre durum tamamen değişir
      “Tasarım”ın tasarımın tamamlanması mı, “üretim”in ise üretimin başlaması yani tape-out mu olduğu belirsiz
      RTL dondurmadan tape-out’a 9 ay sürmesi, büyük ve karmaşık bir 3nm çip için oldukça sıradan; beklenmedik sorunlar da düşünülürse çok da etkileyici olmayan bir takvim
      Buna karşılık, kavram aşamasından yani RTL bile olmadan yalnızca mimari blok diyagramıyla başlanıp tape-out’a gidildiyse bu şaşırtıcı bir süre olurdu; muhtemelen gerçek durum bu ikisinin arasında bir yerde
      Daha somut bir açıklamada gerçek teknik kilometre taşları ve aşamalar kullanılmalı
    • Çip geliştirmede kullanılan donanım tanımlama dili (HDL), programlama dillerine benzer ve mevcut modeller de bunu anlayarak epey iş yapabiliyor
      Çip tasarım iş akışında büyük dil modellerini kullanmak için mutlaka ayrı bir özelleşmiş modele ihtiyaç yok
      Tasarım doğrulama da yoğun biçimde geleneksel programlama içerdiğinden büyük dil modellerinden fayda görebilir
      Yani tamamen anlamsız bir ifade değil; bugün açık kaynak çip tasarım yazılımını indirseniz, büyük dil modelleri küçük bir çipe başlamanıza bile yardımcı olabilir
    • Broadcom’un AI SoC için zaten çok sayıda IP’si var
      Bu çıkarım çipinin zor kısımlarını Broadcom muhtemelen zaten tasarlamıştı; OpenAI ise istediği özellikleri Broadcom’a iletmiş olabilir
      Google TPU’ya da oldukça benziyor olabilir
      “Birinci nesil hızlandırıcının mevcut son teknolojiye kıyasla watt başına performansı kayda değer ölçüde artıracağı” söyleniyor; burada “kayda değer”in tam olarak ne olduğu merak konusu
      Vera Rubin’in bu yılın sonunda yüksek hacimli sevkiyata başlaması planlanıyor ve Blackwell’e göre çıkarımda 10 kat daha iyi güç verimliliği sunması bekleniyor[0]
      Tape-out zaten yapılmış olsa bile hata düzeltmeleri, çip üretimi, HBM tahsisi, rack tasarımı, ara bağlantı ve veri merkezi yerleşimi derken en az 12 ay, muhtemelen daha da uzun sürer
      Bu çip veri merkezlerine büyük ölçekte girdiğinde Vera Rubin Ultra ya da Feynman ile rekabet ediyor olabilir
      Ben şahsen OpenAI’nin bu projeye yatırım yapmaması gerektiğini düşünüyorum
      Hâlâ çok erken; Anthropic gibi önce modellere odaklanıp kazanmalı, kârlılık oluştuktan sonra böyle projelere girmeliydi
      AI için enerjinin sert bir üst sınır olması OpenAI açısından risk yaratıyor
      Elinizde 1GW varsa, en iyi çipleri kurmanız gerekir; eğer Nvidia çipleri daha iyiyse bu proje onlarca milyar dolarlık bir israfa dönüşür
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Olası anlam esasen iki tane, bir de aradaki şaka payı var
      1. OpenAI, çip tasarımını iyileştirebilecek AI tekniklerine gerçekten sahip — iddialı ve olasılığı düşük bir iddia, dolayısıyla kanıt gerekir
      2. OpenAI, simülasyon donanımında performansı test edecek test/doğrulama modellerini ve kernel’leri tasarladı
        Sorun, yalnızca ikinci anlam kastedilmiş olabilecek bir ifadenin birinci anlamı çağrıştıracak şekilde yazılması; bu yüzden güven vermiyor
    • Verilog zaten büyük ölçüde kamuya açık olduğundan, AI yardımıyla daha fazla Verilog yazıp çip tasarlamış olmaları gayet mümkün
      Bunun illa devrim niteliğinde olması gerekmiyor; AI destekli tasarım iyi sonuç verip özel bir ASIC geliştirmenin değerini ortaya koymuş olabilir
  • OpenAI yazısında geçmese de çipi TSMC’nin üreteceği neredeyse kesin görünüyor [1]
    Bunu Intel’in yapıp yapmadığından emin değildim

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Twitter’da gördüğüm bir iddiaya göre Google, Amazon ve OpenAI gibi şirketlerin Broadcom’u tercih etmesinin nedeni yalnızca tasarım yetkinliği değil; Broadcom’un TSMC ve bellek üreticileriyle tahsis anlaşmalarına sahip olması da etkili
    • Ancak yakın zamanda parçalar yerine oturdu
      Broadcom, Google’ın TPU donanım ortağı olup TSMC üretim kapasitesini Google ile paylaşarak büyük para kazandı; şimdi de görünüşe göre OpenAI için aynısını yapıyor
      AI altına hücumundan faydalanmanın gerçekten akıllıca bir yolu
      Yalnız umarım bu yolla kazanılan para, VMWare ve Bitnami örneklerinde olduğu gibi yazılım sektöründen para sızdırmak için kullanılmaz
  • Ağırlıkların çipin ROM’unun bir parçası olarak yer aldığı bir çıkarım çipi görmek isterim
    Her ağırlık için bir çarpıcı olur ve sabit oldukları için tüm yapı basit bir toplayıcılar kümesine dönüşür; tam boruhattı verimi saat çevrimi başına bir token olabilir
    O zaman tek bir silikon parçası aynı anda milyonlarca kullanıcıyı işleyebilir ve çıkış veriyolundan saniyede 500 milyon token çıkabilir
    Dezavantajı, çipin inanılmaz derecede büyük olup tek bir wafer’ın tamamını kaplayacak olmasıdır
    Wafer düzeyindeki kusurlar büyük bir sorun olmayabilir. Sinir ağları, bazı ağırlıklar eksik ya da hatalı olsa bile bunu tolere etme eğilimindedir
    Sektörün hızı nedeniyle, model ağırlıklarından üretime çok hızlı geçilir; 50 wafer üretilip 1 yıl kullanıldıktan sonra model eskiyince atılır gibi görünüyor

    • Daha doğrusu bu, ağırlıkları ROM’a koymaktan çok bellek içi hesaplama (CIM) fikrine daha yakın
      Verinin, burada çarpma değerlerinin, işlemcinin, burada çarpma devresinin bir parçası hâline geldiği bir teknik
      “Getir ve işle” sorununu mimari düzeyde tamamen baypas ediyor
      Veri, hesaplamanın gerçekleştiği yerde olduğu için taşınmıyor ve gecikme de olmuyor
    • Eskiden https://taalas.com/ vardı; benzer şeyler düşünen başka yerler de vardır diye tahmin ediyorum
      Bu yaklaşım, frontier modellerden ziyade küçük modeller için daha uygun görünüyor. En ileri modeller çok hızlı değişiyor
    • Acaba Cerebras’a baktınız mı?
      Anlattığınız kadar ileri gitmiş değil; çok fazla çekirdek ve RAM var ama ağırlıkların hâlâ yazılımla yüklenmesi gerekiyor ve büyük modellerde çipin içine akışla verilmesi gerekiyor
      Yine de bu bir tam wafer çip
    • Ağırlıkları ROM’a koyma fikrini bir süredir düşünüyordum
      Pek çok iş için ağırlıkları ROM’a koymak sorun olmayabilir
      Yalnız her ağırlık için bir çarpıcı koymanın iyi bir fikir olduğundan emin değilim
      Yaklaşık 2 bit’e niceleme yapılmışsa mümkün olabilir; yoksa her çarpıcının ya da satırın yakınına küçük bir ROM koyup veriyi uzaktan taşımadan N farklı matris işlemini yürütmesini sağlamak daha iyi olabilir
      Bir diğer ilginç fikir de DRAM’e MAC birimi satırları ekleyip DRAM satırlarını vektör olarak kullanmak
      Satır boyutu 64Kbit ise 8 bit ağırlık bazında 8K adet eder ve ağırlıkları da hesaplamayı da aynı çipte tutabilirsiniz
      Yine de tek bir çipe yeterince çarpıcı sığıp sığmayacağını bilmiyorum
      Sistolik diziler ise on binlerce ila yüz binlerce birimin her birinin saat çevrimi başına bir işlem yapmasına izin verebilir
    • İnsanlar memristorların bu iş için ideal olduğunu ve yeniden programlanabildiğini söylüyor ama memristorlar bana hesaplama dünyasının karbon nanotüpleri gibi görünüyor
  • Çip düzeyinde hâlâ çözülebilecek verimlilik iyileştirmesi için muazzam alan var gibi göründüğünden bu ilginç
    Taalas’a nasıl baktığınızı merak ediyorum
    LLM modelini gerçekten silikonun içine gömüp, ince ayar için bir miktar yerleşik bellek bıraktıklarını söylüyorlar
    Maliyet ve gecikme açısından büyük kazanımlar iddia ediyorlar
    Çok hızlı bir demoyu https://chatjimmy.ai/ adresinde görebilirsiniz
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Yalnızca genel amaçlı GPU’ları kullanırsanız doğal olarak ciddi verimlilik kaybedersiniz
      Google’ın 10 yıldan uzun süre önce TPU geliştirmeye başlamasının nedeni de buydu
      Timnit Gebru’nun LLM’lerin çevresel etkisini hesaplarken GPU’ları temel alıp TPU verimliliğini yok sayan makalesi yüzünden Google’ın Gebru’yu işten çıkarmasıyla ilgili tartışmayı hatırlıyorum
      Görünüşe göre Jeff Dean, bu büyük verimlilik farkı yüzünden çok öfkelenmişti
    • Bu tür şeyleri daha fazla görmek güzel olurdu ama her yeni model çıktığında tamamen yeni bir modele güncelleme yapabilme kabiliyeti sınırlı olacak gibi görünüyor
      O durumda bunu satmak son derece zorlaşır
    • Teknik olarak ilginç ama ayrıntılar çok yetersiz görünüyor
      Çipe sonsuza dek değişmeyecek tek bir modeli koyma fikrini sevmiyorum
      Ağırlıklar için yeniden yazılabilir ROM kullanılırsa silikonun ne kadar daha pahalı olacağını merak ediyorum
      Bu, hedef tasarımdaki modelin ince ayarını mümkün kılar ve modelin eskimesi kaygısını azaltabilir
    • Sohbet botunda 17k token/sn etkileyici ama neredeyse işe yaramaz bir gösterim
      Kodlama ajanlarında anlamlı bir iyileşme olur, robotikte ise tam bir devrim olabilir
      8B model genel kullanım için faydalı değil ama belirli kullanım alanlarında muazzam bir zekâ sağlayabilir
      Nvidia’nın Tesla/Waymo rakibi 7B LLM ve 2B difüzyon modeli; bunu bu hızlarda çalıştırabilirseniz mevcut çözümlere göre maliyet tek haneli katsayılarla düşebilir
    • Model gelişiminin belirgin biçimde yavaşladığı noktaya gelindiğinde, bu tür donanımların LLM sağlayıcılarının geleceği olacağını düşünüyorum
      Hatta şu anda bile o noktaya yakın olduğumuz iddia edilebilir
      AWS gibi hiperscaler’lar, birkaç yıl boyunca geçerli kalacak modelleri sunmak için bu tür çipleri iyi kullanacaktır
      Ama şu anda özellikle Deepseek/Kimi/GLM gibi açık ağırlıklı modellerde model kalitesi birkaç ayda bir ciddi sıçrama yapıyor
      O zamana kadar bu yaklaşımın genel amaçlı donanıma kıyasla nasıl maliyet etkin olabileceğini pek göremiyorum
      Ayrıca bunun küçük bir sürümünün mobil donanımın içine girip çok hızlı ve çok verimli cihaz üstü LLM sunacağını düşünüyorum
  • Oldukça büyük bir hamle
    Google ve TPU muhtemelen 7. nesle gelmiş durumda; LPU ya da Cerebras’ın Wafer Scale Engine’i gibi türev denemeleri de düşününce çok daha öngörülü davranmışlar gibi görünüyor
    Yine de ilk izlenimim, bu çipin eğitimden ziyade çıkarım tarafını hedeflediği yönünde ve bu da ilginç bir tercih

    • Eğitim neredeyse tek seferlik bir maliyet ve mimari iyileştirmelerle verimlilik zaten artıyor
      Buna karşılık çıkarım sürekli oluşan bir maliyet ve zaman geçtikçe çok daha fazla kaynak tüketeceği için, bunu çok daha verimli hale getirmeye odaklanmak uzun vadede daha kazançlı
    • Artık çıkarım maliyetinin eğitim maliyetinden daha yüksek olduğunu düşünüyorum
      Nvidia genel amaçlı eğitim çiplerinin kralı ama çıkarım özelleştirilebilir
    • Cerebras’ın Codex Spark 5.3’ü büyük bir başarısızlıktı
      Bağlam penceresi küçüktü ve model de eskiydi
      Yine de iyileştirilip GPT 5.5’i saniyede 1000 token hızında kullanabilmek güzel olurdu
    • “İlk testlerde Jalapeño’nun mevcut son teknolojiye kıyasla watt başına performansı anlamlı ölçüde artıracağı” söyleniyor; burada gerçekten önemli olan şeyin ne olduğu görünmeye başlıyor
      İfade belirsiz ama TPU da benzer iddialarda bulunuyor
      Google’ın “bizim hendek avantajımız yok” notunun hâlâ doğru olduğunu düşünüyorum. Bilmiyorsanız https://newsletter.semianalysis.com/p/google-we-have-no-moat... bağlantısına bakın
      Şu anki gidişat, 60’lardan 90’lara IBM, DEC, Cray ve Sun’ın yürüttüğü donanım rekabetine daha çok benziyor
      Tarih birebir tekerrür etmez ama kafiyelidir; bunların da benzer bir yörünge izlemesi muhtemel görünüyor
  • Yapay zekadaki ilerleme hızına ve yapay zekanın daha hızlı, daha iyi yapay zeka üretmeye yardım etmesine bakınca, böyle bir donanımın anlamlı bir yatırım geri dönüşü sağlamadan önce demode olup olmayacağını sürekli merak ediyorum
    Kuantizasyon ve offloading sayesinde devasa yapay zeka modellerini daha az kaynakla çalıştırabiliyoruz ama bu sadece başlangıç
    Bir gün, belki de çok uzak olmayan bir zamanda, 200B ölçeğinde dev bir LLM’i 5 yıllık bir Dell masaüstünde gayet iyi çalıştırmayı mümkün kılan bir atılım gelebilir
    Kulağa çılgınca gelebilir ama ilk sabit disklerin boyutuna bakın
    IBM 350, çapı 24 inç olan 50 plakalı bir diskle 3.5Mb depoluyordu ve bugünün parasıyla 35 bin dolara kiralanıyordu
    https://www.computerhistory.org/storageengine/first-commerci...
    Bunu çok terabaytlı SSD’lerle karşılaştırın ve aynı iyileşmenin bugünkü LLM mimarileri ile çalıştırma yöntemlerine uygulandığını düşünün
    Yapay zekanın yardımı da eklenince çok geçmeden bir sıçrama yaşanabilir ve günümüzün en ileri Nvidia kartlarıyla dolu veri merkezleri neredeyse bir gecede demode kalabilir

    • Böyle bir atılım varsa, aynı yöntemle bugünün veri merkezlerinde 200T modelleri de çalıştırılabilir diye düşünüyorum
    • İlginç bir düşünce ama sabit disklerle yapılan karşılaştırma muhtemelen adil değil
      IBM 350, 70 yıl önce ticarileşti ve bugün birinin onu çok TB’li SSD’lerle kıyaslayabilecek noktaya gelmesi 70 yıl sürdü
      Üstelik Moore yasasının önümüzdeki onlarca yıl boyunca LLM’lere de mutlaka uygulanacağının garantisi yok
    • Jevons paradoksu ve ölçekleme yasaları nedeniyle bunun böyle olmayacağını sanıyorum
      Daha büyük modeller her zaman daha iyiyse — ve gerçekten de öyle görünüyor — o zaman her zaman yüksek performanslı donanıma ihtiyaç olacak
    • Bilgi işlemdeki atılımlar genelde kullanım miktarını azaltmak yerine daha da artırır
    • Bir gün GPU dışında, LLM’lere uygun özel donanımın çıkacağını düşünüyorum
      TPU var ama esasen veri merkezleri için; GPU ise başlangıçta grafik uygulamalarından gelip sonradan uyarlanmış bir şey
      Veri merkezi talebi doyuma ulaşınca inovasyon gerçekten hızlanabilir
  • Burada çok tartışılmayan bir kısım var
    Broadcom CEO’su Hock Tan röportajda bu hızlandırıcının, bugüne kadar tipik yapay zeka grafik işlem birimlerine kıyasla yaklaşık %50 maliyet tasarrufu gösterdiğini söyledi [0]
    Tablo çok hızlı değişiyor ve hâlâ toplanacak çok düşük asılı meyve var; bu yüzden hangi tedarikçinin savunulabilir bir avantajı olduğu ya da yatırımı geri kazanıp kazanamayacağı üzerine tartışmalar pek anlamlı görünmüyor
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • GPU marjı %75 ise %50 daha ucuz olması şaşırtıcı değil
    • “Tipik” kelimesi burada çok iş yapıyor
      Nvidia’nın şu anda sattıklarından çok daha eski çipleri kastediyor olabilir
  • “2026 sonlarında ilk dağıtımı hedefleyip sonraki yıllarda ölçeklendireceğiz” deniyorsa, bu muhtemelen IPO sonrasında gelecek vaatleri olarak IPO tanıtım materyallerinde büyük yer bulacak
    IPO öncesi yapılan her açıklamaya şüpheyle bakarım

    • Anlatı IPO öncesi bir numara gibi hissettiriyor ve görüntüsü de çamaşır sepeti kapağına benziyor
      Dolandırıcılık çıksa şaşırmam
    • Kimin IPO’su olduğunu anlamadım
      Broadcom ve Google zaten halka açık şirketler
  • Microsoft, Google ve Amazon da bunu yapıyor ama onların çipleri barındıracak hiper ölçekli veri merkezi altyapıları da var
    Çip tasarlayıp tape-out yapmak ile paketleme, soğutma, dağıtım, güç sağlama ve filo yönetimi bambaşka bir yığın
    O kısmı nereden sağlayacaklarını merak ediyorum

    • Stargate’i unutmamak lazım
      Güncelleme: Twitter’da biri bunun Microsoft ve Oracle tarafından 50:50 oranında barındırılacağını söyledi
  • Daha önce Opus 4.5’e Verilog tabanlı bir LLM çıkarım motoru tasarlatmıştım; firmware ve otomatik doğrulamayı da içeriyordu: https://github.com/cpldcpu/smollm.c
    Elbette optimal olmaktan çok uzaktı ama soyutlama seviyesini düşürüp uygulamaya inen yaklaşımın ne kadar güçlü olduğunu doğruladım

    • Verilog ve genel olarak FPGA öğrenmek için önerebileceğiniz bir eğitim var mı merak ediyorum
      Elimde bir Tang Nano 9k kaldı ama Claude’a tamamen vibe coding ile bir çözüm çıkarttıracak kadar güvenmiyorum; en azından temel bir anlayış edinmek istiyorum