- Jalapeño, LLM çıkarımına (
inference) odaklanan bir hızlandırıcı ve Broadcom ile birlikte geliştirilen çok nesilli bir hesaplama platformunun ilk ürünü - Tasarım başlangıcından üretim tape-out aşamasına kadar yalnızca 9 ay sürdü; bunun, yüksek performanslı ileri yarı iletkenlerde şimdiye kadarki en hızlı ASIC geliştirme döngüsü olduğu düşünülüyor
- İlk testlerde genel amaçlı AI GPU’larına kıyasla yaklaşık %50 maliyet tasarrufu sağlandı; watt başına performans da mevcut en ileri çözümlerden belirgin biçimde daha iyi
- Çip mimarisinden kernel, bellek ve ağ katmanına kadar her şeyi doğrudan tasarlayan full-stack stratejisinin bir parçası olarak, Nvidia GPU bağımlılığını azaltmayı ve bir yazılım şirketinin ötesine geçip AI altyapı sağlayıcısına dönüşmeyi hedefliyor
- 2026 sonundan itibaren Microsoft gibi iş ortaklarıyla birlikte gigawatt ölçekli veri merkezlerine konuşlandırılması planlanıyor; 1 trilyon dolarlık IPO öncesinde kârlılığı kanıtlama baskısı altında bu adımın önemi artıyor
Jalapeño çipi tanıtıldı
- Çarşamba günü OpenAI ve Broadcom (NASDAQ: AVGO), OpenAI’nin ilk Intelligence Processor’ü Jalapeño’yu tanıttı
- Bu hızlandırıcı, LLM çıkarımının geleceği hedeflenerek tasarlandı ve iki şirketin birlikte geliştirdiği çok nesilli hesaplama platformunun ilk AI hızlandırıcısı oldu
- Broadcom Yönetim Kurulu Başkanı ve CEO’su Hock Tan ile Başkan Charlie Kawwas, çip örneklerini bizzat OpenAI CEO’su Sam Altman ve Başkan Greg Brockman’a teslim etti
- Bu, tüketici ürünlerinin ötesine geçerek AI altyapı sağlayıcısı olmayı amaçlayan OpenAI stratejisinde önemli bir adım
Çip yapısı ve performansı
- Jalapeño, mevcut AI iş yükü hızlandırıcılarının uyarlanmış bir genel amaçlı sürümü değil; modern LLM çıkarımı için sıfırdan (
blank-slate) tasarlanmış bir çip - Belirli AI görevlerine göre tasarlanabilen bir ASIC olarak, Nvidia GPU’lardan daha az esnek ama daha düşük maliyetli
-
Performans ve verimlilik
- İlk testlerde genel amaçlı AI GPU’larına kıyasla yaklaşık %50 maliyet tasarrufu sağlandı (Hock Tan röportajı)
- Nihai performans hâlâ ölçülüyor, ancak watt başına performansın mevcut en ileri düzeye kıyasla büyük ölçüde iyileştiği belirtiliyor
- Veri hareketini azaltıp işlem, bellek ve ağ kaynakları arasındaki dengeyi kurarak, gerçek kullanım oranını teorik azami performansa yaklaştırıyor
- Paylaşılan çip görselinde 8 HBM alanı ve ortada bir hesaplama kalıbı görülebiliyor
-
Çalışma doğrulaması
- Mühendislik örnekleri, seri üretim hedef frekans ve güç seviyelerinde ML iş yüklerini çalıştırıyor; bunlar arasında GPT‑5.3‑Codex‑Spark da bulunuyor
- Ayrıntılı teknik raporun önümüzdeki birkaç ay içinde yayımlanması bekleniyor
- Broadcom’un silikon uygulaması ve Tomahawk ağ silikonları, büyük ölçekli üretimi destekliyor
9 ayda tape-out, OpenAI modelleri geliştirmeyi hızlandırdı
- İlk tasarımdan üretim tape-out aşamasına kadar ortak geliştirme yalnızca 9 ay sürdü; bunun, yüksek performanslı ileri yarı iletkenlerde şimdiye kadarki en hızlı ASIC geliştirme döngüsü olduğu düşünülüyor
- Tasarım ve optimizasyon sürecinin bir bölümünde OpenAI’nin kendi modelleri kullanıldı; Brockman, bu modellerin geliştirmeyi ne kadar hızlandırdığının “şaşırtıcı” olduğunu söyledi
- Kullanıcılara sunulan aynı modeller, gelecekte modelleri çalıştıran altyapının iyileştirilmesine de katkı sağlayacak
- Eğer AI, mühendislerin çipleri daha hızlı tasarlamasına yardımcı olursa, bu durum sektör genelinde hesaplama maliyetlerinin düşmesine ve gelişmiş AI’ye erişimin artmasına yol açabilir
Çok nesilli platform ve iş ortakları
- Jalapeño, 2026 sonundaki ilk dağıtımı hedefleyen ve sonraki yıllarda genişleyecek çok nesilli hesaplama platformunun ilk adımı
-
İş birliği yapısı
- OpenAI — hızlandırıcı tasarımı, LLM temellerine dair derin uzmanlık
- Broadcom — çip gerçekleştirme, ağ ve bağlantı teknolojileri
- Celestica — kart, raf ve sistem entegrasyonu uzmanlığı
- Geçen yıl OpenAI ve Broadcom, 10 gigawatt ölçekli hesaplama için özel çip geliştirme planlarını duyurmuştu; bu tanıtım da o planın ilk çipini ortaya koyuyor
-
Patlayıcı talep
- Broadcom CEO’su Hock Tan, bunun 2026’dan itibaren Microsoft gibi iş ortaklarıyla gigawatt ölçekli veri merkezleri kurulumunu mümkün kılacağını söyledi; 2026 sonunda küçük ölçekli prototiplerin ardından genişleme planlanıyor
- Brockman, “yeterince hızlı biçimde yeterli hesaplama gücü elde edemiyoruz” derken, Tan 6 müşteriden gelen talebin “kelimenin tam anlamıyla karşılanamaz düzeyde” olduğunu ve 2027–2028’de de aynı ya da daha yüksek olacağını belirtti
- OpenAI donanım programı başkanı Richard Ho, mimarinin frontier AI modelleri için en kritik olan kernel’ler, bellek hareketi, ağ iletişimi ve serving kalıpları etrafında optimize edildiğini açıkladı
Full-stack strateji ve rekabet tablosu
- OpenAI, frontier modeller geliştirmek ve ürünler inşa etmekle yetinmeyip, bunun altındaki altyapıyı da doğrudan tasarlıyor — buna çip mimarisi, kernel’ler, bellek sistemi, ağ, zamanlama, dağıtım sistemleri ve ürün deneyimi dâhil
- Böylece Google (TPU), Amazon (Trainium) ve Microsoft (Azure Maia 100) gibi kendi silikonuna sahip full-stack AI şirketleri arasına katılıyor
-
Nvidia bağımlılığını azaltma
- “Kimse Nvidia’ya bağımlı kalmak istemiyor” (Quilter Cheviot teknoloji araştırma başkanı Ben Barringer); bu da çip tedarikini çeşitlendirme eğilimini gösteriyor
- OpenAI, Nvidia’nın en büyük müşterilerinden biri olmasının yanında AMD (Instinct MI450 serisi), Cerebras ve diğerleriyle de tedarik anlaşmaları yaptı
-
Ticari anlamı
- Nvidia, AI veri merkezlerinin temel bileşenlerini sağlayarak dünyanın en değerli şirketi hâline gelirken, AI altyapı pazarının kâr potansiyeli de daha görünür oldu
- Değeri 1 trilyon dolar olarak anılan bir IPO öncesindeki OpenAI için, çıkarım maliyetlerini düşürmek devasa eğitim maliyetlerini geri kazanmanın ve kârlılığı kanıtlamanın anahtarlarından biri
- Broadcom hisseleri 2026 boyunca yükseldi ve 2022 sonuna kıyasla yaklaşık 7 kat seviyeye ulaştı; bu da iş birliğinin etkisinin fiyatlandığını gösteriyor
Gelişmiş AI’nin kitleselleşmesi
- Çıkarım, AI’nin insanlarla buluştuğu nokta; maliyet, hız ve güvenilirlikteki iyileşmeler doğrudan daha hızlı ChatGPT yanıtları, beklemesiz Codex işleri, daha ucuz API ürünleri ve talep patlamalarında daha istikrarlı erişim anlamına geliyor
- Gelişmiş modelleri daha fazla insanın her gün kullanabileceği kadar erişilebilir, istikrarlı ve ucuz hâle getirmek, AI’nin kitleselleşmesinin anahtarı
- Öğrenciler, geliştiriciler, küçük işletmeler, araştırmacılar ve şirketler dâhil; öğrenmek, üretmek ve zor problemleri çözmek isteyen herkes için altyapıyı faydalı zekâya dönüştürmeye katkı sağlıyor
1 yorum
Hacker News görüşleri
“OpenAI modeliyle tasarım ve optimizasyonu hızlandırdık” kısmı hakkında daha fazla ayrıntı görmek isterim
Şu anki ifadeyle, sanki Microsoft Office ya da 5K LG Ultrafine 40 inç monitör sayesinde geliştirme hızlandı deniyormuş gibi bir pazarlama söylemi duruyor
Gerçekten ima edildiği kadar büyük bir şeyse, OpenAI muhtemelen bunu çok daha güçlü vurgulardı
“Tasarım”ın tasarımın tamamlanması mı, “üretim”in ise üretimin başlaması yani tape-out mu olduğu belirsiz
RTL dondurmadan tape-out’a 9 ay sürmesi, büyük ve karmaşık bir 3nm çip için oldukça sıradan; beklenmedik sorunlar da düşünülürse çok da etkileyici olmayan bir takvim
Buna karşılık, kavram aşamasından yani RTL bile olmadan yalnızca mimari blok diyagramıyla başlanıp tape-out’a gidildiyse bu şaşırtıcı bir süre olurdu; muhtemelen gerçek durum bu ikisinin arasında bir yerde
Daha somut bir açıklamada gerçek teknik kilometre taşları ve aşamalar kullanılmalı
Çip tasarım iş akışında büyük dil modellerini kullanmak için mutlaka ayrı bir özelleşmiş modele ihtiyaç yok
Tasarım doğrulama da yoğun biçimde geleneksel programlama içerdiğinden büyük dil modellerinden fayda görebilir
Yani tamamen anlamsız bir ifade değil; bugün açık kaynak çip tasarım yazılımını indirseniz, büyük dil modelleri küçük bir çipe başlamanıza bile yardımcı olabilir
Bu çıkarım çipinin zor kısımlarını Broadcom muhtemelen zaten tasarlamıştı; OpenAI ise istediği özellikleri Broadcom’a iletmiş olabilir
Google TPU’ya da oldukça benziyor olabilir
“Birinci nesil hızlandırıcının mevcut son teknolojiye kıyasla watt başına performansı kayda değer ölçüde artıracağı” söyleniyor; burada “kayda değer”in tam olarak ne olduğu merak konusu
Vera Rubin’in bu yılın sonunda yüksek hacimli sevkiyata başlaması planlanıyor ve Blackwell’e göre çıkarımda 10 kat daha iyi güç verimliliği sunması bekleniyor[0]
Tape-out zaten yapılmış olsa bile hata düzeltmeleri, çip üretimi, HBM tahsisi, rack tasarımı, ara bağlantı ve veri merkezi yerleşimi derken en az 12 ay, muhtemelen daha da uzun sürer
Bu çip veri merkezlerine büyük ölçekte girdiğinde Vera Rubin Ultra ya da Feynman ile rekabet ediyor olabilir
Ben şahsen OpenAI’nin bu projeye yatırım yapmaması gerektiğini düşünüyorum
Hâlâ çok erken; Anthropic gibi önce modellere odaklanıp kazanmalı, kârlılık oluştuktan sonra böyle projelere girmeliydi
AI için enerjinin sert bir üst sınır olması OpenAI açısından risk yaratıyor
Elinizde 1GW varsa, en iyi çipleri kurmanız gerekir; eğer Nvidia çipleri daha iyiyse bu proje onlarca milyar dolarlık bir israfa dönüşür
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
Sorun, yalnızca ikinci anlam kastedilmiş olabilecek bir ifadenin birinci anlamı çağrıştıracak şekilde yazılması; bu yüzden güven vermiyor
Bunun illa devrim niteliğinde olması gerekmiyor; AI destekli tasarım iyi sonuç verip özel bir ASIC geliştirmenin değerini ortaya koymuş olabilir
OpenAI yazısında geçmese de çipi TSMC’nin üreteceği neredeyse kesin görünüyor [1]
Bunu Intel’in yapıp yapmadığından emin değildim
Broadcom, Google’ın TPU donanım ortağı olup TSMC üretim kapasitesini Google ile paylaşarak büyük para kazandı; şimdi de görünüşe göre OpenAI için aynısını yapıyor
AI altına hücumundan faydalanmanın gerçekten akıllıca bir yolu
Yalnız umarım bu yolla kazanılan para, VMWare ve Bitnami örneklerinde olduğu gibi yazılım sektöründen para sızdırmak için kullanılmaz
Ağırlıkların çipin ROM’unun bir parçası olarak yer aldığı bir çıkarım çipi görmek isterim
Her ağırlık için bir çarpıcı olur ve sabit oldukları için tüm yapı basit bir toplayıcılar kümesine dönüşür; tam boruhattı verimi saat çevrimi başına bir token olabilir
O zaman tek bir silikon parçası aynı anda milyonlarca kullanıcıyı işleyebilir ve çıkış veriyolundan saniyede 500 milyon token çıkabilir
Dezavantajı, çipin inanılmaz derecede büyük olup tek bir wafer’ın tamamını kaplayacak olmasıdır
Wafer düzeyindeki kusurlar büyük bir sorun olmayabilir. Sinir ağları, bazı ağırlıklar eksik ya da hatalı olsa bile bunu tolere etme eğilimindedir
Sektörün hızı nedeniyle, model ağırlıklarından üretime çok hızlı geçilir; 50 wafer üretilip 1 yıl kullanıldıktan sonra model eskiyince atılır gibi görünüyor
Verinin, burada çarpma değerlerinin, işlemcinin, burada çarpma devresinin bir parçası hâline geldiği bir teknik
“Getir ve işle” sorununu mimari düzeyde tamamen baypas ediyor
Veri, hesaplamanın gerçekleştiği yerde olduğu için taşınmıyor ve gecikme de olmuyor
Bu yaklaşım, frontier modellerden ziyade küçük modeller için daha uygun görünüyor. En ileri modeller çok hızlı değişiyor
Anlattığınız kadar ileri gitmiş değil; çok fazla çekirdek ve RAM var ama ağırlıkların hâlâ yazılımla yüklenmesi gerekiyor ve büyük modellerde çipin içine akışla verilmesi gerekiyor
Yine de bu bir tam wafer çip
Pek çok iş için ağırlıkları ROM’a koymak sorun olmayabilir
Yalnız her ağırlık için bir çarpıcı koymanın iyi bir fikir olduğundan emin değilim
Yaklaşık 2 bit’e niceleme yapılmışsa mümkün olabilir; yoksa her çarpıcının ya da satırın yakınına küçük bir ROM koyup veriyi uzaktan taşımadan N farklı matris işlemini yürütmesini sağlamak daha iyi olabilir
Bir diğer ilginç fikir de DRAM’e MAC birimi satırları ekleyip DRAM satırlarını vektör olarak kullanmak
Satır boyutu 64Kbit ise 8 bit ağırlık bazında 8K adet eder ve ağırlıkları da hesaplamayı da aynı çipte tutabilirsiniz
Yine de tek bir çipe yeterince çarpıcı sığıp sığmayacağını bilmiyorum
Sistolik diziler ise on binlerce ila yüz binlerce birimin her birinin saat çevrimi başına bir işlem yapmasına izin verebilir
Çip düzeyinde hâlâ çözülebilecek verimlilik iyileştirmesi için muazzam alan var gibi göründüğünden bu ilginç
Taalas’a nasıl baktığınızı merak ediyorum
LLM modelini gerçekten silikonun içine gömüp, ince ayar için bir miktar yerleşik bellek bıraktıklarını söylüyorlar
Maliyet ve gecikme açısından büyük kazanımlar iddia ediyorlar
Çok hızlı bir demoyu https://chatjimmy.ai/ adresinde görebilirsiniz
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Google’ın 10 yıldan uzun süre önce TPU geliştirmeye başlamasının nedeni de buydu
Timnit Gebru’nun LLM’lerin çevresel etkisini hesaplarken GPU’ları temel alıp TPU verimliliğini yok sayan makalesi yüzünden Google’ın Gebru’yu işten çıkarmasıyla ilgili tartışmayı hatırlıyorum
Görünüşe göre Jeff Dean, bu büyük verimlilik farkı yüzünden çok öfkelenmişti
O durumda bunu satmak son derece zorlaşır
Çipe sonsuza dek değişmeyecek tek bir modeli koyma fikrini sevmiyorum
Ağırlıklar için yeniden yazılabilir ROM kullanılırsa silikonun ne kadar daha pahalı olacağını merak ediyorum
Bu, hedef tasarımdaki modelin ince ayarını mümkün kılar ve modelin eskimesi kaygısını azaltabilir
Kodlama ajanlarında anlamlı bir iyileşme olur, robotikte ise tam bir devrim olabilir
8B model genel kullanım için faydalı değil ama belirli kullanım alanlarında muazzam bir zekâ sağlayabilir
Nvidia’nın Tesla/Waymo rakibi 7B LLM ve 2B difüzyon modeli; bunu bu hızlarda çalıştırabilirseniz mevcut çözümlere göre maliyet tek haneli katsayılarla düşebilir
Hatta şu anda bile o noktaya yakın olduğumuz iddia edilebilir
AWS gibi hiperscaler’lar, birkaç yıl boyunca geçerli kalacak modelleri sunmak için bu tür çipleri iyi kullanacaktır
Ama şu anda özellikle Deepseek/Kimi/GLM gibi açık ağırlıklı modellerde model kalitesi birkaç ayda bir ciddi sıçrama yapıyor
O zamana kadar bu yaklaşımın genel amaçlı donanıma kıyasla nasıl maliyet etkin olabileceğini pek göremiyorum
Ayrıca bunun küçük bir sürümünün mobil donanımın içine girip çok hızlı ve çok verimli cihaz üstü LLM sunacağını düşünüyorum
Oldukça büyük bir hamle
Google ve TPU muhtemelen 7. nesle gelmiş durumda; LPU ya da Cerebras’ın Wafer Scale Engine’i gibi türev denemeleri de düşününce çok daha öngörülü davranmışlar gibi görünüyor
Yine de ilk izlenimim, bu çipin eğitimden ziyade çıkarım tarafını hedeflediği yönünde ve bu da ilginç bir tercih
Buna karşılık çıkarım sürekli oluşan bir maliyet ve zaman geçtikçe çok daha fazla kaynak tüketeceği için, bunu çok daha verimli hale getirmeye odaklanmak uzun vadede daha kazançlı
Nvidia genel amaçlı eğitim çiplerinin kralı ama çıkarım özelleştirilebilir
Bağlam penceresi küçüktü ve model de eskiydi
Yine de iyileştirilip GPT 5.5’i saniyede 1000 token hızında kullanabilmek güzel olurdu
İfade belirsiz ama TPU da benzer iddialarda bulunuyor
Google’ın “bizim hendek avantajımız yok” notunun hâlâ doğru olduğunu düşünüyorum. Bilmiyorsanız https://newsletter.semianalysis.com/p/google-we-have-no-moat... bağlantısına bakın
Şu anki gidişat, 60’lardan 90’lara IBM, DEC, Cray ve Sun’ın yürüttüğü donanım rekabetine daha çok benziyor
Tarih birebir tekerrür etmez ama kafiyelidir; bunların da benzer bir yörünge izlemesi muhtemel görünüyor
Yapay zekadaki ilerleme hızına ve yapay zekanın daha hızlı, daha iyi yapay zeka üretmeye yardım etmesine bakınca, böyle bir donanımın anlamlı bir yatırım geri dönüşü sağlamadan önce demode olup olmayacağını sürekli merak ediyorum
Kuantizasyon ve offloading sayesinde devasa yapay zeka modellerini daha az kaynakla çalıştırabiliyoruz ama bu sadece başlangıç
Bir gün, belki de çok uzak olmayan bir zamanda, 200B ölçeğinde dev bir LLM’i 5 yıllık bir Dell masaüstünde gayet iyi çalıştırmayı mümkün kılan bir atılım gelebilir
Kulağa çılgınca gelebilir ama ilk sabit disklerin boyutuna bakın
IBM 350, çapı 24 inç olan 50 plakalı bir diskle 3.5Mb depoluyordu ve bugünün parasıyla 35 bin dolara kiralanıyordu
https://www.computerhistory.org/storageengine/first-commerci...
Bunu çok terabaytlı SSD’lerle karşılaştırın ve aynı iyileşmenin bugünkü LLM mimarileri ile çalıştırma yöntemlerine uygulandığını düşünün
Yapay zekanın yardımı da eklenince çok geçmeden bir sıçrama yaşanabilir ve günümüzün en ileri Nvidia kartlarıyla dolu veri merkezleri neredeyse bir gecede demode kalabilir
IBM 350, 70 yıl önce ticarileşti ve bugün birinin onu çok TB’li SSD’lerle kıyaslayabilecek noktaya gelmesi 70 yıl sürdü
Üstelik Moore yasasının önümüzdeki onlarca yıl boyunca LLM’lere de mutlaka uygulanacağının garantisi yok
Daha büyük modeller her zaman daha iyiyse — ve gerçekten de öyle görünüyor — o zaman her zaman yüksek performanslı donanıma ihtiyaç olacak
TPU var ama esasen veri merkezleri için; GPU ise başlangıçta grafik uygulamalarından gelip sonradan uyarlanmış bir şey
Veri merkezi talebi doyuma ulaşınca inovasyon gerçekten hızlanabilir
Burada çok tartışılmayan bir kısım var
Broadcom CEO’su Hock Tan röportajda bu hızlandırıcının, bugüne kadar tipik yapay zeka grafik işlem birimlerine kıyasla yaklaşık %50 maliyet tasarrufu gösterdiğini söyledi [0]
Tablo çok hızlı değişiyor ve hâlâ toplanacak çok düşük asılı meyve var; bu yüzden hangi tedarikçinin savunulabilir bir avantajı olduğu ya da yatırımı geri kazanıp kazanamayacağı üzerine tartışmalar pek anlamlı görünmüyor
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Nvidia’nın şu anda sattıklarından çok daha eski çipleri kastediyor olabilir
“2026 sonlarında ilk dağıtımı hedefleyip sonraki yıllarda ölçeklendireceğiz” deniyorsa, bu muhtemelen IPO sonrasında gelecek vaatleri olarak IPO tanıtım materyallerinde büyük yer bulacak
IPO öncesi yapılan her açıklamaya şüpheyle bakarım
Dolandırıcılık çıksa şaşırmam
Broadcom ve Google zaten halka açık şirketler
Microsoft, Google ve Amazon da bunu yapıyor ama onların çipleri barındıracak hiper ölçekli veri merkezi altyapıları da var
Çip tasarlayıp tape-out yapmak ile paketleme, soğutma, dağıtım, güç sağlama ve filo yönetimi bambaşka bir yığın
O kısmı nereden sağlayacaklarını merak ediyorum
Güncelleme: Twitter’da biri bunun Microsoft ve Oracle tarafından 50:50 oranında barındırılacağını söyledi
Daha önce Opus 4.5’e Verilog tabanlı bir LLM çıkarım motoru tasarlatmıştım; firmware ve otomatik doğrulamayı da içeriyordu: https://github.com/cpldcpu/smollm.c
Elbette optimal olmaktan çok uzaktı ama soyutlama seviyesini düşürüp uygulamaya inen yaklaşımın ne kadar güçlü olduğunu doğruladım
Elimde bir Tang Nano 9k kaldı ama Claude’a tamamen vibe coding ile bir çözüm çıkarttıracak kadar güvenmiyorum; en azından temel bir anlayış edinmek istiyorum