Amazon, yeni Trainium3 yapay zeka çipini duyurdu ve Nvidia ile iş birliği yol haritasını öngördü

(techcrunch.com)

2 puan yazan GN⁺ 2025-12-03 | 1 yorum | WhatsApp'ta paylaş

AWS, 3nm Trainium3 çipinin kullanıldığı Trainium3 UltraServer'ı tanıtarak yapay zeka eğitim ve çıkarım performansını önemli ölçüde artırdı
Yeni sistem önceki nesle göre 4 kata kadar daha hızlı hız ve 4 kat daha fazla bellek, %40 daha yüksek enerji verimliliği sunuyor
En fazla 1 milyon Trainium3 çipi bir arada bağlanabildiğinden, büyük ölçekli yapay zeka uygulamaları için uygundur
Anthropic, Karakuri, SplashMusic, Decart gibi müşteriler zaten bu çözümü kullanmakta ve çıkarım maliyetlerinde düşüş doğruladı
AWS, bir sonraki nesil Trainium4 çipinin Nvidia NVLink Fusion desteğiyle Nvidia GPU'larıyla karşılıklı çalışabilirliğe sahip olacağını duyurarak, yapay zeka altyapısı rekabetinde önemli bir dönüm noktası olarak değerlendirildi

Trainium3 Tanıtımı

AWS, re:Invent 2025 etkinliğinde Trainium3 UltraServer'ı resmi olarak duyurdu
- Bu sistem 3nm Trainium3 çipi ve AWS'nin kendi ağ teknolojisi ile çalışıyor
- Yapay zeka eğitiminde ve çıkarımda 2. nesile kıyasla büyük ölçüde daha yüksek performans sunuyor
AWS, Trainium3 sisteminin 4 kat daha hızlı işleme hızı ve 4 kat daha fazla bellek kapasitesi sağladığını açıkladı
- Her bir UltraServer 144 çip taşır
- Binlerce sunucu bağlanarak azami 1 milyon çip tek bir uygulamada kullanılabiliyor
Yeni çipin enerji verimliliği %40 artmış olup bu durum büyük ölçekli veri merkezlerinde elektrik tüketimini azaltmaya katkı sağlar
- AWS, bu iyileştirme ile yapay zeka bulut müşterilerinin maliyetlerini azaltabileceğini de vurguladı

Başlıca müşteriler ve kullanım örnekleri

Anthropic, Japonya merkezli LLM Karakuri, SplashMusic, Decart gibi müşteriler zaten Trainium3 kullanıyor
- Bu müşteriler, çıkarım maliyetlerinde önemli ölçüde düşüş yaşadıklarını AWS üzerinden açıkladı
AWS, bu performans ve maliyet verimliliği artışlarının yapay zeka uygulamalarının ölçeklenebilirliğini artıran bir temel oluşturduğunu kaydetti

Gelecekteki Trainium4 çip yol haritası

AWS, Trainium4ün geliştirilmekte olduğunu ve Nvidia'nın NVLink Fusion yüksek hızlı ara bağlantı teknolojisini desteklemeyi planladığını duyurdu
- Böylece Nvidia GPU'larıyla karşılıklı çalışabilirlik mümkün olacak ve AWS'in düşük maliyetli sunucu raf teknolojisi ile birleştirilebilecektir
Nvidia CUDA yapay zeka uygulamalarının ana standardı olarak konumlandığı bu ortamda, Trainium4 sistemi, Nvidia GPU tabanlı uygulamaların AWS bulutuna taşınmasını kolaylaştırma potansiyeline sahip
Trainium4'ün lansman takvimi açıklanmadı, ancak bir sonraki yılki re:Invent etkinliğinde ek bilgiler paylaşılabilir

Enerji verimliliği ve maliyet düşürme stratejinin önemi

AWS, veri merkezlerinde hızla artan elektrik kullanımına karşı “daha az tüketim yapan sistemler” geliştirme çabası içinde
Bu yaklaşım, işletim maliyetlerini azaltma ve sürdürülebilirlik hedefini koruma olmak üzere iki amacı aynı anda gerçekleştirme hamlesi olarak görülüyor
AWS'nin maliyet odaklı stratejisi yapay zeka altyapı rekabetinde bulut müşteri kazanımını güçlendirebilir

Özet

Trainium3, performans, bellek ve verimlilikte büyük sıçrama yapan 3. nesil bir yapay zeka çipi
Trainium4, Nvidia ile uyumluluk yoluyla AWS ekosistemini büyütmeyi hedefliyor
AWS, yüksek performanslı, düşük maliyetli ve çevre dostu yapay zeka altyapısı hedefleyerek yapay zeka bulut pazarındaki rekabet gücünü artırmayı amaçlıyor

1 yorum

GN⁺ 2025-12-03

Hacker News yorumu

Ekibimiz, Trainium veya Inferentia instance'larıyla ilgilenmediğimizi AWS temsilcisine defalarca söyledi
çünkü standart kütüphaneler olan Transformers veya PyTorch ile kararlı biçimde uyumlu olduklarına dair kesin bir kanıt yok
AWS iyi çalıştığını iddia ediyor ama bu, yalnızca onların kendi özel AMI'si ve neuron SDK'sındaki bir tür “mutlu yol” için geçerli
Gerçek bağımlılıklarımızı kullanarak iş yapmaya başladığınız anda hemen çöküyor
GCP'nin TPU'ları bile ancak Google yazılım desteğine devasa yatırım yaptıktan sonra kullanılabilir hale geldi
AWS çiplerini kullanmak için beta testçisi olmaya ayıracak vaktim yok
- AWS, çekirdek servislerin (S3, Dynamo, Lambda, ECS vb.) dışına çıktığınızda her yer beta servis dolu
  Kararlı olan az, geri kalanın ise köşeleri çok sivri
- Google, TPU'ları ekosisteme entegre etmek için inanılmaz çaba harcadı
  Amazon'un bu düzeyde yatırım yapacağını hayal etmek zor
- Spoiler: çok fazla özel kod yazmazsanız çalışmıyor
SageMaker'da LMI container'ını doğrudan build etmeye çalışırken cehennemi yaşadım
vLLM sürümü 6 aydır güncellenmedi ve normal endpoint'ler, 8 yıl önce verilmiş 60 saniyelik timeout kararı yüzünden kullanılamıyor
Bu durumda özel silikon kullanmaya kalkışan bir geliştiricinin nasıl bir acı çekeceğini düşünmek bile korkunç
AWS, Trainium hakkında büyük laflar ediyor ama sahneye çıkıp öven tek bir müşteri bile yok
Gerçekte deneyenlerin, deploy ve operasyon sıkıntısı yüzünden vazgeçtiği söyleniyor
Şirket içinde yoğun kullanılıyor gibi görünüyor ama dış benimseme neredeyse yok
Yine de Amazon'un kendi çiplerine yatırım yapmasını olumlu buluyorum
- Inf1/Inf2 spot instance'ları o kadar popüler değil ki CPU instance'larından %10-20 daha ucuz
  Trn1 henüz o kadar değil, yani birileri kullanıyor gibi görünüyor
- Anthropic'in de Trainium'u yoğun kullandığını duydum
  Muhtemelen AWS'den tam destek alıyorlar
  SDK ve tooling'e daha fazla yatırım yapılmazsa kimse böyle bir cloud kullanmaz
Block floating point (MXFP8/4) kavramı ilginç
Yapay zeka, onlarca yıldır değişmeyen temel veri tiplerini zorluyor
Block floating point Wiki belgesi
İlginç olan, makalede bu çipin ne yaptığına dair tek bir açıklama bile olmaması
- Özünde birden fazla 128x128 systolic array yapısı var
  Ayrıntılar için Semianalysis bültenine bakın
- Adından da anlaşılacağı gibi Training için bir çip
- Sonuçta vektör işlemleri yapan bir çip
- Sanırım bu çipin gerçek görevi hissedarları memnun etmek, bu yüzden geliştiricilere açıklamaya gerek duymadılar
Performans veya benchmark hakkında hiçbir şey söylenmiyor
- “4 kat daha fazla” diyorlar ama bu 4 kat daha hızlı demek değil ve 4 kat daha fazla bellek deniyor ama neye göre olduğu belli değil
Asıl haber “Nvidia dostu yol haritası” kısmı
Amazon, yapay zekada da lojistikte yaptığı gibi maliyet düşürmeyi hedefliyor gibi görünüyor
Ama özgüveni düşük ve Nvidia ile ilişkisini korumaya yönelik göstermelik bir strateji gibi duruyor
NVLink'in yayılması ilginç
Intel de işin içinde ve bu biraz PCI → AGP geçiş dönemi gibi
AMD, eski HyperTransport günlerinde fırsatı yakalayacak gibiydi ama bugünkü Infinity Fabric daha çok şirket içi kullanımda kaldı
UALink ve CXL da ilgi görüyor ama hâlâ PCIe hız sınırına takılıyorlar
İdeal olarak çipte ağ entegrasyonu yerleşik gelmeli
Tıpkı eski Intel Xeon'ların 100Gb Omni-Path'i neredeyse bedavaya sunması gibi
- NVLink Fusion sonuçta bir Nvidia bağımlılığı tuzağı gibi görünüyor
  Intel'in çaresizliği anlaşılır ama AWS'nin aynı yola girmesi iyi görünmüyor
  AMD olsaydı SolarFlare NIC'i I/O die içine koymanın daha iyi olacağını düşünürdüm
  PCIe/SATA dönüşümü mümkünse PCIe/Ethernet dönüşümü de mümkün olmalı, ama UEC fazla niş bir pazar olabilir
Amazon resmi gönderisi: Trainium 3 UltraServer tanıtımı

Amazon, yeni Trainium3 yapay zeka çipini duyurdu ve Nvidia ile iş birliği yol haritasını öngördü

Trainium3 Tanıtımı

Başlıca müşteriler ve kullanım örnekleri

Gelecekteki Trainium4 çip yol haritası

Enerji verimliliği ve maliyet düşürme stratejinin önemi

Özet

İlgili okumalar

1 yorum

Hacker News yorumu