- AWS, 3nm Trainium3 çipinin kullanıldığı Trainium3 UltraServer'ı tanıtarak yapay zeka eğitim ve çıkarım performansını önemli ölçüde artırdı
- Yeni sistem önceki nesle göre 4 kata kadar daha hızlı hız ve 4 kat daha fazla bellek, %40 daha yüksek enerji verimliliği sunuyor
- En fazla 1 milyon Trainium3 çipi bir arada bağlanabildiğinden, büyük ölçekli yapay zeka uygulamaları için uygundur
- Anthropic, Karakuri, SplashMusic, Decart gibi müşteriler zaten bu çözümü kullanmakta ve çıkarım maliyetlerinde düşüş doğruladı
- AWS, bir sonraki nesil Trainium4 çipinin Nvidia NVLink Fusion desteğiyle Nvidia GPU'larıyla karşılıklı çalışabilirliğe sahip olacağını duyurarak, yapay zeka altyapısı rekabetinde önemli bir dönüm noktası olarak değerlendirildi
Trainium3 Tanıtımı
- AWS, re:Invent 2025 etkinliğinde Trainium3 UltraServer'ı resmi olarak duyurdu
- Bu sistem 3nm Trainium3 çipi ve AWS'nin kendi ağ teknolojisi ile çalışıyor
- Yapay zeka eğitiminde ve çıkarımda 2. nesile kıyasla büyük ölçüde daha yüksek performans sunuyor
- AWS, Trainium3 sisteminin 4 kat daha hızlı işleme hızı ve 4 kat daha fazla bellek kapasitesi sağladığını açıkladı
- Her bir UltraServer 144 çip taşır
- Binlerce sunucu bağlanarak azami 1 milyon çip tek bir uygulamada kullanılabiliyor
- Yeni çipin enerji verimliliği %40 artmış olup bu durum büyük ölçekli veri merkezlerinde elektrik tüketimini azaltmaya katkı sağlar
- AWS, bu iyileştirme ile yapay zeka bulut müşterilerinin maliyetlerini azaltabileceğini de vurguladı
Başlıca müşteriler ve kullanım örnekleri
- Anthropic, Japonya merkezli LLM Karakuri, SplashMusic, Decart gibi müşteriler zaten Trainium3 kullanıyor
- Bu müşteriler, çıkarım maliyetlerinde önemli ölçüde düşüş yaşadıklarını AWS üzerinden açıkladı
- AWS, bu performans ve maliyet verimliliği artışlarının yapay zeka uygulamalarının ölçeklenebilirliğini artıran bir temel oluşturduğunu kaydetti
Gelecekteki Trainium4 çip yol haritası
- AWS, Trainium4ün geliştirilmekte olduğunu ve Nvidia'nın NVLink Fusion yüksek hızlı ara bağlantı teknolojisini desteklemeyi planladığını duyurdu
- Böylece Nvidia GPU'larıyla karşılıklı çalışabilirlik mümkün olacak ve AWS'in düşük maliyetli sunucu raf teknolojisi ile birleştirilebilecektir
- Nvidia CUDA yapay zeka uygulamalarının ana standardı olarak konumlandığı bu ortamda, Trainium4 sistemi, Nvidia GPU tabanlı uygulamaların AWS bulutuna taşınmasını kolaylaştırma potansiyeline sahip
- Trainium4'ün lansman takvimi açıklanmadı, ancak bir sonraki yılki re:Invent etkinliğinde ek bilgiler paylaşılabilir
Enerji verimliliği ve maliyet düşürme stratejinin önemi
- AWS, veri merkezlerinde hızla artan elektrik kullanımına karşı “daha az tüketim yapan sistemler” geliştirme çabası içinde
- Bu yaklaşım, işletim maliyetlerini azaltma ve sürdürülebilirlik hedefini koruma olmak üzere iki amacı aynı anda gerçekleştirme hamlesi olarak görülüyor
- AWS'nin maliyet odaklı stratejisi yapay zeka altyapı rekabetinde bulut müşteri kazanımını güçlendirebilir
Özet
- Trainium3, performans, bellek ve verimlilikte büyük sıçrama yapan 3. nesil bir yapay zeka çipi
- Trainium4, Nvidia ile uyumluluk yoluyla AWS ekosistemini büyütmeyi hedefliyor
- AWS, yüksek performanslı, düşük maliyetli ve çevre dostu yapay zeka altyapısı hedefleyerek yapay zeka bulut pazarındaki rekabet gücünü artırmayı amaçlıyor
1 yorum
Hacker News yorumu
çünkü standart kütüphaneler olan Transformers veya PyTorch ile kararlı biçimde uyumlu olduklarına dair kesin bir kanıt yok
AWS iyi çalıştığını iddia ediyor ama bu, yalnızca onların kendi özel AMI'si ve neuron SDK'sındaki bir tür “mutlu yol” için geçerli
Gerçek bağımlılıklarımızı kullanarak iş yapmaya başladığınız anda hemen çöküyor
GCP'nin TPU'ları bile ancak Google yazılım desteğine devasa yatırım yaptıktan sonra kullanılabilir hale geldi
AWS çiplerini kullanmak için beta testçisi olmaya ayıracak vaktim yok
Kararlı olan az, geri kalanın ise köşeleri çok sivri
Amazon'un bu düzeyde yatırım yapacağını hayal etmek zor
vLLM sürümü 6 aydır güncellenmedi ve normal endpoint'ler, 8 yıl önce verilmiş 60 saniyelik timeout kararı yüzünden kullanılamıyor
Bu durumda özel silikon kullanmaya kalkışan bir geliştiricinin nasıl bir acı çekeceğini düşünmek bile korkunç
Gerçekte deneyenlerin, deploy ve operasyon sıkıntısı yüzünden vazgeçtiği söyleniyor
Şirket içinde yoğun kullanılıyor gibi görünüyor ama dış benimseme neredeyse yok
Yine de Amazon'un kendi çiplerine yatırım yapmasını olumlu buluyorum
Trn1 henüz o kadar değil, yani birileri kullanıyor gibi görünüyor
Muhtemelen AWS'den tam destek alıyorlar
SDK ve tooling'e daha fazla yatırım yapılmazsa kimse böyle bir cloud kullanmaz
Yapay zeka, onlarca yıldır değişmeyen temel veri tiplerini zorluyor
Block floating point Wiki belgesi
Ayrıntılar için Semianalysis bültenine bakın
Amazon, yapay zekada da lojistikte yaptığı gibi maliyet düşürmeyi hedefliyor gibi görünüyor
Ama özgüveni düşük ve Nvidia ile ilişkisini korumaya yönelik göstermelik bir strateji gibi duruyor
Intel de işin içinde ve bu biraz PCI → AGP geçiş dönemi gibi
AMD, eski HyperTransport günlerinde fırsatı yakalayacak gibiydi ama bugünkü Infinity Fabric daha çok şirket içi kullanımda kaldı
UALink ve CXL da ilgi görüyor ama hâlâ PCIe hız sınırına takılıyorlar
İdeal olarak çipte ağ entegrasyonu yerleşik gelmeli
Tıpkı eski Intel Xeon'ların 100Gb Omni-Path'i neredeyse bedavaya sunması gibi
Intel'in çaresizliği anlaşılır ama AWS'nin aynı yola girmesi iyi görünmüyor
AMD olsaydı SolarFlare NIC'i I/O die içine koymanın daha iyi olacağını düşünürdüm
PCIe/SATA dönüşümü mümkünse PCIe/Ethernet dönüşümü de mümkün olmalı, ama UEC fazla niş bir pazar olabilir