2 puan yazan GN⁺ 2025-12-03 | 1 yorum | WhatsApp'ta paylaş
  • AWS, 3nm Trainium3 çipinin kullanıldığı Trainium3 UltraServer'ı tanıtarak yapay zeka eğitim ve çıkarım performansını önemli ölçüde artırdı
  • Yeni sistem önceki nesle göre 4 kata kadar daha hızlı hız ve 4 kat daha fazla bellek, %40 daha yüksek enerji verimliliği sunuyor
  • En fazla 1 milyon Trainium3 çipi bir arada bağlanabildiğinden, büyük ölçekli yapay zeka uygulamaları için uygundur
  • Anthropic, Karakuri, SplashMusic, Decart gibi müşteriler zaten bu çözümü kullanmakta ve çıkarım maliyetlerinde düşüş doğruladı
  • AWS, bir sonraki nesil Trainium4 çipinin Nvidia NVLink Fusion desteğiyle Nvidia GPU'larıyla karşılıklı çalışabilirliğe sahip olacağını duyurarak, yapay zeka altyapısı rekabetinde önemli bir dönüm noktası olarak değerlendirildi

Trainium3 Tanıtımı

  • AWS, re:Invent 2025 etkinliğinde Trainium3 UltraServer'ı resmi olarak duyurdu
    • Bu sistem 3nm Trainium3 çipi ve AWS'nin kendi ağ teknolojisi ile çalışıyor
    • Yapay zeka eğitiminde ve çıkarımda 2. nesile kıyasla büyük ölçüde daha yüksek performans sunuyor
  • AWS, Trainium3 sisteminin 4 kat daha hızlı işleme hızı ve 4 kat daha fazla bellek kapasitesi sağladığını açıkladı
    • Her bir UltraServer 144 çip taşır
    • Binlerce sunucu bağlanarak azami 1 milyon çip tek bir uygulamada kullanılabiliyor
  • Yeni çipin enerji verimliliği %40 artmış olup bu durum büyük ölçekli veri merkezlerinde elektrik tüketimini azaltmaya katkı sağlar
    • AWS, bu iyileştirme ile yapay zeka bulut müşterilerinin maliyetlerini azaltabileceğini de vurguladı

Başlıca müşteriler ve kullanım örnekleri

  • Anthropic, Japonya merkezli LLM Karakuri, SplashMusic, Decart gibi müşteriler zaten Trainium3 kullanıyor
    • Bu müşteriler, çıkarım maliyetlerinde önemli ölçüde düşüş yaşadıklarını AWS üzerinden açıkladı
  • AWS, bu performans ve maliyet verimliliği artışlarının yapay zeka uygulamalarının ölçeklenebilirliğini artıran bir temel oluşturduğunu kaydetti

Gelecekteki Trainium4 çip yol haritası

  • AWS, Trainium4ün geliştirilmekte olduğunu ve Nvidia'nın NVLink Fusion yüksek hızlı ara bağlantı teknolojisini desteklemeyi planladığını duyurdu
    • Böylece Nvidia GPU'larıyla karşılıklı çalışabilirlik mümkün olacak ve AWS'in düşük maliyetli sunucu raf teknolojisi ile birleştirilebilecektir
  • Nvidia CUDA yapay zeka uygulamalarının ana standardı olarak konumlandığı bu ortamda, Trainium4 sistemi, Nvidia GPU tabanlı uygulamaların AWS bulutuna taşınmasını kolaylaştırma potansiyeline sahip
  • Trainium4'ün lansman takvimi açıklanmadı, ancak bir sonraki yılki re:Invent etkinliğinde ek bilgiler paylaşılabilir

Enerji verimliliği ve maliyet düşürme stratejinin önemi

  • AWS, veri merkezlerinde hızla artan elektrik kullanımına karşı “daha az tüketim yapan sistemler” geliştirme çabası içinde
  • Bu yaklaşım, işletim maliyetlerini azaltma ve sürdürülebilirlik hedefini koruma olmak üzere iki amacı aynı anda gerçekleştirme hamlesi olarak görülüyor
  • AWS'nin maliyet odaklı stratejisi yapay zeka altyapı rekabetinde bulut müşteri kazanımını güçlendirebilir

Özet

  • Trainium3, performans, bellek ve verimlilikte büyük sıçrama yapan 3. nesil bir yapay zeka çipi
  • Trainium4, Nvidia ile uyumluluk yoluyla AWS ekosistemini büyütmeyi hedefliyor
  • AWS, yüksek performanslı, düşük maliyetli ve çevre dostu yapay zeka altyapısı hedefleyerek yapay zeka bulut pazarındaki rekabet gücünü artırmayı amaçlıyor

1 yorum

 
GN⁺ 2025-12-03
Hacker News yorumu
  • Ekibimiz, Trainium veya Inferentia instance'larıyla ilgilenmediğimizi AWS temsilcisine defalarca söyledi
    çünkü standart kütüphaneler olan Transformers veya PyTorch ile kararlı biçimde uyumlu olduklarına dair kesin bir kanıt yok
    AWS iyi çalıştığını iddia ediyor ama bu, yalnızca onların kendi özel AMI'si ve neuron SDK'sındaki bir tür “mutlu yol” için geçerli
    Gerçek bağımlılıklarımızı kullanarak iş yapmaya başladığınız anda hemen çöküyor
    GCP'nin TPU'ları bile ancak Google yazılım desteğine devasa yatırım yaptıktan sonra kullanılabilir hale geldi
    AWS çiplerini kullanmak için beta testçisi olmaya ayıracak vaktim yok
    • AWS, çekirdek servislerin (S3, Dynamo, Lambda, ECS vb.) dışına çıktığınızda her yer beta servis dolu
      Kararlı olan az, geri kalanın ise köşeleri çok sivri
    • Google, TPU'ları ekosisteme entegre etmek için inanılmaz çaba harcadı
      Amazon'un bu düzeyde yatırım yapacağını hayal etmek zor
    • Spoiler: çok fazla özel kod yazmazsanız çalışmıyor
  • SageMaker'da LMI container'ını doğrudan build etmeye çalışırken cehennemi yaşadım
    vLLM sürümü 6 aydır güncellenmedi ve normal endpoint'ler, 8 yıl önce verilmiş 60 saniyelik timeout kararı yüzünden kullanılamıyor
    Bu durumda özel silikon kullanmaya kalkışan bir geliştiricinin nasıl bir acı çekeceğini düşünmek bile korkunç
  • AWS, Trainium hakkında büyük laflar ediyor ama sahneye çıkıp öven tek bir müşteri bile yok
    Gerçekte deneyenlerin, deploy ve operasyon sıkıntısı yüzünden vazgeçtiği söyleniyor
    Şirket içinde yoğun kullanılıyor gibi görünüyor ama dış benimseme neredeyse yok
    Yine de Amazon'un kendi çiplerine yatırım yapmasını olumlu buluyorum
    • Inf1/Inf2 spot instance'ları o kadar popüler değil ki CPU instance'larından %10-20 daha ucuz
      Trn1 henüz o kadar değil, yani birileri kullanıyor gibi görünüyor
    • Anthropic'in de Trainium'u yoğun kullandığını duydum
      Muhtemelen AWS'den tam destek alıyorlar
      SDK ve tooling'e daha fazla yatırım yapılmazsa kimse böyle bir cloud kullanmaz
  • Block floating point (MXFP8/4) kavramı ilginç
    Yapay zeka, onlarca yıldır değişmeyen temel veri tiplerini zorluyor
    Block floating point Wiki belgesi
  • İlginç olan, makalede bu çipin ne yaptığına dair tek bir açıklama bile olmaması
    • Özünde birden fazla 128x128 systolic array yapısı var
      Ayrıntılar için Semianalysis bültenine bakın
    • Adından da anlaşılacağı gibi Training için bir çip
    • Sonuçta vektör işlemleri yapan bir çip
    • Sanırım bu çipin gerçek görevi hissedarları memnun etmek, bu yüzden geliştiricilere açıklamaya gerek duymadılar
  • Performans veya benchmark hakkında hiçbir şey söylenmiyor
    • “4 kat daha fazla” diyorlar ama bu 4 kat daha hızlı demek değil ve 4 kat daha fazla bellek deniyor ama neye göre olduğu belli değil
  • Asıl haber “Nvidia dostu yol haritası” kısmı
    Amazon, yapay zekada da lojistikte yaptığı gibi maliyet düşürmeyi hedefliyor gibi görünüyor
    Ama özgüveni düşük ve Nvidia ile ilişkisini korumaya yönelik göstermelik bir strateji gibi duruyor
  • NVLink'in yayılması ilginç
    Intel de işin içinde ve bu biraz PCI → AGP geçiş dönemi gibi
    AMD, eski HyperTransport günlerinde fırsatı yakalayacak gibiydi ama bugünkü Infinity Fabric daha çok şirket içi kullanımda kaldı
    UALink ve CXL da ilgi görüyor ama hâlâ PCIe hız sınırına takılıyorlar
    İdeal olarak çipte ağ entegrasyonu yerleşik gelmeli
    Tıpkı eski Intel Xeon'ların 100Gb Omni-Path'i neredeyse bedavaya sunması gibi
    • NVLink Fusion sonuçta bir Nvidia bağımlılığı tuzağı gibi görünüyor
      Intel'in çaresizliği anlaşılır ama AWS'nin aynı yola girmesi iyi görünmüyor
      AMD olsaydı SolarFlare NIC'i I/O die içine koymanın daha iyi olacağını düşünürdüm
      PCIe/SATA dönüşümü mümkünse PCIe/Ethernet dönüşümü de mümkün olmalı, ama UEC fazla niş bir pazar olabilir
  • Amazon resmi gönderisi: Trainium 3 UltraServer tanıtımı