- Tesla, HotChips 2024'te Tesla Transport Protocol over Ethernet (TTPoE)'yi açık kaynak olarak yayımladı
- Tesla, Ultra Ethernet Consortium (UEC)'a katılarak bu protokolü paylaşıyor ve AI/ML/veri merkezleri için yeni bir yüksek hızlı/düşük gecikmeli fabric'i standartlaştırmak için çalışıyor
- TTPoE; özel mülkiyetli olmayan, düşük maliyetli, dağıtık tıkanıklık kontrolünü, standart EthernetII çerçevelerini ve merkezi olmayan bir ara bağlantı protokolünü hedefleyen bir yapı
- TTPoE'nin özellikleri
- TCP'de olduğu gibi paket kaybı ve yeniden iletime izin veriliyor, ancak uçtan uca iletim garanti ediliyor
- TTPoE'nin ilk dağıtımı Tesla Dojo v1 projesinde yapıldı
- Protokol tamamen donanım üzerinde çalışıyor ve on binlerce eşzamanlı endpoint'e sahip ultra büyük, çoklu exaflops (fp16) süper bilgisayara dağıtıldı
- Bu protokol, CPU veya OS müdahalesi olmadan bağlantıları kurup çalıştırabiliyor
- Bu protokol karmaşık ya da aşırı "zeki" değil; temel ilkelere dayanıyor
- Ethernet aktarımı özünde veriyi A noktasından B noktasına taşımaktır ve yalnızca fiziksel sınırlarla kısıtlanmalıdır
- Çok büyük ölçekli sistemlerde merkezi tıkanıklık yönetimi anlamsız bir çabadır; her endpoint esnek olmalı ve kendi kendini yönetmelidir
GN⁺ görüşü
- TTPoE, yüksek performanslı bilgi işlem ortamlarında mevcut TCP protokolünün sınırlamalarını aşmaya yönelik ilgi çekici bir girişim
- Donanım offload'u ve basitleştirilmiş durum makinesiyle gecikmeyi en aza indirmek ve throughput'u en üst düzeye çıkarmak ana hedef gibi görünüyor
- TTPoE, yapay zeka ve makine öğrenimi alanlarında veri aktarım hızını ve gecikmeyi iyileştirme potansiyeline sahip
- Tesla'nın bu protokolü açık kaynak olarak yayımlaması, HPC alanında yeniliğin hızlanmasına yardımcı olacaktır
- Ancak TTPoE'nin genel amaçlı ağlarda TCP'nin yerini tamamen alması zor görünüyor; bu, yüksek kaliteli özel ağlar için optimize edilmiş bir çözüm. TTPoE'nin yaygın biçimde benimsenmesi için standardizasyon ve ekosistem oluşturma önemli olacaktır
- Benzer işlevlere sahip protokoller arasında RoCE (RDMA over Converged Ethernet) ve NVLink bulunuyor
1 yorum
TTPoE hakkında biraz daha ayrıntılı anlatan başka bir yazı var.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
TTPoE’ye genel bakış
TTPoE’ye neden ihtiyaç duyuldu
TTPoE’nin özellikleri
TTPoE’nin tıkanıklık kontrolü
TTPoE donanım uygulaması
Mojo NIC
Özet