- Büyük Hadron Çarpıştırıcısı'nda üretilen devasa veri, doğrudan silikon çip üzerinde uygulanan ultra küçük yapay zeka modelleri ile gerçek zamanlı olarak filtreleniyor ve yalnızca bilimsel açıdan anlamlı olaylar seçiliyor
- Saniyede yüzlerce terabaytlık veri akışını işlemek için GPU veya TPU yerine FPGA ve ASIC tabanlı donanım kullanılıyor; kararlar nanosaniye düzeyinde gecikmeyle veriliyor
- HLS4ML aracı ile PyTorch veya TensorFlow modelleri sentezlenebilir C++ koduna dönüştürülerek doğrudan çipe dağıtılıyor; lookup table tabanlı yapı sayesinde kayan nokta işlemleri olmadan anında çıktı üretiliyor
- LHC'nin Level-1 Trigger sistemi yaklaşık 1.000 FPGA'dan oluşuyor ve veriyi 50 nanosaniye içinde değerlendiriyor; sonraki aşamalarda 25.600 CPU ve 400 GPU ek filtreleme yapıyor
- CERN, 2031'deki High-Luminosity LHC yükseltmesi için yeni nesil ultra küçük yapay zeka modelleri geliştiriyor; bu yaklaşımın otonom sistemler ve tıbbi görüntüleme gibi ultra düşük gecikmeli uygulamalara da genişleme potansiyeli bulunuyor
Genel Bakış
- CERN, ultra küçük yapay zeka modellerini doğrudan silikon çip üzerinde uygulayarak Büyük Hadron Çarpıştırıcısı (LHC) içinde üretilen devasa veriyi gerçek zamanlı olarak filtreliyor
- Çarpışma verileri içinden yalnızca bilimsel açıdan anlamlı olaylar seçiliyor, geri kalanı anında atılıyor
- Saniyede yüzlerce terabayta ulaşan veri akışını işlemek için GPU veya TPU yerine FPGA ve ASIC tabanlı özel donanım kullanılıyor
- Bu donanıma gömülü yapay zeka modelleri, dedektör seviyesinde mikrosaniye ile nanosaniye arası gecikmelerle karar veriyor
- Gerçek zamanlı seçim süreci, modern bilimde hesaplama gereksinimi en yüksek işlerden biri olarak değerlendiriliyor
Veri İşleme Zorluğu
- LHC yılda yaklaşık 40.000 eksabayt ham veri üretiyor; bu, bugünkü internetin toplam hacminin yaklaşık dörtte birine karşılık geliyor
- Proton demetleri 27 km'lik halka içinde ışık hızına yakın bir hızla hareket ediyor ve her 25 nanosaniyede bir kesişiyor
- Gerçek çarpışmalar nadir olsa da, tek bir çarpışma birkaç megabayt veri üretebiliyor
- Tüm veriyi depolamak veya işlemek mümkün olmadığından, olayların yalnızca yaklaşık %0,02'si korunuyor
- İlk filtreleme aşaması olan Level-1 Trigger, yaklaşık 1.000 FPGA'dan oluşuyor ve veriyi 50 nanosaniye içinde değerlendiriyor
- AXOL1TL algoritması doğrudan bu çipler üzerinde çalışarak bilimsel açıdan umut vadeden olayları belirliyor ve geri kalanını anında eliyor
Yapay Zeka Yaklaşımı ve Teknoloji Yığını
- CERN'in yapay zeka modeli, genel endüstrideki büyük modellerden farklı olarak ultra küçük ve yüksek verimli bir yapı ile tasarlanıyor ve dedektör seviyesinde ultra düşük gecikmeli çıkarım için optimize ediliyor
- Model, HLS4ML açık kaynak aracı üzerinden PyTorch veya TensorFlow tabanlı modelleri sentezlenebilir C++ koduna dönüştürüyor
- Dönüştürülen kod FPGA, SoC ve ASIC üzerine doğrudan dağıtılıyor; böylece GPU veya TPU'lara kıyasla çok daha az güç ve silikon alanı kullanarak çalışıyor
- Çip kaynaklarının önemli bir bölümü, sinir ağı katmanları yerine önceden hesaplanmış lookup table'ların uygulanmasına ayrılıyor
- Bu tablolar, yaygın giriş örüntülerinin sonuçlarını önceden saklayarak dedektör sinyallerinin büyük bölümü için kayan nokta işlemi olmadan anında çıktı üretiyor
- Bu donanım öncelikli tasarım felsefesi, nanosaniye düzeyinde gecikmeye ulaşılmasını mümkün kılıyor
- İkinci filtreleme aşaması olan High-Level Trigger, 25.600 CPU ve 400 GPU'dan oluşan bir hesaplama çiftliğinde çalışıyor
- Level-1 Trigger sonrasında bile saniyede birkaç terabayt veri işleniyor ve bu veri günde yaklaşık 1 petabayt bilimsel veriye sıkıştırılıyor
Gelecek Planları
- LHC, 2031'de devreye girmesi planlanan High-Luminosity LHC (HL-LHC) yükseltmesine hazırlanıyor
- Çarpışma başına veri miktarının bugüne göre yaklaşık 10 kat artması bekleniyor ve olay boyutlarının da çok daha büyük olacağı öngörülüyor
- CERN buna hazırlık olarak yeni nesil ultra küçük yapay zeka modelleri ile FPGA ve ASIC uygulama optimizasyonları üzerinde çalışıyor
- Amaç, tüm gerçek zamanlı tetikleme sistemini güçlendirerek çok daha yüksek veri hızlarında da ultra düşük gecikmeli performansı korumak
- Bu hazırlık, önümüzdeki onlarca yılda parçacık fiziğinde yeni keşiflerin sürmesini mümkün kılacak temel altyapı olarak görülüyor
Anlamı ve Etkileri
- Dünyadaki yapay zeka endüstrisi büyük modelleri ölçeklendirmeye odaklanırken, CERN en küçük, en hızlı ve en verimli yapay zeka modellerini geliştiriyor
- Bu modeller FPGA ve ASIC'lere doğrudan uygulanıyor ve "Tiny AI"ın gerçek dünyadaki uygulama örnekleri arasında gösteriliyor
- LHC tetikleme sisteminde bu modeller, genel amaçlı yapay zeka hızlandırıcılarıyla mümkün olmayan bir performans düzeyine ulaşıyor
- Nanosaniye düzeyinde karar almanın gerektiği uç koşullarda minimum kaynakla maksimum verimlilik sağlanıyor
- Bu yaklaşım, parçacık fiziğinin ötesinde otonom sistemler, yüksek frekanslı işlem, tıbbi görüntüleme ve havacılık-uzay gibi ultra düşük gecikmeli gerçek zamanlı çıkarım gerektiren alanlara da uygulanabilir
- Enerji verimliliği ve hesaplama kaynağı tasarrufunun giderek daha kritik hale geldiği bir dönemde, CERN'in modeli devasa ölçek yerine aşırı uzmanlaşma ve donanım düzeyinde optimizasyon için bir alternatif sunuyor
1 yorum
Hacker News yorumları
Bu makaledeki iki modelden birinin yazarı benim
Bir yanlış anlamayı netleştireyim: bu modeller doğrudan silikona kazınmış değil, FPGA üzerine yerleştirilmiş durumda
axol1tl için ağırlıklar fabric'e hardwired edilmiş olsa da hâlâ yeniden programlanabiliyor
CERN'in smartpixel ya da HG-Cal readout gibi projeleri ise gerçekten silikon hedefiyle ilerliyor
İlgili slaytlar: CERN sunum materyali
Makale onay süreci uzun sürüyor ama birkaç ay içinde daha kapsamlı bir sürüm çıkacak
Model başlangıçta basit bir VAE tabanlı MLP idi; v5'ten itibaren VICREG bloğu eklendi ve 40MHz'te 2 clock içinde çalışıyor
Sonrasında hls4ml-da4ml, ilgili makale üzerinden FPGA'ye yerleştirildi
CICADA modeli VAE tabanlı; öğretmen-öğrenci mimarisi ile anomali tespit skorunu denetimli öğrenmeyle distill ediyor
Referans slaytlar: CICADA sunum materyali
Araştırmam QAT (yüksek hassasiyetli quantization-aware training) ve dağıtık aritmetik tabanlı NN dağıtımına odaklanıyor
İlgili makaleler: arXiv:2405.00645, arXiv:2507.04535
Ben de doktoramın başında GNN hızlandırıcısını FPGA üzerinde gerçekleştirmiştim ve CERN/Fermilab tarafıyla işbirliği yapmıştım
Şimdi yönümü HLS ve EDA araştırmalarına çevirdim; bu günlerde tetikleme sistemini donanımda uygularken başlıca sınırların ne olduğunu merak ediyorum
Ticari HLS araçlarındaki bug'lar, debug zorluğu ve uzun build süreleri büyük kısıt gibi görünüyor
Bu yüzden darboğazın EDA araçları mı olduğunu, yoksa başka teknik etkenlerin mi daha büyük rol oynadığını öğrenmek isterim
Bunlar convolution katmanları içeren autoencoder tabanlı bir sinir ağı kullandı ve önceki deney verileriyle eğitildi
İlgili makale
Hangi yapay zeka algoritmasının kullanıldığını açıkça anlatsaydı çok daha iyi bir haber olurdu bence
Aslında modern CPU'lardaki branch predictor da perceptron kullanıyor
Delphi döneminde bile Higgs seçimi için ANN makaleleri vardı ve bu tür denemeler LHC'ye kadar uzandı
İlgili videoları paylaşıyorum
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk sayfası
Bu proje 40MHz'te çalışıyor ama benim geliştirdiğim CflexHDL aracı 148MHz'te gerçek zamanlı ray tracing gerçekleştiriyor
Demo videosu
Bu araç Nlnet Foundation tarafından destekleniyor ve CERN AI araçlarıyla entegrasyon da planlanıyor
Açık kaynak toolchain'in önemini vurgulamak istiyorum
Haberde biraz AI abartısı var
Aslında buna makine öğrenmesiyle elde edilmiş hard-coded mantık içeren bir çip demek mümkün
Gerçekte bu daha çok yalnızca çıkarım yapan bir durum makinesine benziyor; ortam değişirse yeniden eğitim değil, donanım respin'i gerekiyor
Böyle durumlarda “AI” kelimesinin yalnızca süslü bir sıfat olmadığını gerçekten hissediyorsunuz
İlginç olan şu ki, alışıldık AI'ın tersine burada modelin varlık nedenini kanıtlamak için donanım kısıtlarına dayanabilmesi gerekiyor
Böyle ortamlarda yalnızca gecikme (latency) değil, deterministik davranış, güç bütçesi ve aşırı yük altındaki kararlılık daha da önemli
“FPGA'ler silikona kazındı” ifadesi kulağa tuhaf geliyor
CERN gerçekten ASIC tape-out yapıyorsa bu etkileyici olurdu
İlgili sunum materyali
Bu, bugünlerde kastedilen anlamda bir LLM değil; FPGA üzerinde uygulanmış bir sinir ağı
ASIC'in bu durumda uygun olup olmayacağı da tartışmalı
Geri bildirim için teşekkürler
Haber metnini VAE tabanlı AXOL1TL mimarisi olarak düzelttim ve ilgili arXiv makalesini ve Thea Aarrestad'ın sunum videosunu ekledim
CERN hâlâ GPU'ları yaygın biçimde kullanıyor ve duruma göre COTS GPU/CPU'lardan aktif şekilde yararlanıyor