Norveç’in 2 petabayt Huawei flash depolaması ve LLM eğitimi
(blocksandfiles.com)- Norveç Milli Kütüphanesi, Norveççeyi anlayan egemen (sovereign) bir LLM oluşturmak için 2 PB Huawei OceanStor Dorado flash depolamayı yapay zeka eğitim hattına dahil etti
- Ticari LLM sağlayıcıları Norveççe için yerel model geliştirmediğinden, İngilizce merkezli LLM’ler yerel dilde kaydedilmiş tarih, haber ve kültürü doğru biçimde ele almakta zorlanıyor
- Milli Kütüphane, 2005’ten bu yana kitapları, gazeteleri, web sayfalarını, sesi ve videoyu dijitalleştirerek 20 PB özgün veri biriktirdi ve 3-2-1 yöntemiyle yaklaşık 60 PB depoluyor
- Darboğaz hesaplama gücünden çok veri kalitesi, arıtma ve iş hattı throughput’unda bulunuyor; veriler içeride DGX H200, CPU kümesi ve Huawei flash üzerinde hazırlanıp Sigma2 Olivia’da eğitiliyor
- Koruma arşivi ile yapay zeka hattının dayanıklılık-maliyet ve düşük gecikme-paralel I/O gibi ihtiyaçları farklı olduğundan, egemen LLM için yönetim ve muhafaza yetkinlikleri de gerekiyor
Norveç Milli Kütüphanesi’nin egemen LLM projesi
- Norveç Milli Kütüphanesi(Nasjonalbiblioteket), Norveççeyi anlayan büyük dil modeli (LLM) geliştiriyor ve yapay zeka eğitim veri hattında 2 PB Huawei OceanStor Dorado flash depolama kullanıyor
- Milli Kütüphane BT platformları sorumlusu Marius Husnes, Huawei ID Forum 2026 Paris’te ticari LLM sağlayıcılarının Norveççe bölgesel dil LLM’i geliştirmediğini söyledi
- Kendi dilinde eğitilmiş egemen LLM’i olmayan ülkeler, küresel veri ve İngilizce merkezli olarak eğitilmiş LLM’lere bağımlı kalıyor; bu tür modeller de yerel dilde yazılmış tarih, haber ve kültürü anlamakta zorlanıyor
- Norveç Kültür Bakanlığı, egemen yapay zeka yani bir LLM inşasını Milli Kütüphane’ye verdi; Milli Kütüphane de Norveç’in en büyük dijital kitap, gazete ve web sayfası koleksiyonuna sahip
- Milli Kütüphane, yayımlanan tüm kitaplar ve yayın içeriklerinin bir kopyasını alma hakkına sahip; derleme yükümlülüğü kitapların ötesine geçerek tüm Norveç kültürel mirasını toplama ve koruma rolüne genişletildi
- Norveçli gazete şirketleriyle yapılan anlaşmalar sayesinde telifli içerik de LLM eğitiminde kullanılabiliyor; Husnes, “özel şirketlerde bu yok” dedi
Veri hacmi ve dijitalleştirme temeli
- Milli Kütüphane, 2005’ten beri koleksiyonlarını dijitalleştirerek 20 PB özgün veri topladı
- Bu veriler 3-2-1 yöntemiyle saklanıyor
- 3 kopya
- 2 ortam türü
- 1 off-site saklama
- Bu yapı nedeniyle toplam depolama hacmi yaklaşık 60 PB’ye ulaşıyor
- Dijitalleştirilen içerikler arasında düz metin, ses, video, durağan görüntü ve web içeriği bulunuyor
- Dijitalleştirme sürecinde çok sayıda OCR taraması yapıldı, ayrıca büyük miktarda metadata ve çevrimiçi erişim için API’ler üretildi
- Verilerin çoğu, dijital disk ve teyp arşivinden oluşan koruma sistemi içinde tutuluyor
Veriyi arşivden yapay zeka hattına taşıma sorunu
- Temel zorluk, koruma sistemindeki veriyi LLM eğitim sistemine aktarmak
- Darboğaz, hesaplama değil; veri kalitesi, arıtma ve iş hattı throughput’u
- Süreç, Milli Kütüphane içindeki hesaplama ortamında veri hazırlama ile ulusal süper bilgisayarda gerçek eğitimin çalıştırılması olarak ikiye ayrılıyor
- İç ortam şu donanımlardan oluşuyor
- Nvidia DGX H200 sistemleri
- 384 çekirdekli CPU kümesi
- Toplam 2 PB flash kapasitesine sahip birden fazla Huawei OceanStor Dorado all-flash array
- Huawei flash depolama, veri hattı ve eğitim hazırlığı için düşük gecikmeli depolama olarak kullanılıyor
- Hat; veri toplama, arıtma, tekilleştirme, format normalizasyonu, doğrulama ve hazırlık aşamalarını içeriyor
Eğitim çalıştırma ortamı: Sigma2 Olivia
- Hattan geçen veri, gerçek eğitim yürütmesi için Norveç’in ulusal süper bilgisayarı Sigma2 Olivia sistemine gönderiliyor
- Olivia, bir HPE Cray Supercomputing EX sistemi
- Olivia’nın bileşimi şöyle
- 448 GPU
- 64.512 CPU çekirdeği
- 5,3 PB Cray ClusterStor E1000 depolama sistemi
- Milli Kütüphane’nin kurum içi yapay zeka ortamı verileri hazırlıyor, Olivia ise eğitimi yürütüyor
Farklı depolama gereksinimleri
- Koruma arşivi ile yapay zeka hattı depolaması farklı gereksinimlere sahip
- 60 PB’lik koruma sistemi dayanıklılık ve maliyet için optimize edilmiş; hızlı I/O için optimize edilmemiş
- Koruma sistemi seyrek erişim varsayımıyla tasarlandığı için okuma gecikmesi yüksek
- Yapay zeka hattı depolaması ise yüksek throughput, düşük gecikme ve paralel veri I/O’su için tasarlandı
- PB ölçeğindeki veri kümelerini arşivden yapay zeka veri hattına taşıyıp işleme yöntemini ekip kendi başına bulmak zorunda kaldı
Hâlâ çözülmekte olan zorluklar
-
Değerlendirme
- Egemen Norveççe LLM’i değerlendirecek standart değerlendirme araçları yok
- Norveççede iki yazı dili biçimi bulunuyor; ayrıca çeşitli lehçeler ve tarihsel değişimler var
- Milli Kütüphane ekibi kendi değerlendirme araçlarını geliştiriyor
-
Yönetişim
- Egemen LLM’e erişimi kimin kontrol edeceğine karar verilmesi gerekiyor
- Egemen LLM’in hangi amaçlarla kullanılabileceğine kimin karar vereceği de ayrı bir sorun
- Bu, kurumsal ve siyasi bir soru; kolay bir cevabı yok
-
Orkestrasyon
- Koruma arşivi, kurum içi yapay zeka ortamı ve ulusal Sigma2 süper bilgisayarı olmak üzere üç sistemi sorunsuz biçimde birlikte çalıştırma işi sürüyor
Anlamı ve sonuç
- Huawei depolama, Avrupa pazarında önemli ve somut bir rol oynuyor
- Egemen, yerel dil LLM’i geliştirmek isteyen ülkeler için Husnes ile görüşmek ve gereken işleri anlamak faydalı olabilir
- Norveç, İngilizce konuşulmayan tüm ülkelerin karşılaşacağı sorunları ele alan küçük bir ülke örneği olarak sunuluyor
- Temel soru, kendi dili, kültürü ve tarihini yansıtan yapay zekanın nasıl inşa edileceği
- Yapay zekanın yalnızca kuruculara değil, yöneticilere ve muhafızlara da ihtiyacı var
1 yorum
Hacker News yorumları
Bir Norveçli olarak Ulusal Kütüphane’yi neredeyse her gün metin araması için kullanıyorum
Çok büyük metin koleksiyonları içinde arama yapmaya yönelik kullanıcı arayüzü ve özellikler gerçekten üst düzey
İçeriğin önemli bir kısmına yalnızca Norveç IP’lerinden erişilebiliyor; bu yüzden Birleşik Krallık’ta yaşıyor olsam da Norveçli biri olarak VPN kullanmayı sürdürmemin başlıca nedenlerinden biri bu. Bir kısmına da yalnızca kütüphane veya araştırma kurumu IP’lerinden erişilebiliyor, ama buna rağmen herkese açık materyal de muazzam miktarda var
Şu ifadenin ne kadar doğru olduğunu merak ediyorum: “Kendi dili olan bir ülke, o dilde eğitilmiş egemen bir LLM’e sahip değilse dezavantajlıdır. Çünkü dünya genelindeki verilerle eğitilmiş İngilizce merkezli LLM’ler, o ülkenin kendi dilinde anlatılmış tarihini, haberlerini ve kültürünü bilmez”
Büyük oyuncuların, diline ya da kalitesine bakmadan erişebildikleri neredeyse her şeyi zaten eğittiğini düşündüğüm için, bu görüş bana genel amaçlı LLM’lerin ilk dönemlerinden kalma bir fikir gibi geliyor
Kendi modelini eğitmek için büyük maliyete girmenin neden gerekli olduğunu anlamıyorum; özellikle de ortaya çıkacak modelin son teknoloji modellerden daha zayıf olma ihtimali yüksekse
Soy araştırması nedeniyle genel anahtar kelime aramasıyla orada sık sık materyal buluyorum ve ne arama motorunun ne de dil modellerinin bildiği şeylerle karşılaşıyorum
Elbette ilgilendiğim bilgiler genelde AI’ın kazıyabileceği bir yerlerde yayımlanmış oluyor, ama oradaki ilginç malzemenin tamamını ortaya çıkarmak gerçekten çok uzun sürer
İsveççe konuştuğum tüm modeller bunu kusursuz biçimde ele aldı. Norveççe için de büyük olasılıkla durum zaten aynıdır
https://arxiv.org/pdf/2507.22445 gibi deneylerin uygulanıp uygulanamayacağını görmek de ilginç olurdu
Performans üzerindeki etkisi neredeyse olmayabilir, hatta bazen daha iyi bile olabilir. Yine de İngilizce kalıplar, diğer dillerin ana dil konuşuru kalıplarına ince biçimde sızabilir
Düşük kaynaklı dillerde ise bu bambaşka bir sorun, ama bunu iyileştirmek için yeni bir modelden çok daha fazla veri gerekir
“Olivia sistemi, 448 GPU ve 64.512 CPU çekirdeğine sahip bir HPE Cray Supercomputing EX sistemidir”
Bu kadar zayıf bir donanımla, açık kaynak bir model üzerine LoRA eklemek yerine egemen bir LLM eğitmeye kalkmak büyük bir hata ve bir uyarı işareti gibi görünüyor
Tam teşekküllü bir LLM eğitmeye yetecek kaynakları yoksa, bunu hedef olarak sunmaları bu LLM’yi gerçekten faydalı hale getirmek gibi bir niyetleri olmadığını düşündürüyor. O zaman da kimin parasının neden harcandığını sormak gerekiyor
Yani LLM yapma bilgisini kurumun içine yerleştirmek
Kâğıt üzerinde aktör Ulusal Kütüphane olsa da, habere göre bu amaçla Norveççe materyalleri yasal olarak sahiplenip kullanabildiği için seçilmiş gibi görünüyor. Üniversiteler gibi ilgili kurumlardaki araştırmacılar da muhtemelen sürece katılacaktır
Ama bunun gerçekten değerli bir şeyi hedeflediğini düşünmüyorum. O ince ayar modelleri çok bozuktu ve daha çok yöntemi kurmaya yönelik gibiydi. Bunun çok faydalı olduğundan emin değilim, ama araştırma fonlarıyla kimin ne yapacağına ben karar vermiyorum
Kullandığım ince ayar modellerinden biri, sohbette duygu gösteren insanlarla sık sık alay ediyordu
Bir başka ince ayar modeli ise ben sadece “hei” yazdığımda bile, benim doktor olduğumu sanrılıyor ve bebeğimin korkunç bir hastalığı olduğunu her seferinde söylüyordu. Muhtemelen sıradan ve nötr bir sistem istemi bu davranışı tetikliyor olabilir
Bence Olivia, amaçları için yeterince büyük. Şu anda en iyisi güncel eğilimleri takip ederken donanıma gereğinden fazla para saçmamak
Norveççe derlemeleri çok büyük bir kümeye ihtiyaç duymayabilir; ihtiyaç duysa bile, kütüphanenin yapabileceğinin en iyisi muhtemelen budur. Norveççe modellere yapılan yatırımlar arasında bunun en büyük kalemlerden biri olduğu neredeyse kesin
En üst düzey modeller, Ulusal Kütüphane’nin elindeki içerik kalitesine erişemiyor olabilir. Haberde de gazetelerle yapılan lisans anlaşmalarından söz ediliyor ve kütüphanenin kendi arşivleri de var
İngilizce ile Norveççe yakın akraba diller olmadığı için LoRA en iyi yaklaşım olmayabilir
Hedef dilin dilbilgisi ve sözcük dağarcığının İngilizceden ne kadar uzak olduğuna bağlı olarak, LoRA tabanlı yerelleştirmenin ne kadar iyi çalıştığına dair kamusal araştırmalar olup olmadığını merak ediyorum
Bu tür projelerde genelde tek bir hedef olmaz; amaç sadece son teknoloji bir model üretmek değil, üniversitelerin uydu fırlatmasında olduğu gibi yerel yetenek yetiştirmek ve eğitmek de olur
Kendi embedding modelini oluşturup tüm kütüphaneyi indeksledikten sonra, tarih, kültür, hukuk ve strateji sorularına kendi ülkesinin perspektifinden yanıt verirken bu veriyi sorgulayan bir modeli eğitirlerse, oldukça ilginç ve faydalı olabilir
React kodu üretmede Anthropic’i geçemezler belki, ama zaten bunu kopyalamak zorunda da değiller
Zaten 10 milyar parametrenin altındaki çeşitli modellerle hem ince ayar hem de sıfırdan eğitim denendi ve en son baktığımda sıfırdan eğitilen yaklaşım dili yakalamada daha başarılıydı
Norveç'in bunun yerine ya da buna paralel olarak eğitim veri setleri oluşturup bunları tüm model geliştiricilerle ücretsiz paylaşması daha iyi olmaz mı diye düşünüyorum
En ileri modellerin Norveççeyi ve Norveç kültürünü öğrenmesini sağlamak, burada hedeflenen amaca ulaşmak için daha iyi ya da ek bir yol gibi görünüyor
Örneğin okuduğum 1911 tarihli “De knyttede næver” romanını Claude'a 1911 civarı Norveç yazımıyla açıklattım ve bunu iyi yaptı
Eksik olan şey Norveç edebiyatı, kültürü ve tarihi hakkında kavrayış. “De knyttede næver”, yayımlandığı dönemde çok satan Norveç romanlarından biriydi, ama Claude ancak bunu araştırdıktan sonra bir şeyler üretebildi. ChatGPT daha iyiydi; özellikle düşünme modunda ayrıntılı bir özet verdi
Bugün çok bilinen bir eser değil, ancak yazarı onlarca yıl boyunca tanınmış bir gazete muhabiriydi ve bu seri, başkahramanın adını sahne adı olarak kullanan bir Norveçli şarkıcı olacak kadar biliniyordu. Yazarın siyasi görüşleri ve bunun roman üzerindeki etkisi nedeniyle eser onlarca yıl Norveç gazetelerinde ve kitaplarda da ele alındı; yani bu oldukça makul bir test ve kayda değer bir bilgi boşluğunu ortaya koyuyor gibi geliyor
Ulusal Kütüphane veri setlerini daha erişilebilir hale getirmenin daha iyi olacağına katılıyorum. Ancak buradaki büyük ek unsur, arşivlere bağlı ve kullanım kısıtlamalı telifli materyaller üzerinde eğitim yapabilmek için anlaşmalar yapılmış olması gibi görünüyor
Yine de koleksiyondaki yalnızca telif süresi dolmuş verileri yayımlamak bile harika bir başlangıç olurdu
Devlet kurumlarıyla yasal anlaşmalarını korumak ve kendi ülkesi için gerçekten faydalı bir şey geliştirmek çok daha iyi
Marius Husnes'in “ticari LLM sağlayıcıları yerel Norveççe LLM geliştirmiyor ve kendi dilinde eğitilmiş egemen bir LLM'si olmayan ülkeler dezavantajlıdır” dediği kısma bakınca, burada ne söylediğini tam olarak bildiğine dair çok büyük bir güven duymuyorum
İngilizce odaklı LLM'lerin İngilizcede daha güçlü olmasının nedeni, token alanının İngilizceye daha sıkıştırılmış biçimde ayrılmış olmasıdır. Anthropic API'yi kullanan çevrimiçi tokenizer'a yaygın İngilizce ve Norveççe kelimeler girerseniz, İngilizce genelde bir token ya da daha az tutarken Norveççe çoğu zaman 2-4 token, bazen daha da fazla olur. Tayca gibi diller çok daha büyük dezavantaj altında
Külliyat seçimi de sık sık hedef dilden yana ciddi biçimde eğilir. Çünkü o dildeki eserleri edinmek daha fazla emek gerektirir
Diller arasında anlamsal olarak benzer embedding'lerin karşılıklı etkisi nedeniyle vektör uzayında kültürel taban çizgileri ve başka anlam kaymaları da oluşur. Son olarak ince ayar, bir LLM'nin kültürel ifadesi üzerinde büyük etkiye sahiptir. Bunlar önemsiz etkiler değil
Yok olmakta olan diller ve kültürler arası modellerden yararlanan dil modelleri üretmeye yönelik çok çaba var, ancak okuryazarlık temeli güçlü bir dil söz konusuysa, kendi diline ve kültürüne özgü bir miras LLM'si geliştirmek için fazlasıyla iyi nedenler vardır. OpenAI ya da Anthropic'in bir tercih anında sizin dilinizi hedef müşterilerinden öne koymasını beklemek saçmadır
Anadili, üslubu ve tavrı Amerikan
Netflix ve HBO bugün İskandinav dizileri yapıyor olsa da onlara bel bağlayamayacağımız gibi, bu alanda da kendi ürünümüzü kendimiz geliştirmeliyiz
Zamanla bunu mümkün kılan teknoloji daha ucuz ve daha erişilebilir hale gelecektir
Bu model yalnızca Lehçe ifade tarzını korumakta daha iyi değil, devlet belgeleri yazmakta da daha iyi. Neden daha iyi? Çünkü arena değerlendirmeleri yapıldı ve istatistiksel olarak daha iyi olduğu görüldü
Ortaya bir iddia atılmış ama bir gerekçe yok gibi görünüyor. Neden yalnızca İngilizce LLM'lere sahip olmak dezavantajlı olmasın?
Bugünkü modellerle Norveç tarihi ve kültürünün inceliklerini yakalayabiliyor musunuz?
Galce de Nemotron ile LLM eğitimi alıyor
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
En verimli yöntem bu olmayabilir, ancak Latin alfabesi dışı diller için sıfırdan geliştirmenin hâlâ bariz kullanım alanları var gibi görünüyor
sarvam.ai'ye ve yerel dil tokenizasyonunu iyileştirme örneklerine bakmak yeterli [1]. Her LLM'nin kod yazmaya yardım etmesi ya da şimdiden bir Babel fish olması da gerekmiyor
Dil kültürdür; bu yüzden motivasyonlarını anlıyorum. Bunu kendilerinin yapabilecek durumda olması da güzel bir şey gibi görünüyor
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
Rusya'daki T-Bank, temel Qwen tokenizer'ını değiştirip Kiril alfabesi tokenlarını 5 kat artırdı ve Rusça külliyatla ek eğitim yaparak üretim hızını 1.5 ila 3 kat artırabildi
Bu çok büyük bir depolama dağıtımı
LLM eğitiminin G/Ç gereksinimleri, özellikle de checkpoint alma düşünülürse, geleneksel disk dizileri yerine bu ölçekte NVMe flash'a yönelmek mantıklı
“Norveç, İngilizce konuşulmayan tüm ülkelerin karşı karşıya olduğu sorunu çözmeye çalışan küçük bir ülke. Kendi dilini, kültürünü ve tarihini yansıtan yapay zekayı nasıl inşa edeceksin? Yapay zekanın yalnızca üreticilere değil, yöneticilere de ihtiyacı var”
Ne yazık ki cevabın büyük ölçüde “edemezsin”e yakın olduğunu düşünüyorum.
Böyle işler güçlü bir siyasi irade gerektiriyor ama en azından benim çevremde bunu tutturmak fiilen imkânsız görünüyor.
Maliyeti karşılamak da zor ama ondan da öte, bu tür yerel temsil meselesini önemseyenler ya yabancı şirketler bunu hayata geçirse bile tamamen sorun etmiyor ya da en baştan yapay zekanın kendisine karşı çıkıyor. İsteyen zaten ChatGPT’yi Baskça da kullanabiliyor.
Küçük ama son derece zengin bir ülke ve şu anda varlık fonu yatırımları sayesinde dünya genelindeki halka açık şirketlerin %1,5’ine denk gelen hisselere sahip.
Ve böyle modellerin, ülke içinde yapılabileceklerden çok daha üstün olma ihtimali yüksek.
Elbette bunu söylerken ekranın öte yanından gelen ürperişi de hissedebiliyorum.