EuroLLM: Avrupa’da geliştirilen, AB’nin 24 resmi dilini destekleyen bir LLM

(eurollm.io)

3 puan yazan GN⁺ 2025-10-29 | 1 yorum | WhatsApp'ta paylaş

EuroLLM, Avrupa’daki araştırma kurumlarının ortaklaşa geliştirdiği, AB’nin 24 resmi dilini destekleyen büyük dil modeli (LLM) olup Avrupa’nın yapay zeka egemenliği ve teknolojik bağımsızlığını hedefliyor
9B parametreli model, 35 dilde 4 trilyondan fazla token ile eğitildi ve soru-cevap, özetleme, çeviri gibi dil görevlerinde güçlü performans sergiliyor
EuroLLM 9B Base ince ayar için açıklandı; EuroLLM 9B Instruct ise konuşma tabanlı yönerge yürütme özelliklerine sahip sürüm olarak Hugging Face üzerinde kullanılabiliyor
Projeye Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe gibi Avrupa’nın önde gelen kurumları katılıyor ve eğitim MareNostrum 5 süper bilgisayarı üzerinde gerçekleştirildi
Çok modlu genişleme (görüntü·ses) ve tam açık kaynak açılım politikası duyurulurken, Avrupa içindeki yapay zeka inovasyon ekosisteminin temel altyapısı haline gelmesi hedefleniyor

EuroLLM’e genel bakış

EuroLLM, Avrupa’da geliştirilen bir büyük dil modeli (Local LLM) olup AB’nin 24 resmi dilinin tamamını destekliyor
- Dil engelleri olmadan Avrupalı vatandaşlar, şirketler ve araştırmacılar tarafından kullanılabilecek kamusal altyapı tipi bir yapay zeka modeli olarak tasarlandı
Avrupa Birliği’nin Horizon Europe, European Research Council, EuroHPC destekleriyle geliştirildi
- Eğitim MareNostrum 5 süper bilgisayarı üzerinde yapıldı

Teknik özellikler

EuroLLM 9B: 9 milyar parametre ölçeği, 35 dilde 4 trilyon token verisiyle eğitildi
- Base modeli kullanıcı ince ayarı için, Instruct modeli ise konuşma tabanlı yönerge yürütme yeteneği için sunuluyor
Başlıca özellikler:
- Soru-cevap, özetleme, çeviri gibi çok dilli doğal dil işleme performansı için optimize edildi
- Çok modlu genişleme planlanıyor — gelecekte görüntü ve ses anlama yetenekleri eklenecek
- Açık kaynak dağıtımı sayesinde araştırmacılar, kurumlar ve sıradan vatandaşlar tarafından özgürce kullanılabilecek

Katılımcı kurumlar ve iş birliği ağı

Katılımcı kurumlar:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
Reklam
Öne çıkan araştırmacılar:
- André Martins (Unbabel, Lizbon Teknik Üniversitesi profesörü) — makine öğrenimi ve doğal dil işleme uzmanı
- Alexandra Birch (Aveni.ai, Edinburgh profesörü) — çok dilli çeviri ve etik yapay zeka araştırmalarında öncü
- Pierre Colombo (Université Paris-Saclay) — yapay zeka güvenliği ve hukuki yapay zeka uygulamaları araştırmacısı

Misyon ve vizyon

EuroLLM’in hedefi Avrupa’nın yapay zeka egemenliğini güçlendirmek ve çok dilli teknoloji gelişimini hızlandırmak
- Avrupa içinde bağımsız olarak geliştirilen bir LLM aracılığıyla yenilik için olumlu bir döngü (flywheel for innovation) oluşturmayı amaçlıyor
- Araştırmacıların ve şirketlerin Avrupa menşeli yapay zeka modellerini temel alarak yeni hizmetler ve araştırmaları genişletebilmesini destekliyor
Avrupa’nın dil çeşitliliğine dayalı teknolojik liderliğini güçlendirerek,
küresel yapay zeka ekosisteminde kendi kendine yeten bir inovasyon modeli kurmayı hedefliyor

1 yorum

GN⁺ 2025-10-29

Hacker News görüşleri

Avrupa Birliği'nin toplam 24 resmî dili var. Bunlar Bulgarca, Hırvatça, Çekçe, Danca, Felemenkçe, İngilizce, Estonca, Fince, Fransızca, Almanca, Yunanca, Macarca, İrlandaca, İtalyanca, Letonca, Litvanca, Maltaca, Lehçe, Portekizce, Romence, Slovakça, Slovence, İspanyolca ve İsveççedir
Maltaca tek Afroasya dili, Macarca, Fince ve Estonca ise Ural dil ailesine aittir. Geri kalanın tamamı Hint-Avrupa dil ailesindendir; Yunanca Helenik, İrlandaca ise Kelt dil ailesindendir
- Daha doğru söylemek gerekirse Maltaca Sami (Semitic) bir dildir. Wikipedia'ya bakın
- Yarın Hollanda genel seçimlerinde iki parti, Frizce'nin resmî diller listesine eklenmesini öneriyor. İlgili haber
  Modelin yeniden eğitilmesi gerekebilir
- Maltaca okuyabiliyor, yazabiliyor ve konuşabiliyorum. Dille ilgili merak ettiğiniz her şeyi sorabilirsiniz
- Litvanca ve Letonca Baltık dil ailesindendir. Slav dilleriyle akraba değildir
- Makaleye bakılırsa model yalnızca bu 24 dille sınırlı değil. Arapça, Katalanca, Çince, Hintçe, Japonca, Korece, Norveççe, Rusça, Türkçe ve Ukraynaca da dahil. Makale PDF'i
  Eğitim verisinin kaynaklarını ayrıntılı ele alması, bu çalışmanın ana katkısı gibi görünüyor
Avrupalı politika yapıcılar teknoloji yoğun sektörleri nasıl büyüteceklerini hiç bilmiyor gibi görünüyor. “Kazanan seçme” tarzı sübvansiyon yaklaşımının başarısız olacağı çok açık. Avrupa süper bilgisayarlarına erişimle ilgili kısım da ilginç. İlgili tweet
- AB'nin sübvansiyon süreçleri eğlenceli değil ama Levels biraz kendine fazla güveniyor gibi. Bir influencer olarak gelir elde etmede başarılı olabilir, ancak devlet destekli süper bilgisayarlarda reklam tabanlı tarayıcı oyunu çalıştırmanın uygun olduğunu düşünmüyorum
- Asıl önemli olan, Avrupa'nın yapay zeka girişimleri için elverişli bir ortam oluşturması. Öncelik düzenlemeleri gevşetmek ve vergi teşvikleri sağlamak olmalı.
  Ancak gerçekte Avrupalı şirketlerin yaşadığı en büyük kısıt düzenleme değil, sermayeye erişim.
  Çin daha sıkı düzenlemelere rağmen yazılım sektörünü büyütmeyi başardı. Kore de benzer şekilde korumacılıktan fayda gördü.
  Avrupa'nın öğrenmesi gereken şey daha fazla teknoloji korumacılığı. Pieter Levels sonuçta sadece bir influencer, ciddi bir kurucu değil
- “Kazanan seçme stratejisinin” pratikte ne tür sonuçlar verdiğini merak ediyorum
- Bu politikaların amacının gerçekten “kazanan seçmek” mi, yoksa kurucu kapasitesini artırmak ve ekonomiyi canlandırmak mı olduğu şüpheli.
  ABD'de FAANG çıkışlı çok sayıda kurucu var ama Avrupa'da böyle bir ekosistem eksik.
  Süper bilgisayar projesi başarısız olsa bile hedef ikincil ekonomik etkiler olabilir
- İnsanlar ona fazla hoşgörülü davranıyor. “levelsio”nun kim olduğunu bilmeyen çok kişi vardır; herkesin neden onu tanıyormuş gibi davrandığını merak ediyorum
Başlıkta “(2024)” eksik. 9B model geçen yıl aralık ayında yayımlandı. Resmî sayfa
EuroLLM ekibinde Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs gibi Avrupa'nın önemli kurumları yer alıyor.
Avrupa, EuroHPC JU üzerinden kamusal bir süper bilgisayar ağı işletiyor ve erişim alır almaz model geliştirmeye başladıklarını söylüyorlar. Resmî hikâye
Bir bakıma fizik simülasyonları için ayrılmış hesaplama kaynaklarını yeniden değerlendirmişler
Zaten çoğu frontier model çok dilli değil mi? Dil desteğini ayrıca vurgulamanın gerekli olmadığını düşünüyorum
- Ama bu modelin asıl meselesi AB onaylı verilerle eğitilmiş olması
- Sadece dil örneklerinin bulunması değil, her dilin veri oranı önemli. İngilizce verisi ezici çoğunlukta olduğu için diğer dillerde performans düşüyor
- Eğitim yöntemi farklı. Japonca gibi dillerde tokenization sorunları nedeniyle performans sık sık düşük oluyor
- İngilizce dışındaki dillerde, çevrilmiş gibi duran yapay bir üslup sık görülüyor. Fransızca kullanıcılar bozuk cümleleri sık sık işaret ediyor
- Avrupa hükümetleri büyük miktarda dijital arşiv ve kültürel veri bulunduruyor. Bu tür kültürel farklar modellerin değer yargılarını da etkileyebilir
Gerçekte kullanılan corpus açıklanmadığı için bu üzücü. İrlandaca gibi küçük diller muhtemelen büyük ölçüde hukuk belgelerine dayanıyordur; gündelik konuşma verisi neredeyse yoktur.
Diller bazında değerlendirme yerel konuşurlar ölçüt alınarak yapılsa ilginç olurdu.
LLM'ler bu tür yok olma tehlikesi altındaki diller üzerinde olumlu etki yaratabilir, ama öncesinde riskler de var (ör. İskoç Galcesi Wikipedia vakası).
Yine de genel olarak iyi bir girişim olduğunu düşünüyorum
EuroLLM-9B, Aralık 2024'te yayımlanan bir model ve MMLU-Pro'da %17,6 ile rastgele seçimden biraz daha iyi bir seviyede.
Diğer AB modelleriyle karşılaştırma tablosu için buraya bakabilirsiniz
Neden sadece ABD ve Çin'in güçlü modeller çıkarabildiğini merak ediyorum. Fransa'nın Mistral'i dışında Avrupa'dan neredeyse hiç model yok. Hindistan, Japonya ve Kore için de durum benzer
- Şaşırtıcı değil. Avrupa teknolojik rekabet gücünde istikrarlı biçimde geride kalıyor.
  Nüfusu ABD'nin 1,3 katı, GSYİH'si %75'i kadar ama teknoloji endüstrisinin ölçeği ABD'nin sadece küçük bir kısmı.
  ABD'nin en büyük 7 teknoloji şirketi, Avrupa'nın en büyük 7 şirketinden 20 kat daha büyük ve gelirleri 10 kat fazla. Referans bağlantısı
- Avrupa'da sermayeye erişim düşük ve pazar parçalı.
  Bu yüzden Horizon gibi akademi odaklı fonlamalara dayanılıyor, ancak bu tür iş birlikleri ürünleşmeye dönüşmekte zorlanıyor
- Frontier model eğitimi devasa bir sermaye yapısı gerektiriyor. Milyarlarca doları ancak ABD ile Çin toplayabiliyor
- AB 900 sayfalık bir Yapay Zeka Yasası hazırlayıp kendini kutladı, ama Çin iki sayfalık bir yasayı çoktan yürürlüğe koymuştu
- Aslında bu modellerin ticari değeri henüz kanıtlanmış değil. Çoğu devlet sözleşmeleri ya da yatırım parasıyla ayakta duruyor
EuroLLM-9B modelini Hugging Face'ten indirmek için iletişim bilgilerini paylaşmayı kabul etmek gerekiyor. Bunun yaygın bir talep olup olmadığını merak ediyorum
- Bunu ben de bazı modellerde gördüm. Örneğin Llama 3.1-8B-Instruct için de benzer bir süreç var
- Evet, oldukça yaygın bir prosedür
9B modelin ilgi görmesi ilginç. Ama iki ay önce yayımlanan, 19 Avrupa dilini destekleyen TildeOpen-30B modelinden neredeyse hiç söz edilmedi. Model sayfası
Temel performansı düşük, ama fine-tuning potansiyeli yüksek açık bir model

EuroLLM: Avrupa’da geliştirilen, AB’nin 24 resmi dilini destekleyen bir LLM

EuroLLM’e genel bakış

Teknik özellikler

Katılımcı kurumlar ve iş birliği ağı

Misyon ve vizyon

İlgili okumalar

1 yorum

Hacker News görüşleri