2 puan yazan GN⁺ 2025-07-12 | 1 yorum | WhatsApp'ta paylaş
  • ETH Zurich ve EPFL öncülüğünde, kamu altyapısında tamamen açık biçimde geliştirilen bir büyük dil modeli (LLM) yakında yayımlanacak
  • Bu model, şeffaflık, çok dilli performans ve geniş erişilebilirliğe odaklanıyor; bu sayede bilim, kamu, özel sektör ve daha birçok alanda kullanılabilecek
  • Kaynak kodu ve ağırlıkları ile eğitim verileri yayımlanacak ve tüm süreç yeniden üretilebilir olacak şekilde tasarlandı; böylece açık araştırmayı ve düzenlemelere uyumu teşvik edecek
  • En yeni süper bilgisayar Alps (CSCS) üzerinde çevre dostu enerjiyle eğitildi; hedef, büyük ölçekli, yüksek performanslı ve sorumlu veri kullanımı
  • Bu LLM’nin Apache 2.0 lisansı ile yaz sonuna doğru yayımlanması planlanıyor ve dünya genelinde inovasyon ile araştırmayı canlandırması bekleniyor

Açık LLM inşası için uluslararası iş birliği ve arka plan

  • Cenevre’de düzenlenen International Open-Source LLM Builders Summit etkinliğinde, küresel açık kaynak LLM’ler ve güvenilir yapay zeka ile ilgili 50’den fazla kuruluş bir araya geldi
  • EPFL ve ETH Zurich’in yapay zeka merkezlerinin ev sahipliğinde düzenlenen bu etkinlik, açık temel model ekosistemini canlandırmak ve iş birliğini güçlendirmek için önemli bir dönüm noktası oldu
  • Açık LLM’ler, ABD ve Çin gibi ülkelerde kapalı biçimde geliştirilen ticari sistemlere karşı giderek bir alternatif olarak görülüyor

Yeni kamusal LLM’nin özellikleri ve yayımlanma planı

  • EPFL, ETH Zurich, diğer İsviçre üniversitelerindeki araştırmacılar ve CSCS mühendislerinin iş birliğiyle geliştirilen tamamen açık ve kamusal olarak geliştirilmiş bir LLM yakında yayımlanacak
  • Model şu anda son test aşamasında ve açık lisansla indirilebilir hale gelecek
  • Bu modelin temel değerleri şeffaflık, çok dilli performans ve geniş erişilebilirlik

Tam açıklık ve şeffaflık ilkesi

  • Modelin hem kaynak kodu hem de ağırlıkları yayımlanacak
  • Eğitim verileri de şeffaf biçimde açıklanacak ve yeniden üretilebilir şekilde tasarlandı; bu da bilim, kamu, eğitim ve özel sektörde benimsenmesini destekliyor
  • Bu yaklaşımın amacı inovasyonu teşvik etmek ve hesap verebilirliği güçlendirmek

Uzman görüşleri

  • ETH AI Center araştırmacısı Imanol Schlag, “tamamen açık modellerin yüksek güvenilirlikli uygulamalar ve yapay zeka riskleri/fırsatları araştırmalarının gelişimi için vazgeçilmez” olduğunu vurguladı
  • Şeffaf süreçler, düzenlemelere uyumu da kolaylaştırıyor

Çok dilli tasarım

  • Modelin temel özelliklerinden biri 1.000’den fazla dili desteklemesi
  • Profesör Antoine Bosselut, en başından itibaren geniş kapsamlı çok dilli desteğe odaklandıklarını belirtti
  • 1.500’den fazla dili kapsayan büyük bir veri kümesiyle (İngilizce %60, İngilizce dışı %40), ayrıca kod ve matematik verileriyle ön eğitim gerçekleştirildi
  • Dünyanın farklı dil ve kültürlerinden içeriği yansıttığı için küresel kullanılabilirliği yüksek

Ölçeklenebilirlik ve kapsayıcılık

  • Model, 8 milyar (8B) ve 70 milyar (70B) parametreli iki sürüm halinde yayımlanacak
    • 70B sürümü, dünyadaki en güçlü tamamen açık modellerden biri
  • 15 trilyondan fazla yüksek kaliteli token (küçük metin birimleri) ile eğitilerek yüksek güvenilirlik ve genel amaçlı kullanım hedefleniyor

Sorumlu veri kullanımı

  • İsviçre veri koruma yasaları, telif hakkı yasaları ve AB AI Act’in gerektirdiği şeffaflık yükümlülüklerine uygun şekilde geliştiriliyor
  • Son araştırmalar, web tarama reddi sinyallerine (robots exclusion standard) saygı gösterilse bile LLM performansında neredeyse hiç düşüş olmadığını ortaya koyuyor

Süper bilgisayar temelli geliştirme ve sürdürülebilirlik

  • Model eğitimi, Lugano’daki CSCS Alps süper bilgisayarında gerçekleştiriliyor
    • 10.000 NVIDIA Grace Hopper Superchip ile donatılmış, dünyanın en üst düzey yapay zeka altyapılarından biri
    • %100 karbon nötr elektrikle verimli eğitim mümkün
  • Alps’in başarıyla hayata geçirilmesi, NVIDIA, HPE/Cray ile 15 yıllık stratejik iş birliği sayesinde mümkün oldu
  • Alps, büyük ölçekli yapay zeka iş yüklerinin (karmaşık LLM’lerin ön eğitimi dahil) gereksinimlerini karşılamada kritik rol oynuyor
  • Profesör Thomas Schulthess, kamu araştırma kurumları ile sanayinin ortak çabasının, egemen yapay zeka altyapısına, açık inovasyona ve dünya genelinde bilim ile topluma katkı sağladığını kanıtladığını vurguladı

Açık erişim ve küresel kullanım

  • LLM’nin yaz sonuna doğru Apache 2.0 lisansı ile yayımlanması planlanıyor
  • Model mimarisi, eğitim yöntemleri ve kullanım yönergeleri gibi dokümantasyon da birlikte sunulacak; böylece şeffaf yeniden kullanım ve ek geliştirme desteklenecek
  • Profesör Antoine Bosselut, kamu araştırmacılarının “açık modellerin gelişimine öncülük etmesini ve farklı kuruluşların bunları temel alarak kendi uygulamalarını geliştirmesini umduğunu” söyledi
  • Profesör Martin Jaggi, “tam açıklığın İsviçre, Avrupa ve uluslararası iş birliği yoluyla inovasyonu teşvik ettiğini ve en iyi yetenekleri çekmede önemli bir unsur olduğunu” belirtti

1 yorum

 
GN⁺ 2025-07-12
Hacker News görüşleri
  • Merakla bekliyorum; bildiğim kadarıyla ETH ve EPFL, en güncel LLaMA modelleri yerine daha eski sürümleri eğitiyor ya da fine-tune ediyor, bu yüzden SOTA performansın biraz gerisinde kalabilirler. Ama bence asıl önemli nokta, ETH ve EPFL'nin büyük ölçekli eğitim deneyimi kazanması. Duyduğuma göre yeni kurulan AI kümesi şu ana kadar başlangıç aşamasında epey deneme-yanılma yaşıyor. İnsanlar, bu ölçekte kendi altyapınla model eğitmenin ne kadar zor olduğunu sık sık hafife alıyor<br>Bu arada ben İsviçre'de doğdum ve ETH'de okudum; beyin gücü fazlasıyla var ama büyük ölçekli eğitim deneyimi hâlâ sınırlı. Ayrıca kişisel olarak LLM'lerdeki "sihir"in büyük kısmının aslında altyapıdan geldiğini düşünüyorum

    • Aslında sihrin büyük kısmının veri setinden, özellikle de SFT ve diğer fine-tuning/RLHF verilerinden geldiğini düşünüyorum. Pratikte insanların kullandığı modellerle kullanmadıkları modelleri ayıran şey buydu. Deneyim kazanma konusuna tamamen katılıyorum ve altyapı kurmanın egemen bir LLM tedarik zincirinin kilit parçası olduğunu düşünüyorum. Ama modelin gerçekten kullanışlı olması için veriye de en baştan yeterince odaklanmak gerekecek

    • SOTA bir LLM eğitmek için altyapı da epey karmaşık hâle geliyor. Birçok kişi mimariyi ve veri setini koyup Ray gibi bir şey kullanmanın yeterli olduğunu sanıyor ama gerçekte veri seti tasarımı, değerlendirme pipeline'ı kurulumu, eğitim yöntemi, donanımdan azami verim alma, düğümler arası gecikme, hata kurtarma gibi çok sayıda unsur gerekiyor. Yine de bu alanda daha fazla oyuncunun ortaya çıkması iyi bir şey bence

    • "from scratch" ifadesini görünce bunun fine-tuning değil pretraining olduğu varsayımını yaptım; farklı düşünen varsa merak ederim. Ayrıca bunun genel bir Llama mimarisiyle mi yapıldığını da merak ediyorum. Benchmark sonuçlarını görmek isterim

  • <i>Web taraması opt-out'unu reddetme isteğine saygı duymanın performansı neredeyse hiç düşürmemesi</i> ifadesi beni çok sevindirdi

    • Eğitim metriklerinde performans düşmüyor olsa bile, nihai kullanıcı açısından durum yine de farklı olabilir. Kullanıcılarla web sitesi sahiplerinin hedefleri temelde farklı. Kullanıcı yanıt ve içerik ister, site sahibi ise reklam ya da ek satış peşindedir. Sonuçta yalnızca taraflardan birini tatmin edebilirsiniz
  • Bunun veri seti şeffaflığı konusunda yeni bir çıta belirleyen örnek olup olmadığını merak ediyorum. Gerçekleşirse önemli bir ilerleme olur. Bu arada makineye AIps (AI Petaflops Supercomputer) adını verseler daha eğlenceli olurmuş

    • Allen Institute for Artificial Intelligence'ın geliştirdiği OLMo modeli de tamamen açık<br><i>OLMo is fully open</i><br>AI2, gerçek açıklığın veri, model ve kodun tamamının yayımlanması anlamına geldiğini savunuyor<br>OLMo hakkında daha fazla bilgi

    • Smollm de bildiğim kadarıyla tamamen açık bir model

  • Açık eğitim verisi belirleyici fark burada. Bu ölçekte gerçekten açık bir veri setinin ilk örneği olup olmadığını merak ediyorum. Daha önce The Pile gibi girişimler de değerliydi ama sınırları vardı. Eğitimin yeniden üretilebilirliğinin nasıl sağlanacağını da görmek istiyorum

    • "Model tamamen açık olacak: kaynak kodu ve ağırlıkları yayımlanacak, eğitim verisi şeffaf ve yeniden üretilebilir olacak" ifadesinden, eğitim verisinin bütünüyle açık olmasından çok "yeniden üretilebilir" kısmına vurgu yapıldığını düşünüyorum. Muhtemelen eğitimde kullanılan sayfaların URL listesi gibi referans materyaller yayımlanabilir ama içeriğin kendisi yayımlanmayabilir

    • Evet, hâlâ klasik telif hakkı meseleleri araya giriyor, bu yüzden doğrudan paketlenmiş bir veri seti olarak sunulmayacaktır

  • İşte "yapay zekanın demokratikleşmesi" tam olarak böyle bir şey

  • Basın bülteni bunun nasıl yapıldığına dair çok şey anlatıyor ama diğer açık modellerle kıyaslandığında gerçekte ne yapabildiğine dair neredeyse hiç bilgi vermiyor

    • Üniversiteler için "nasıl yapıldığını" öğretmek temel mesele olduğu için buna odaklanmaları doğal

    • <i>Modelin 8B (8 milyar) ve 70B (70 milyar) olmak üzere iki sürümü yayımlanacak ve 70B sürümü dünyadaki en güçlü açık modellerden biri olacak; yaz sonuna doğru Apache 2.0 lisansıyla yayımlanması planlanıyor</i> deniyor, demek ki eylülde görmüş oluruz

  • Bir İsviçreli olarak bu haberi HN'nin en üstünde görmekten gurur duydum. Bu iki üniversite dünya çapında girişimci, araştırmacı ve mühendisler yetiştirmiş olsa da hep ABD'nin gölgesinde kaldılar. Ama mükemmel kamu altyapısı/eğitim/siyasi istikrar (+ tarafsızlık) sayesinde açık LLM alanında özel bir fırsat yakalayabileceklerini düşünüyorum

  • Makalede şöyle deniyor:<br>"Açık LLM'ler giderek daha güvenilir bir alternatif olarak görülüyor ve çoğu ticari sistem ABD veya Çin'de kapalı biçimde geliştiriliyor"<br>Bugün büyük ölçekli LLM üreten şirketlerin, aboneliğe yönlendirme, ürün reklamı gibi gelir yaratma nedenleriyle kaliteyi düşürmeye teşvikleri var. Bazıları şimdiden siyasi önyargılar da taşıyor<br>Avrupa'da akademi ve devlet iş birliğiyle kamu yararına arama ve AI hizmetleri sunulması, kullanıcı odaklı bir çizgiye gidilmesi çok anlamlı olur

    • Ama bu tür hizmetleri sunmak başlı başına karmaşık bir iş. Ne kadar iyi bir model eğitilirse eğitilsin, fiilî sunum yine özel sektör tarafından yapılacak. Bu yüzden gelir yaratma baskısı özünde devam ediyor. AI'da işletme maliyetleri yüksek olduğu için bu eğilim daha da güçlü olabilir. Sonuçta hizmet ücretsizse kullanıcı ürün hâline gelir; kâr kalması için ondan aktif biçimde değer çıkarmak gerekir
  • Gerçek dünyadaki testlerini de bir an önce görmek istiyorum

  • Neden henüz çıkmadan böyle duyurduklarını merak ediyorum; bence açık açık konuşmak gerek

    • Bu duyuru, bu hafta İsviçre'de düzenlenen International Open-Source LLM Builders Summit kapsamında yapıldı. Takvim ve planları paylaşmak bana çok da tuhaf gelmiyor

    • Fon bulma amacı olabilir; ayrıca Avrupa'daki kullanıcılara Avrupa'da kamusal olarak geliştirilmiş bir LLM'yi (en azından ABD ya da Çin menşeli olmayan bir şeyi) güçlü biçimde hatırlatmak açısından da anlamlı. (Hatta belki fazla mantıklı olduğu için Brüksel'de onay bile almayabilir)

    • İsviçre'de bir şey yaparken fazlasıyla yavaş ilerlemek bir klişedir