- İsviçre yapay zeka ekosistemi, egemen yapay zeka hedefiyle kendi foundation modeli Apertus'u tanıttı ve EPFL·ETH Zurich·CSCS iş birliği temelini öne çıkardı
- Temel fark noktası açık ağırlıklar·açık veri·açık bilim; eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerine kadar her şey belgelenerek yeniden üretilebilirlik vurgulanıyor
- Düzenleme ve güven açısından EU AI Act gereklilikleri dikkate alınıyor; opt-out'a saygı, PII kaldırma ve ezberlemeyi önleme gibi koşullar içeriyor
- Performans tarafında 8B ve 70B parametre ölçeğinde aynı sınıftaki üst düzey açık modellerle rekabet edebildiği belirtiliyor ve model en baştan 1000'den fazla dilde eğitildi
- Swisscom, stratejik ortak olarak projeye katılıyor; gelecekteki sürümler, araştırmalar ve topluluk haberleri bülten üzerinden paylaşılacak
Geliştirici yapı ve açıklığın kapsamı
- Apertus, Swiss AI Initiative tarafından geliştirilen bir foundation modeldir
- Swiss AI Initiative, EPFL, ETH Zurich ve CSCS iş birliğiyle yürütülmektedir
- Açıklığın kapsamı eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerini içerir
- Açık bileşenler belgelenmiş ve yeniden üretilebilir bir yapıyı hedefler
- Apertus, “AI'da Open, Source ile aynıdır” ifadesiyle açık model niteliğini vurgular
Düzenleyici uyum ve model özellikleri
- Model, EU AI Act gerekliliklerini karşılayacak şekilde inşa edildi
- Opt-out tercihine saygı duyar
- PII'yi kaldırır
- Ezberlemeyi önler
- 8B ve 70B parametre ölçeğinde, aynı büyüklükteki önde gelen açık modellerle rekabetçi performans sunduğunu öne sürer
- Çok dilli destek en baştan dahil edilmiştir ve model 1000'den fazla dilde eğitilmiştir
Ortaklık ve topluluk haberleri
- Swisscom, Swiss AI Initiative'in stratejik ortağıdır
- Bülten, Apertus sürümleri, ekip araştırmaları ve topluluk haberlerini sunar
1 yorum
Hacker News yorumları
Tamamen açık LLM’ler arasında Allen AI’ın OLMo 3.1 modeli ve MBZUAI’ın K2 Think V2 modeli de var; ikisi de tüm eğitim hattını ve veri setlerini açıkladı
Nvidia Nemotron da eğitim kaynakları açık bir model, ancak veri setinin bir kısmı özel mülkiyetli
lambda’nın yorumundan alıntıyla, Nemotron modelleri genel olarak Olmo ve K2 Think V2’den daha güçlü ve veri setleri de büyük ölçüde örtüşüyor. Birçok veri seti aynı kaynaklardan yalnızca farklı filtrelemelerle üretildi ve Olmo ile K2 Think V2 de Nemotron’un bazı veri setlerini kullandı
Nemotron modern ve oldukça yetenekli bir LLM; 122b modeli de çoğu benchmark’ta Deepseek R1’den (671b model) daha güçlü, ayrıca yakın zamanda 550b Ultra da çıktı
https://news.ycombinator.com/item?id=48492439
Öncü şirketler bu yaklaşımı seçseydi başlangıç çok daha yavaş olurdu, ama 2035’e geldiğimizde bugün olduğumuzdan çok daha ileride olurduk. Bunun yerine şimdi toplumun büyük bir kısmı yapay zekanın başarısız olmasını istiyor
Fikir hoşuma gidiyor ve ABD dışındaki herkesin teknolojik egemenlik konusunu daha fazla düşünmesi gerekiyor. Çünkü ABD artık veriyi saklamak için güvenli bir yer değil
Yine de Apertus komite hızıyla ilerliyormuş gibi hissettiriyor; bu yüzden rekabetçi bir model çıkaracağına dair beklentim yok. En azından mevcut modellerle rekabet etmesi zor görünüyor; belki bir yıl önceki modellerle yarışabilir, ama henüz onu bile başaramamış gibi duruyor
Kişisel olarak AB’nin veri koruma yaklaşımını seviyorum, ama veriyi “güvenli” tutabilecek başka bölgeler ya da koruma mekanizmaları mı kastediliyor, bunu merak ediyorum
Linux benzetmesinin burada da uygun olmadığını düşünüyorum. Bu ondan daha büyük; ticari yapay zeka laboratuvarları ve onların iş modelleri için doğrudan bir tehdit
Bu laboratuvarlar yıllardır birkaç temel makaleyi tekrar tekrar kullanıyor ve artık son yaklaşıyor
Bundan sonra açık kaynak, açık veri ve açık tarifli modeller merkezde olabilir; bir gün yalnızca çıkarım değil, eğitim de BitTorrent tarzı crowdsourcing ile yapılabilir
Son olarak Çin modelleri de (GLM, Deepseek, MiMax) gerçekten çok iyi çalışıyor ve bu modelleri kullananlar OpenAI/Anthropic/Gemini’yi hiç aramayacaklarını söylüyor. Öyleyse bu tür açık modeller mevcutsa Çin modellerini de özlememek için yeterli sebep var demektir
Birden çok dile odaklandığını iddia eden bir modele göre, “X, Y dilinde nasıl söylenir?” ya da “Y dilinde X fiili nasıl çekimlenir?” gibi basit sorularda oldukça dengesiz
Var olmayan kelimeleri sürekli halüsinasyonla uyduruyor ve düzeltilse bile yeni yalanlar üretmeye devam ediyor
Dille etiketlenmiş çok fazla eğitim verisi kullanılmış gibi görünmüyor
“X, Y dilinde nasıl söylenir?” sorusu, X’i Y dilinde söylemekten farklı bir görevdir
Bunların instruction modeli, geçen yılki Llama3.1 fine-tuning çalışması gibi görünüyor. Yeni modelde bir ilerleme olup olmadığını merak ediyorum
Egemen yapay zeka konusundaki son umudum Çin’in açık modellerinde
Modelleri bu şekilde karıştırmak istiyorsanız https://github.com/deepbluedynamics/nemesis8 bağlantısına bakın
Apretus projesinin en etkili çıktısı açık ara insanlar. Dominique Paul’un (https://www.thisiscrispin.com/) akılda kalan ifadesiyle, çoğunun kaçırdığı nokta şu: bu ekip, diğer neredeyse tüm LLM sağlayıcıları gibi aynı işi dördüncü kez yapan bir ekip değil; kendi geçmiş deneyimlerinden öğrenme fırsatı bulmuş bir ekip de değil
Bu ekip bir kez daha model eğitirse maliyeti dörtte bire indirip çok daha iyi sonuçlar alabilir diye düşünüyorum
Lisans oldukça ilginç, ama uzun vadede bu yaklaşımı kimin benimseyeceğini bilmiyorum
Eğitim verisi ve Apertus LLM, tanımlanabilir kişilere doğrudan ya da dolaylı olarak işaret eden bilgi (kişisel veri) içerebilir veya üretebilir. Kullanıcı, yürürlükteki veri koruma yasaları kapsamında bağımsız bir işleyici olarak kişisel verileri işler
SNAI, Apertus LLM geliştiricisi olarak aldığı veri silme taleplerini yansıtan bir hash dosyasını düzenli olarak indirilebilir hale getirecek ve kullanıcılar bunu çıktı filtresi olarak uygulayabilecek. Bu, model çıktısında yer alan kişisel verilerin kaldırılmasını mümkün kılıyor; model yayımlandıktan sonra her 6 ayda bir bu çıktı filtresinin SNAI’den indirilip uygulanması şiddetle tavsiye ediliyor
Bu modelin önceki sürümü oldukça kötüydü ama telif hakkı yasasına uyduğunu iddia ediyordu. Fakat bizzat test ettiğimde bunun da doğru olmadığını gördüm; bu yüzden tamamen işe yaramaz olduğunu düşünüyorum
Tamamen açık model: açık ağırlıklar + açık veri + tüm veri ve eğitim tarifini içeren tam eğitim ayrıntıları
Dünyadaki ülkelerin fonladığı egemen yapay zeka fikrine topluluğun nasıl baktığını merak ediyorum
Neden özellikle “egemenlik” vurgulanıyor? Açık olması yeterli değil mi?