Apertus, egemen yapay zeka için açık foundation model

(apertvs.ai)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

İsviçre yapay zeka ekosistemi, egemen yapay zeka hedefiyle kendi foundation modeli Apertus'u tanıttı ve EPFL·ETH Zurich·CSCS iş birliği temelini öne çıkardı
Temel fark noktası açık ağırlıklar·açık veri·açık bilim; eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerine kadar her şey belgelenerek yeniden üretilebilirlik vurgulanıyor
Düzenleme ve güven açısından EU AI Act gereklilikleri dikkate alınıyor; opt-out'a saygı, PII kaldırma ve ezberlemeyi önleme gibi koşullar içeriyor
Performans tarafında 8B ve 70B parametre ölçeğinde aynı sınıftaki üst düzey açık modellerle rekabet edebildiği belirtiliyor ve model en baştan 1000'den fazla dilde eğitildi
Swisscom, stratejik ortak olarak projeye katılıyor; gelecekteki sürümler, araştırmalar ve topluluk haberleri bülten üzerinden paylaşılacak

Geliştirici yapı ve açıklığın kapsamı

Apertus, Swiss AI Initiative tarafından geliştirilen bir foundation modeldir
- Swiss AI Initiative, EPFL, ETH Zurich ve CSCS iş birliğiyle yürütülmektedir
Açıklığın kapsamı eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerini içerir
Açık bileşenler belgelenmiş ve yeniden üretilebilir bir yapıyı hedefler
Apertus, “AI'da Open, Source ile aynıdır” ifadesiyle açık model niteliğini vurgular

Düzenleyici uyum ve model özellikleri

Model, EU AI Act gerekliliklerini karşılayacak şekilde inşa edildi
- Opt-out tercihine saygı duyar
- PII'yi kaldırır
- Ezberlemeyi önler
8B ve 70B parametre ölçeğinde, aynı büyüklükteki önde gelen açık modellerle rekabetçi performans sunduğunu öne sürer
Çok dilli destek en baştan dahil edilmiştir ve model 1000'den fazla dilde eğitilmiştir

Ortaklık ve topluluk haberleri

Swisscom, Swiss AI Initiative'in stratejik ortağıdır
Bülten, Apertus sürümleri, ekip araştırmaları ve topluluk haberlerini sunar

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Tamamen açık LLM’ler arasında Allen AI’ın OLMo 3.1 modeli ve MBZUAI’ın K2 Think V2 modeli de var; ikisi de tüm eğitim hattını ve veri setlerini açıkladı
Nvidia Nemotron da eğitim kaynakları açık bir model, ancak veri setinin bir kısmı özel mülkiyetli
lambda’nın yorumundan alıntıyla, Nemotron modelleri genel olarak Olmo ve K2 Think V2’den daha güçlü ve veri setleri de büyük ölçüde örtüşüyor. Birçok veri seti aynı kaynaklardan yalnızca farklı filtrelemelerle üretildi ve Olmo ile K2 Think V2 de Nemotron’un bazı veri setlerini kullandı
Nemotron modern ve oldukça yetenekli bir LLM; 122b modeli de çoğu benchmark’ta Deepseek R1’den (671b model) daha güçlü, ayrıca yakın zamanda 550b Ultra da çıktı
https://news.ycombinator.com/item?id=48492439
- Allen AI yeterince takdir görmüyor. Bence üretken yapay zeka en baştan böyle geliştirilmeliydi
  Öncü şirketler bu yaklaşımı seçseydi başlangıç çok daha yavaş olurdu, ama 2035’e geldiğimizde bugün olduğumuzdan çok daha ileride olurduk. Bunun yerine şimdi toplumun büyük bir kısmı yapay zekanın başarısız olmasını istiyor
- Nemotron’u bir kez daha denemeyi düşünüyorum. Dün OpenRouter’da en yeni modeli kullandım ama pek iyi değildi, hatta StepFun’dan da kötüydü
Fikir hoşuma gidiyor ve ABD dışındaki herkesin teknolojik egemenlik konusunu daha fazla düşünmesi gerekiyor. Çünkü ABD artık veriyi saklamak için güvenli bir yer değil
Yine de Apertus komite hızıyla ilerliyormuş gibi hissettiriyor; bu yüzden rekabetçi bir model çıkaracağına dair beklentim yok. En azından mevcut modellerle rekabet etmesi zor görünüyor; belki bir yıl önceki modellerle yarışabilir, ama henüz onu bile başaramamış gibi duruyor
- “ABD artık veriyi saklamak için güvenli bir yer değil” ifadesine katılıyorum, ama başka ülkelerin neden daha iyi bir veri sığınağı olacağını merak ediyorum
  Kişisel olarak AB’nin veri koruma yaklaşımını seviyorum, ama veriyi “güvenli” tutabilecek başka bölgeler ya da koruma mekanizmaları mı kastediliyor, bunu merak ediyorum
Linux benzetmesinin burada da uygun olmadığını düşünüyorum. Bu ondan daha büyük; ticari yapay zeka laboratuvarları ve onların iş modelleri için doğrudan bir tehdit
Bu laboratuvarlar yıllardır birkaç temel makaleyi tekrar tekrar kullanıyor ve artık son yaklaşıyor
Bundan sonra açık kaynak, açık veri ve açık tarifli modeller merkezde olabilir; bir gün yalnızca çıkarım değil, eğitim de BitTorrent tarzı crowdsourcing ile yapılabilir
Son olarak Çin modelleri de (GLM, Deepseek, MiMax) gerçekten çok iyi çalışıyor ve bu modelleri kullananlar OpenAI/Anthropic/Gemini’yi hiç aramayacaklarını söylüyor. Öyleyse bu tür açık modeller mevcutsa Çin modellerini de özlememek için yeterli sebep var demektir
Birden çok dile odaklandığını iddia eden bir modele göre, “X, Y dilinde nasıl söylenir?” ya da “Y dilinde X fiili nasıl çekimlenir?” gibi basit sorularda oldukça dengesiz
Var olmayan kelimeleri sürekli halüsinasyonla uyduruyor ve düzeltilse bile yeni yalanlar üretmeye devam ediyor
- Muhtemelen her kelime kümesinin hangi dile ait olduğunu bilmiyor olabilir
  Dille etiketlenmiş çok fazla eğitim verisi kullanılmış gibi görünmüyor
  “X, Y dilinde nasıl söylenir?” sorusu, X’i Y dilinde söylemekten farklı bir görevdir
Bunların instruction modeli, geçen yılki Llama3.1 fine-tuning çalışması gibi görünüyor. Yeni modelde bir ilerleme olup olmadığını merak ediyorum
Egemen yapay zeka konusundaki son umudum Çin’in açık modellerinde
- Egemen yapay zeka, tek bir modeli kullanma meselesi değil. İşe uygun modeli kullanmak ve yanıt vermeden önce birden çok modelin birlikte çözümü tartışmasını sağlamak demek
  Modelleri bu şekilde karıştırmak istiyorsanız https://github.com/deepbluedynamics/nemesis8 bağlantısına bakın
Apretus projesinin en etkili çıktısı açık ara insanlar. Dominique Paul’un (https://www.thisiscrispin.com/) akılda kalan ifadesiyle, çoğunun kaçırdığı nokta şu: bu ekip, diğer neredeyse tüm LLM sağlayıcıları gibi aynı işi dördüncü kez yapan bir ekip değil; kendi geçmiş deneyimlerinden öğrenme fırsatı bulmuş bir ekip de değil
Bu ekip bir kez daha model eğitirse maliyeti dörtte bire indirip çok daha iyi sonuçlar alabilir diye düşünüyorum
Lisans oldukça ilginç, ama uzun vadede bu yaklaşımı kimin benimseyeceğini bilmiyorum
Eğitim verisi ve Apertus LLM, tanımlanabilir kişilere doğrudan ya da dolaylı olarak işaret eden bilgi (kişisel veri) içerebilir veya üretebilir. Kullanıcı, yürürlükteki veri koruma yasaları kapsamında bağımsız bir işleyici olarak kişisel verileri işler
SNAI, Apertus LLM geliştiricisi olarak aldığı veri silme taleplerini yansıtan bir hash dosyasını düzenli olarak indirilebilir hale getirecek ve kullanıcılar bunu çıktı filtresi olarak uygulayabilecek. Bu, model çıktısında yer alan kişisel verilerin kaldırılmasını mümkün kılıyor; model yayımlandıktan sonra her 6 ayda bir bu çıktı filtresinin SNAI’den indirilip uygulanması şiddetle tavsiye ediliyor
Bu modelin önceki sürümü oldukça kötüydü ama telif hakkı yasasına uyduğunu iddia ediyordu. Fakat bizzat test ettiğimde bunun da doğru olmadığını gördüm; bu yüzden tamamen işe yaramaz olduğunu düşünüyorum
- Aşağıdaki koşul doğru olduğu sürece, bu sürüm “kapalı kapılar ardında” eğitilmiş çoğu modelden bilimin geneli için daha büyük bir katkı sayılır
  Tamamen açık model: açık ağırlıklar + açık veri + tüm veri ve eğitim tarifini içeren tam eğitim ayrıntıları
- fineweb kullanıyor; bu da Common Crawl’dan türetilmiş ve Common Crawl web sayfalarını izinsiz şekilde tarayarak topladı
- Bunu nasıl test ettiğinizi merak ediyorum. Açıklayabilir misiniz? Telif hakkına tabi olması gereken bir parça olgu kümesi var da modelin somehow harfi harfine tüm eseri üretip üretmediğine mi baktınız?
Dünyadaki ülkelerin fonladığı egemen yapay zeka fikrine topluluğun nasıl baktığını merak ediyorum
Neden özellikle “egemenlik” vurgulanıyor? Açık olması yeterli değil mi?

Apertus, egemen yapay zeka için açık foundation model

Geliştirici yapı ve açıklığın kapsamı

Düzenleyici uyum ve model özellikleri

Ortaklık ve topluluk haberleri

İlgili okumalar

1 yorum

Hacker News yorumları