1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • İsviçre yapay zeka ekosistemi, egemen yapay zeka hedefiyle kendi foundation modeli Apertus'u tanıttı ve EPFL·ETH Zurich·CSCS iş birliği temelini öne çıkardı
  • Temel fark noktası açık ağırlıklar·açık veri·açık bilim; eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerine kadar her şey belgelenerek yeniden üretilebilirlik vurgulanıyor
  • Düzenleme ve güven açısından EU AI Act gereklilikleri dikkate alınıyor; opt-out'a saygı, PII kaldırma ve ezberlemeyi önleme gibi koşullar içeriyor
  • Performans tarafında 8B ve 70B parametre ölçeğinde aynı sınıftaki üst düzey açık modellerle rekabet edebildiği belirtiliyor ve model en baştan 1000'den fazla dilde eğitildi
  • Swisscom, stratejik ortak olarak projeye katılıyor; gelecekteki sürümler, araştırmalar ve topluluk haberleri bülten üzerinden paylaşılacak

Geliştirici yapı ve açıklığın kapsamı

  • Apertus, Swiss AI Initiative tarafından geliştirilen bir foundation modeldir
  • Açıklığın kapsamı eğitim verileri, kod, ağırlıklar, metodoloji ve hizalama ilkelerini içerir
  • Açık bileşenler belgelenmiş ve yeniden üretilebilir bir yapıyı hedefler
  • Apertus, “AI'da Open, Source ile aynıdır” ifadesiyle açık model niteliğini vurgular

Düzenleyici uyum ve model özellikleri

  • Model, EU AI Act gerekliliklerini karşılayacak şekilde inşa edildi
    • Opt-out tercihine saygı duyar
    • PII'yi kaldırır
    • Ezberlemeyi önler
  • 8B ve 70B parametre ölçeğinde, aynı büyüklükteki önde gelen açık modellerle rekabetçi performans sunduğunu öne sürer
  • Çok dilli destek en baştan dahil edilmiştir ve model 1000'den fazla dilde eğitilmiştir

Ortaklık ve topluluk haberleri

  • Swisscom, Swiss AI Initiative'in stratejik ortağıdır
  • Bülten, Apertus sürümleri, ekip araştırmaları ve topluluk haberlerini sunar

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • Tamamen açık LLM’ler arasında Allen AI’ın OLMo 3.1 modeli ve MBZUAI’ın K2 Think V2 modeli de var; ikisi de tüm eğitim hattını ve veri setlerini açıkladı
    Nvidia Nemotron da eğitim kaynakları açık bir model, ancak veri setinin bir kısmı özel mülkiyetli
    lambda’nın yorumundan alıntıyla, Nemotron modelleri genel olarak Olmo ve K2 Think V2’den daha güçlü ve veri setleri de büyük ölçüde örtüşüyor. Birçok veri seti aynı kaynaklardan yalnızca farklı filtrelemelerle üretildi ve Olmo ile K2 Think V2 de Nemotron’un bazı veri setlerini kullandı
    Nemotron modern ve oldukça yetenekli bir LLM; 122b modeli de çoğu benchmark’ta Deepseek R1’den (671b model) daha güçlü, ayrıca yakın zamanda 550b Ultra da çıktı
    https://news.ycombinator.com/item?id=48492439

    • Allen AI yeterince takdir görmüyor. Bence üretken yapay zeka en baştan böyle geliştirilmeliydi
      Öncü şirketler bu yaklaşımı seçseydi başlangıç çok daha yavaş olurdu, ama 2035’e geldiğimizde bugün olduğumuzdan çok daha ileride olurduk. Bunun yerine şimdi toplumun büyük bir kısmı yapay zekanın başarısız olmasını istiyor
    • Nemotron’u bir kez daha denemeyi düşünüyorum. Dün OpenRouter’da en yeni modeli kullandım ama pek iyi değildi, hatta StepFun’dan da kötüydü
  • Fikir hoşuma gidiyor ve ABD dışındaki herkesin teknolojik egemenlik konusunu daha fazla düşünmesi gerekiyor. Çünkü ABD artık veriyi saklamak için güvenli bir yer değil
    Yine de Apertus komite hızıyla ilerliyormuş gibi hissettiriyor; bu yüzden rekabetçi bir model çıkaracağına dair beklentim yok. En azından mevcut modellerle rekabet etmesi zor görünüyor; belki bir yıl önceki modellerle yarışabilir, ama henüz onu bile başaramamış gibi duruyor

    • “ABD artık veriyi saklamak için güvenli bir yer değil” ifadesine katılıyorum, ama başka ülkelerin neden daha iyi bir veri sığınağı olacağını merak ediyorum
      Kişisel olarak AB’nin veri koruma yaklaşımını seviyorum, ama veriyi “güvenli” tutabilecek başka bölgeler ya da koruma mekanizmaları mı kastediliyor, bunu merak ediyorum
  • Linux benzetmesinin burada da uygun olmadığını düşünüyorum. Bu ondan daha büyük; ticari yapay zeka laboratuvarları ve onların iş modelleri için doğrudan bir tehdit
    Bu laboratuvarlar yıllardır birkaç temel makaleyi tekrar tekrar kullanıyor ve artık son yaklaşıyor
    Bundan sonra açık kaynak, açık veri ve açık tarifli modeller merkezde olabilir; bir gün yalnızca çıkarım değil, eğitim de BitTorrent tarzı crowdsourcing ile yapılabilir
    Son olarak Çin modelleri de (GLM, Deepseek, MiMax) gerçekten çok iyi çalışıyor ve bu modelleri kullananlar OpenAI/Anthropic/Gemini’yi hiç aramayacaklarını söylüyor. Öyleyse bu tür açık modeller mevcutsa Çin modellerini de özlememek için yeterli sebep var demektir

  • Birden çok dile odaklandığını iddia eden bir modele göre, “X, Y dilinde nasıl söylenir?” ya da “Y dilinde X fiili nasıl çekimlenir?” gibi basit sorularda oldukça dengesiz
    Var olmayan kelimeleri sürekli halüsinasyonla uyduruyor ve düzeltilse bile yeni yalanlar üretmeye devam ediyor

    • Muhtemelen her kelime kümesinin hangi dile ait olduğunu bilmiyor olabilir
      Dille etiketlenmiş çok fazla eğitim verisi kullanılmış gibi görünmüyor
      “X, Y dilinde nasıl söylenir?” sorusu, X’i Y dilinde söylemekten farklı bir görevdir
  • Bunların instruction modeli, geçen yılki Llama3.1 fine-tuning çalışması gibi görünüyor. Yeni modelde bir ilerleme olup olmadığını merak ediyorum
    Egemen yapay zeka konusundaki son umudum Çin’in açık modellerinde

    • Egemen yapay zeka, tek bir modeli kullanma meselesi değil. İşe uygun modeli kullanmak ve yanıt vermeden önce birden çok modelin birlikte çözümü tartışmasını sağlamak demek
      Modelleri bu şekilde karıştırmak istiyorsanız https://github.com/deepbluedynamics/nemesis8 bağlantısına bakın
  • Apretus projesinin en etkili çıktısı açık ara insanlar. Dominique Paul’un (https://www.thisiscrispin.com/) akılda kalan ifadesiyle, çoğunun kaçırdığı nokta şu: bu ekip, diğer neredeyse tüm LLM sağlayıcıları gibi aynı işi dördüncü kez yapan bir ekip değil; kendi geçmiş deneyimlerinden öğrenme fırsatı bulmuş bir ekip de değil
    Bu ekip bir kez daha model eğitirse maliyeti dörtte bire indirip çok daha iyi sonuçlar alabilir diye düşünüyorum

  • Lisans oldukça ilginç, ama uzun vadede bu yaklaşımı kimin benimseyeceğini bilmiyorum
    Eğitim verisi ve Apertus LLM, tanımlanabilir kişilere doğrudan ya da dolaylı olarak işaret eden bilgi (kişisel veri) içerebilir veya üretebilir. Kullanıcı, yürürlükteki veri koruma yasaları kapsamında bağımsız bir işleyici olarak kişisel verileri işler
    SNAI, Apertus LLM geliştiricisi olarak aldığı veri silme taleplerini yansıtan bir hash dosyasını düzenli olarak indirilebilir hale getirecek ve kullanıcılar bunu çıktı filtresi olarak uygulayabilecek. Bu, model çıktısında yer alan kişisel verilerin kaldırılmasını mümkün kılıyor; model yayımlandıktan sonra her 6 ayda bir bu çıktı filtresinin SNAI’den indirilip uygulanması şiddetle tavsiye ediliyor

  • Bu modelin önceki sürümü oldukça kötüydü ama telif hakkı yasasına uyduğunu iddia ediyordu. Fakat bizzat test ettiğimde bunun da doğru olmadığını gördüm; bu yüzden tamamen işe yaramaz olduğunu düşünüyorum

    • Aşağıdaki koşul doğru olduğu sürece, bu sürüm “kapalı kapılar ardında” eğitilmiş çoğu modelden bilimin geneli için daha büyük bir katkı sayılır
      Tamamen açık model: açık ağırlıklar + açık veri + tüm veri ve eğitim tarifini içeren tam eğitim ayrıntıları
    • fineweb kullanıyor; bu da Common Crawl’dan türetilmiş ve Common Crawl web sayfalarını izinsiz şekilde tarayarak topladı
    • Bunu nasıl test ettiğinizi merak ediyorum. Açıklayabilir misiniz? Telif hakkına tabi olması gereken bir parça olgu kümesi var da modelin somehow harfi harfine tüm eseri üretip üretmediğine mi baktınız?
  • Dünyadaki ülkelerin fonladığı egemen yapay zeka fikrine topluluğun nasıl baktığını merak ediyorum
    Neden özellikle “egemenlik” vurgulanıyor? Açık olması yeterli değil mi?