TII, Llama 3 8B'yi geride bırakan Falcon 2 yapay zeka model serisini tanıttı

(tii.ae)

2 puan yazan GN⁺ 2024-05-14 | 1 yorum | WhatsApp'ta paylaş

Abu Dhabi merkezli TII, Falcon 2 serisini tanıtarak açık kaynak LLM rekabetinde çok dilli ve çok modlu modelleri öne çıkarıyor
Falcon 2 11B, 5,5 trilyon token ile eğitilmiş 11 milyar parametreli bir model ve Hugging Face liderlik tablosunda Meta Llama 3 8B'yi geride bırakıyor
Falcon 2 11B VLM, görsel girdiyi metne dönüştüren TII'nin ilk çok modlu modeli ve görüntü yorumlamayı birçok sektörde kullanabiliyor
Her iki model de açık kaynak olarak sunuluyor ve TII Falcon License 2.0'ı izliyor; geliştiricilerin daha hafif altyapılarda dağıtım ve entegrasyon yapmasını kolaylaştıracak şekilde tasarlandı
TII, Falcon 2'yi farklı boyutlara genişletmeyi ve performans ile yanıt kalitesini artırmak için Mixture of Experts yaklaşımını değerlendirmeyi planlıyor

Falcon 2'nin tanıtımı ve model yapısı

Technology Innovation Institute, Abu Dhabi'deki Advanced Technology Research Council bünyesinde faaliyet gösteren bir uygulamalı araştırma kuruluşu ve 13 Mayıs 2024'te büyük dil modeli Falcon 2'yi yayımladı
Bu seri iki modelden oluşuyor
- Falcon 2 11B: 5,5 trilyon token ile eğitilmiş, 11 milyar parametreli bir LLM
- Falcon 2 11B VLM: görsel girdileri metin çıktısına dönüştüren bir vision-to-language modeli
Her iki model de çok dilli desteğe sahip ve Falcon 2 11B VLM, TII'nin ilk çok modlu modeli
TII, Falcon 2 11B VLM'yi mevcut üst düzey pazarda image-to-text dönüşüm yeteneğine sahip tek model olarak öne çıkarıyor

Performans karşılaştırması ve kullanım alanı

Falcon 2 11B, Hugging Face'in açık LLM değerlendirme liderlik tablosunda ön eğitimli model grubuyla karşılaştırıldı
- Meta Llama 3 8B'den daha yüksek performans gösterdi
- Google Gemma 7B ile neredeyse aynı puanı alarak zirveye yerleşti
- Puanlar Falcon 2 11B için 64.28, Gemma 7B için 64.29 seviyesinde
Falcon 2 11B modeli; İngilizce, Fransızca, İspanyolca, Almanca, Portekizce ve diğer birçok dildeki görevleri işleyebiliyor
Falcon 2 11B VLM, görüntüleri ve çevreden gelen görsel materyalleri tanımlayıp yorumlayabiliyor
- Örnek kullanım alanları olarak sağlık, finans, e-ticaret, eğitim ve hukuk gösteriliyor
- Belge yönetimi, dijital arşivleme, bağlamsal indeksleme ve görme engellilere destek gibi senaryolar da buna dahil

Yayın modeli ve sonraki planlar

Falcon 2 11B ve Falcon 2 11B VLM'nin ikisi de geliştiricilerin erişimine açık açık kaynak modeller olarak sunuluyor
Her iki modelin de tek bir GPU üzerinde verimli şekilde çalışabildiği, bu sayede dizüstü bilgisayarlar ve benzeri cihazlar gibi daha hafif altyapılara dağıtım ve entegrasyonun kolaylaştığı belirtiliyor
Falcon 2 11B, Apache 2.0 tabanlı, izin verici bir yazılım lisansı olan TII Falcon License 2.0 ile sunuluyor
- Sorumlu yapay zeka kullanımını teşvik eden bir kabul edilebilir kullanım politikası içeriyor
TII, gelecekte Falcon 2'nin yeni nesil modellerini farklı boyutlarda sunmayı ve Mixture of Experts kullanımını değerlendirmeyi planlıyor
- Mixture of Experts, farklı uzmanlıklara sahip küçük ağları birleştirerek daha gelişmiş ve özelleştirilmiş yanıtlar üreten bir yaklaşım
- TII, bu yaklaşımın doğruluğu artırabileceğini ve karar alma süreçlerini hızlandırabileceğini düşünüyor
Yeni model bilgilerine FalconLLM.TII.ae adresinden ulaşılabilir

1 yorum

GN⁺ 2024-05-14

Hacker News yorumları

Benchmark sonuçları Mistral 7B ve Llama 3 8B ile kabaca benzer görünüyor; model boyutunun büyüdüğünü düşününce pek etkileyici görünmüyor
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Doğru. Falcon-180b de başta çok abartıldı, ama topluluk kısa sürede neredeyse işe yaramaz olduğunu anladı ve genel durumlarda daha küçük büyük dil modelleri onu kolayca geçti
  Bu kez falcon-11b'nin Llama 3 8b'den daha iyi olduğu iddia ediliyor, ama şimdiden birkaç sorun göze çarpıyor. falcon-11b, Llama 3 8b'den yaklaşık %40 daha büyük olduğu için aynı boyut sınıfında karşılaştırmak zor; ayrıca iddia otomatik benchmark'lara dayanıyor, oysa sadece otomatik benchmark'larla böyle bir sonuca varmanın yetersiz olduğu uzun zamandır açık
  Bazı otomatik benchmark puanları Llama 3 8b'den çok daha düşük ve yalnızca tek bir benchmark'ta kıl payı öne geçiyor. Bir benchmark'ta tüm zamanların en iyisiymiş gibi görünmesini sağlamak mümkün, ama bu hiç de iyi bir model olduğu anlamına gelmez
  Hiç insan değerlendirmesi olmadığı hâlde kasıtlı olarak aceleci iddialar içeren tıklama tuzağı bir başlık kullanmışlar; Llama 3'ten iyi olduğunu söylerken Llama 3 70b'yi tamamen görmezden geliyorlar
  Açıkçası tiiuae'nin faydalı bir şey ortaya koyamamasına rağmen bu tür yanıltıcı tıklama tuzaklarını sürdürmesi ve yine de bu kadar ilgi görmesi sinir bozucu
- Modellerinin geneli böyle gibi. Boyutları gerçekten büyük, ama harcanan çabaya kıyasla gerçek bir performans artışı yok
  Temizlenmiş web veri kümeleri ağır biçimde sansürlü; bunun da etkisi olabilir. Ahlaki açıdan çok muhafazakâr; pornoyu ve birçok konuyu tamamen dışarıda bırakıyor
  Bu yüzden içerikleri fazla filtreleyip benzer şeylerden daha çok eklemenin sorunun bir kısmına yol açmasına şaşırmam
- Karşılaştırılacak metrik doğru olmayabilir
  Modelin daha büyük olduğu doğru, ama eğitimi Llama 3'e göre daha az token gerektirmiş. Sorun şu ki açık veri kümesi olmadan düzgün karşılaştırma yapmak ve sonucu yeniden üretmek zor
  Bunun model mimarisinden mi, veri kümesi kalitesinden mi, model boyutundan mı, bunların birleşiminden mi yoksa başka bir nedenden mi kaynaklandığını bilmek zor
Lisansı iyi değil: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
Ek maddeler eklenmiş, değiştirilmiş bir Apache 2 lisansı ve izin verilen kullanım politikasına uyma şartını içeriyor: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Ancak bu değiştirilmiş Apache 2 lisansında, “izin verilen kullanım politikası zaman zaman güncellenebilir; Eser veya türev eserlerin kullanımının güncellenen politikaya uyup uymadığını doğrulamak için politikanın barındırıldığı web adresi izlenmelidir” deniyor
Mevcut izin verilen kullanım politikasını nasıl yorumlarsanız yorumlayın, gelecekte istedikleri gibi değiştirme hakkını saklı tutuyorlar ve kullanıcı yeni politikaya uymak zorunda
OSI tanımıyla uyumlu olmamasına rağmen böyle lisanslara açık kaynak denmesi eğiliminden neden hoşlanmadığımı iyi gösteriyor
- Temelde önemsiz olmayan hiçbir kullanım için asla kullanılamaz. Çünkü herhangi bir zamanda, bildirim bile yapmadan kullanım senaryonuzu yasaklayabilirler
- “Gelecekte istedikleri gibi değiştirme hakkını saklı tutuyorlar ve kullanıcı yeni politikaya uymak zorunda” maddesinin mahkemede gerçekten geçerli olup olmayacağını çok merak ediyorum. Bununla ilgili içtihat veya emsal var mı bilmek isterdim
- Bu tür lisans oyunları ilk kez olmuyor. Falcon 1'de de vardı. Çabalarını takdir ediyorum, ama hâlâ para kazanıp kazanmayacaklarını ve bunu nasıl yapacaklarını arıyor gibiler
- 40b modeli saf Apache gibi görünüyor
“Yeni Falcon 2 11B, Meta'nın Llama 3 8B modelini geride bırakıyor ve önde gelen Google Gemma 7B modeliyle aynı seviyede performans gösteriyor” deniyor; oysa Llama 3 8B'nin neredeyse tüm metriklerde Gemma 7B'nin önünde olduğunu güçlü biçimde biliyordum
- Bunun sohbet için ayarlanmış modeller değil, temel modeller karşılaştırması olduğunu görmek gerek. Çünkü Falcon-11B'nin şu anda sohbet için ayarlanmış modeli yok. Meta'nın sohbet ayarı Gemma'nın sohbet ayarından daha iyi görünüyor
  Yine de Gemma 1.1 sohbet modeli, kullandığım kadarıyla oldukça iyiydi; Llama3 8B sohbet modelinin kesinlikle daha iyi olduğunu düşünüyorum
  CodeGemma 1.1 7B, ilgili kodlama modelleriyle karşılaştırıldığında özellikle az değer görüyor. Temel CodeGemma 7B modeli, kod tamamlama için test ettiğim modeller arasında en iyilerden biriydi; sohbet modeli de kod yazma için test ettiğim modeller arasında en iyilerden biriydi
  Diğer modeller benchmark'lara daha iyi oynuyor gibi görünüyor, ama gerçek kullanımda CodeGemma kadar dayanamadılar. CodeLlama3'ün nasıl çıkacağını merak ediyorum, ama henüz mevcut değil
- Anekdot niteliğinde olsa da, deneyimime göre Gemma tamamen işe yaramaz ve Llama 3 8b boyutuna göre olağanüstü iyi. Gemma'nın Llama 3'ten önde olduğu fikri tuhaf geliyor. Bazı benchmark'larda Gemma öndeyse, sanki veri sızıntısı/kirlilik gibi bir şey olabilir
- Bana da bu nokta garip gelmişti
  Son zamanlarda benchmark'ları pek takip etmiyorum; tamamen basketbola odaklandım
  Bu arada aslında Lebron'dan biraz daha iyiyim. Lebron üç yaşındaki kızımdan bile çok daha kötü ve ben bazen kızımı yenerim. Basketbolda
Ah, bunun Spectrum Holobyte’ın Falcon AT’si hakkında bir yazı olduğunu sandım. MyAbandonware.com’a göre:
“Esasen Falcon 2 olan ama bir şekilde farklı pazarlanan Falcon AT, Spectrum Holobyte’ın çığır açan hardcore uçuş simülasyonu Falcon serisinin ikinci sürümüdür. Yaygın kanının aksine, modern uçuş simülasyonunun başlangıcı Falcon 3.0 değildir; Falcon AT zaten Falcon’a göre ciddi bir ilerlemeydi ve net EGA grafikleri, pek çok gerçekçi seçenek ve büyük ölçüde genişletilmiş bir kampanya sunuyordu. Bu oyun, Falcon hayranlarının tanıyıp sevmeye başladığı mükemmel eğitim bölümleri, çeşitli görevler ve doğru uçuş dinamikleriyle modern hava muharebesi simülasyonudur. Birçok yeniliği arasında, hotseat ve modem üzerinden şaşırtıcı derecede oynanabilir çok oyunculu seçenekler de vardı. Bugün büyük ölçüde unutulmuş olsa da Falcon AT, Falcon ile Falcon 3.0 arasındaki açıklaması zor boşluğu açıklar.”
- Yeni ürün adlarını klasik bilgisayar oyunlarından alma yönünde bir akım var gibi. Kasıtlı olmayabilir. Az önce burada Loom adlı bir sistemle ilgili bir yazı vardı ama klasik macera oyunu değildi. Birinin büyük dil modeli ya da ağ yazılımı çıkarıp adını Zork koyacağını düşünüyorum
- Şu anda ana sayfada “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662> de yer aldığı için, benzer şekilde düşünmeye iten çağrışım etkisine katkıda bulunuyor
“Görsel-dil yeteneklerine sahip tek yapay zeka modeli” ifadesinin ne anlama geldiğini bilmiyorum. Bu kabaca GPT-4 Vision ve LLaVA’nın yaptığı şey değil mi?
- Başta anlamı tersyüz eden bir şaka yaptıklarını sandım
  LLaVA’nın bir dil-görsel modeli olduğu gibi bir şey olabilir diye düşündüm ama öyle yorumlayınca da mantıklı hale getiremedim
  Belki de sadece yalan söylüyorlardır
- Claude modellerinin hepsi de buna giriyor
Açık modelleri memnuniyetle karşılıyorum ama burada da belirtildiği gibi Falcon modelleri o kadar da açık değil. Orijinal Falcon da benchmark rakamlarının ima ettiği kadar iyi çalışmıyordu. Büyük bir ilerleme gibi pazarladılar ama çıktığı dönemde rakip açık modellerin önünde olduğu hissini vermedi
11B modelinin “aynı sınıftaki” 7B ve 8B modellerini geçtiği yönündeki tanıtım ifadesi biraz zorlama hissettiriyor. Takip edeceğim ama yerel çıkarım için kesinlikle bir denemeyi düşünüyorum. Yine de içgüdüsel olarak, bu hafta itibarıyla ince ayarlı llama 3 8B’nin kendi sınıfının en iyisi olma ihtimali yüksek
- Ben de orijinal Falcon’un benchmark rakamları kadar performans vermediğini gördüm. Parametre başına token açısından yeterince eğitilmemiş gibiydi. Sanki sadece 40 milyar parametreli bir modele sahip olmak istemişlerdi; Chinchilla optimizasyonu öncesi yaklaşıma daha yakındı
Yapay zekanın, etik denetimi en azından kısmen denemeye çalışan demokratik ülkelerin yanı sıra, en kötü diktatörler tarafından da kullanılacağını hatırlatan böyle şeyler gerçekten ürpertici
- MBZ, MBS değil; Suudi Arabistan ile BAE farklı ülkeler. MBZ dünyadaki en popüler liderlerden biri ve halkı da en zenginler arasında
  Ülkesi ekonomisi hâlâ istikrarlı büyüyen az sayıdaki gelişmiş ülkeden biri ve dünyanın en serbest göç politikalarından birine sahip olmasına rağmen Doğu Asya dışında en güvenli ülkelerden biri
  En kötü diktatörden ziyade en iyi diktatör adayına çok daha yakın
Anlamak istediğim bir şey var. Bu model çoğunlukla herkese açık veri kümeleriyle eğitilmedi mi, AWS donanımı kullanmadı mı ve iyi bilinen algoritma ve tekniklerden yararlanmadı mı? Parası olan herkesin eğitebileceği diğer modellerden farkı ne?
Şüpheci, hatta anti’ye yakın bakış açımdan bu sadece bir gösteriş ve konuyla alakalı görünme çabası gibi görünüyor. Bu tür bir girişimde benim kaçırdığım başka bir şey var mı?
- Pek çok model bu kategoriye giriyor. Egemenlik ister devlet ister şirket için olsun bir ölçüde değerlidir. Rekabet tehdidi de herkes için iyi bir şey
  Nihai sonuç çoğunlukla özellikle ilginç olmasa bile, bu işi yapan insanların olması sevindirici
Bir an bunun klasik uçuş simülasyonuyla ilgili olduğunu sandım:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX’in de Falcon 1 ve Falcon 9 roketleri var; ayrıca önerilmiş ama geliştirilmemiş Falcon 5 de var
BAE, biraz daha incelikli olun dedirtecek kadar makaledeki tarafgirlik saçma. “llama 3’ü yendi” kuşku uyandıracak kadar faydasız bir özet; “görsel-dil yeteneklerine sahip tek yapay zeka modeli” kısmıysa düpedüz şaşırtıcı

TII, Llama 3 8B'yi geride bırakan Falcon 2 yapay zeka model serisini tanıttı

Falcon 2'nin tanıtımı ve model yapısı

Performans karşılaştırması ve kullanım alanı

Yayın modeli ve sonraki planlar

İlgili okumalar

1 yorum

Hacker News yorumları