Kakao’nun dil modeli Kanana için teknik rapor yayımlandı
(tech.kakao.com)- Kakao, hizmetlere uygulamaya optimize edilmiş yapay zeka modellerini hedefleyerek yüksek performans ve maliyet verimliliğini aynı anda gözeten ‘Kanana Model Family’yi geliştiriyor
- Çok büyük dil modeli ‘Kanana Flag’in eğitimini tamamladı ve bunu da içeren Kanana Essence, Kanana Nano gibi dil modeli serisini tamamladı
- Yapay zeka araştırma ekosistemine katkı sağlamak ve küresel yapay zeka topluluğuyla iş birliği yapmak için ‘Kanana Nano 2.1B’ modelini (base, instruct, embedding) açık kaynak olarak yayımladı
1. Küresel üst düzey seviyede Korece ve İngilizcede yüksek performans
- Kakao, küresel rekabet gücüne sahip modeller geliştirmeyi hedefleyerek sınırlı kaynaklar içinde en iyi performansı elde etmek için çeşitli eğitim teknikleri denedi
- Kanana Flag, eğitim kaynaklarının optimizasyonu sayesinde diğer şirketlerin modellerine kıyasla eğitim maliyetini %50’den fazla azaltırken aynı anda en üst düzey (SOTA) performans kaydetti
- İngilizce benchmark’larda (MMLU, MT-Bench) küresel modellerle benzer performans gösterirken, Korece benchmark’larda (KMMLU, KoMT-Bench) rakip modellere kıyasla ezici bir performans sergiledi
- Benchmark performansı özeti
- Diyalog ve istek yerine getirme performansı
- Kanana Flag 32.5B, İngilizce ve Korece tabanlı diyaloglarda rakip modellere kıyasla daha yüksek puan aldı
- Özellikle bilgi tabanlı Korece diyalogda (KoMT-Bench) ve mantıksal düşünme değerlendirmesinde (LogicKor) üstün performans gösterdi
- Bilgi, kodlama ve matematik performansı
- İngilizce (81.08 puan) ve Korece (64.19 puan) bilgi değerlendirmelerinde yüksek puan alarak rakip modellere kıyasla üstün sonuçlar elde etti
- Kod tamamlama ve kod çözümünde de yüksek doğruluk gösterdi; temel matematikte (GSM8K) ise 90.83 puanla güçlü performans elde etti
- Diyalog ve istek yerine getirme performansı
2. Eğitim verimliliği sayesinde benzer boyuttaki modellere göre yarıdan da düşük eğitim maliyeti
- Büyük dil modellerinin eğitimi çok büyük hesaplama kaynakları gerektirdiğinden, Kakao eğitim verimliliğini en üst düzeye çıkaran bir pre-training stratejisi uyguladı
- Staged pre-training yaklaşımını kullanarak önce 8B ve 26.8B boyutlarında modeller eğitti, ardından optimizasyonla Kanana Nano 2.1B modelini oluşturdu
- Pruning ve Distillation tekniklerini kullanarak hafif modeli optimize etti
- DUS (Depth Up-Scaling) tekniğini uygulayarak Kanana Essence 9.8B ve Kanana Flag 32.5B’yi geliştirdi
- Böylece benzer büyüklükteki küresel modellere kıyasla yarıdan daha düşük maliyetle eğitimi optimize etmeyi başardı
3. Cihaz üstünde de kullanılabilen yüksek performanslı hafif model: Kanana Nano 2.1B açık kaynak olarak yayımlandı
- Araştırmacı ve geliştiricilerin kullanımını gözeterek, ‘Kanana Nano 2.1B’nin base, instruct, embedding sürümlerini açık kaynak olarak yayımladı
- Kanana Nano 2.1B, cihaz üstü ortamlarda da sorunsuz çalışabilecek şekilde tasarlandığı için araştırma ve geliştirme amaçlı kullanılabiliyor
- Büyük modellerin yüksek maliyet problemi ve küçük modellerin düşük doğruluk problemi dikkate alınarak, en pratik boyutun yayımlanmasına karar verildi
- Görece küçük bir model olmasına rağmen küresel modellerle yarışabilecek performans gösteriyor ve çeşitli uygulama olanakları sunuyor
- Ancak karmaşık akıl yürütme ya da matematik problemi çözme gibi yüksek zorluktaki görevlerde sınırlamaları olabilir; buna rağmen araştırmacı ve geliştiricilerin bunun üzerine çeşitli çalışmalar yürütebilmesi için destek sağlanacak
Sonuç
- Kakao bu teknik rapor aracılığıyla Kanana dil modeli serisinin tamamını ve açık kaynak model Kanana Nano 2.1B’yi tanıttı
- Gelecekte pekiştirmeli öğrenme (RL) tabanlı teknikleri entegre ederek reasoning (akıl yürütme) yeteneğini, matematik ve kod performansını güçlendirmeyi planlıyor
- Sürekli öğrenme (Continual Learning) ile yeni verileri sürekli öğrenirken mevcut öğrenimi koruyabilecek şekilde geliştirmeyi hedefliyor
- Alignment teknolojilerini ilerleterek kullanıcı isteklerini yerine getirme becerisini güçlendirmeyi ve yapay zekanın daha doğal biçimde anlayıp diyalog kurabilmesini geliştirmeyi planlıyor
- Nihayetinde Kanana modeli çok modlu yapay zekaya evrilerek insan gibi görüp, duyup, konuşabilen ve sezgisel biçimde iletişim kurabilen bir yapıya dönüştürülecek
- Kakao, yapay zekanın kullanıcıların günlük yaşamına değer katabilmesi için sürekli meydan okumaya devam etmeyi ve teknolojik rekabet gücünü artırmayı planlıyor
Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download
[1] Pruning: Yapay zeka modelinin bileşenlerini budayarak yalnızca önemli unsurları bırakan teknik
[2] Distillation: Büyük bir modelin bilgisini daha küçük bir modele aktarma tekniği
[3] Depth Up-Scaling: Mevcut modelin katmanlarını daha fazla üst üste ekleyerek model ölçeğini etkili biçimde büyütme yöntemi
3 yorum
Lisansının nasıl olduğuna baktım da CC BY-NC-ND 4.0'mış..?? NonCommercial ise Kakao dışındaki şirketler kullanmasın mı demek istiyor... niyetini pek anlayamadım
Hahahahaha
lololol