Kakao’nun dil modeli Kanana için teknik rapor yayımlandı

(tech.kakao.com)

10 puan yazan GN⁺ 2025-02-27 | 3 yorum | WhatsApp'ta paylaş

Kakao, hizmetlere uygulamaya optimize edilmiş yapay zeka modellerini hedefleyerek yüksek performans ve maliyet verimliliğini aynı anda gözeten ‘Kanana Model Family’yi geliştiriyor
Çok büyük dil modeli ‘Kanana Flag’in eğitimini tamamladı ve bunu da içeren Kanana Essence, Kanana Nano gibi dil modeli serisini tamamladı
Yapay zeka araştırma ekosistemine katkı sağlamak ve küresel yapay zeka topluluğuyla iş birliği yapmak için ‘Kanana Nano 2.1B’ modelini (base, instruct, embedding) açık kaynak olarak yayımladı

1. Küresel üst düzey seviyede Korece ve İngilizcede yüksek performans

Kakao, küresel rekabet gücüne sahip modeller geliştirmeyi hedefleyerek sınırlı kaynaklar içinde en iyi performansı elde etmek için çeşitli eğitim teknikleri denedi
Kanana Flag, eğitim kaynaklarının optimizasyonu sayesinde diğer şirketlerin modellerine kıyasla eğitim maliyetini %50’den fazla azaltırken aynı anda en üst düzey (SOTA) performans kaydetti
İngilizce benchmark’larda (MMLU, MT-Bench) küresel modellerle benzer performans gösterirken, Korece benchmark’larda (KMMLU, KoMT-Bench) rakip modellere kıyasla ezici bir performans sergiledi
Benchmark performansı özeti
- Diyalog ve istek yerine getirme performansı
  - Kanana Flag 32.5B, İngilizce ve Korece tabanlı diyaloglarda rakip modellere kıyasla daha yüksek puan aldı
  - Özellikle bilgi tabanlı Korece diyalogda (KoMT-Bench) ve mantıksal düşünme değerlendirmesinde (LogicKor) üstün performans gösterdi
- Bilgi, kodlama ve matematik performansı
  - İngilizce (81.08 puan) ve Korece (64.19 puan) bilgi değerlendirmelerinde yüksek puan alarak rakip modellere kıyasla üstün sonuçlar elde etti
  - Kod tamamlama ve kod çözümünde de yüksek doğruluk gösterdi; temel matematikte (GSM8K) ise 90.83 puanla güçlü performans elde etti

2. Eğitim verimliliği sayesinde benzer boyuttaki modellere göre yarıdan da düşük eğitim maliyeti

Büyük dil modellerinin eğitimi çok büyük hesaplama kaynakları gerektirdiğinden, Kakao eğitim verimliliğini en üst düzeye çıkaran bir pre-training stratejisi uyguladı
Staged pre-training yaklaşımını kullanarak önce 8B ve 26.8B boyutlarında modeller eğitti, ardından optimizasyonla Kanana Nano 2.1B modelini oluşturdu
Pruning ve Distillation tekniklerini kullanarak hafif modeli optimize etti
DUS (Depth Up-Scaling) tekniğini uygulayarak Kanana Essence 9.8B ve Kanana Flag 32.5B’yi geliştirdi
Böylece benzer büyüklükteki küresel modellere kıyasla yarıdan daha düşük maliyetle eğitimi optimize etmeyi başardı

3. Cihaz üstünde de kullanılabilen yüksek performanslı hafif model: Kanana Nano 2.1B açık kaynak olarak yayımlandı

Araştırmacı ve geliştiricilerin kullanımını gözeterek, ‘Kanana Nano 2.1B’nin base, instruct, embedding sürümlerini açık kaynak olarak yayımladı
Kanana Nano 2.1B, cihaz üstü ortamlarda da sorunsuz çalışabilecek şekilde tasarlandığı için araştırma ve geliştirme amaçlı kullanılabiliyor
Büyük modellerin yüksek maliyet problemi ve küçük modellerin düşük doğruluk problemi dikkate alınarak, en pratik boyutun yayımlanmasına karar verildi
Görece küçük bir model olmasına rağmen küresel modellerle yarışabilecek performans gösteriyor ve çeşitli uygulama olanakları sunuyor
Ancak karmaşık akıl yürütme ya da matematik problemi çözme gibi yüksek zorluktaki görevlerde sınırlamaları olabilir; buna rağmen araştırmacı ve geliştiricilerin bunun üzerine çeşitli çalışmalar yürütebilmesi için destek sağlanacak

Sonuç

Kakao bu teknik rapor aracılığıyla Kanana dil modeli serisinin tamamını ve açık kaynak model Kanana Nano 2.1B’yi tanıttı
Gelecekte pekiştirmeli öğrenme (RL) tabanlı teknikleri entegre ederek reasoning (akıl yürütme) yeteneğini, matematik ve kod performansını güçlendirmeyi planlıyor
Sürekli öğrenme (Continual Learning) ile yeni verileri sürekli öğrenirken mevcut öğrenimi koruyabilecek şekilde geliştirmeyi hedefliyor
Alignment teknolojilerini ilerleterek kullanıcı isteklerini yerine getirme becerisini güçlendirmeyi ve yapay zekanın daha doğal biçimde anlayıp diyalog kurabilmesini geliştirmeyi planlıyor
Nihayetinde Kanana modeli çok modlu yapay zekaya evrilerek insan gibi görüp, duyup, konuşabilen ve sezgisel biçimde iletişim kurabilen bir yapıya dönüştürülecek
Kakao, yapay zekanın kullanıcıların günlük yaşamına değer katabilmesi için sürekli meydan okumaya devam etmeyi ve teknolojik rekabet gücünü artırmayı planlıyor

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: Yapay zeka modelinin bileşenlerini budayarak yalnızca önemli unsurları bırakan teknik
[2] Distillation: Büyük bir modelin bilgisini daha küçük bir modele aktarma tekniği
[3] Depth Up-Scaling: Mevcut modelin katmanlarını daha fazla üst üste ekleyerek model ölçeğini etkili biçimde büyütme yöntemi

3 yorum

rtyu1120 2025-02-27

Lisansının nasıl olduğuna baktım da CC BY-NC-ND 4.0'mış..?? NonCommercial ise Kakao dışındaki şirketler kullanmasın mı demek istiyor... niyetini pek anlayamadım

bobross0 2025-03-13

Hahahahaha

cosine20 2025-03-03

lololol