19 puan yazan hophfg 2025-04-07 | Henüz yorum yok. | WhatsApp'ta paylaş

Sionic AI araştırma ekibine göre, Meta'nın geçen pazar günü duyurduğu Llama 4, Koreceye en uyumlu açık kaynak modeldir.

Llama 4'ün tokenizer yapısının, Korece ifade açısından önceki Llama 3.3'e kıyasla 2,5 kat; şimdiye kadar Korece destek oranı en yüksek olan Qwen'e kıyasla da belirgin biçimde iyileştiği görülüyor.

Bu tür Korece BPE tokenlarını anlamak, çeşitli cihazlarda (NPU, GPU, FPGA) gerçekleştirim ve düşük seviye, yüksek performans gerektiren token üretim stratejileri için doğrudan büyük fayda sağlayabilir. Özellikle Çince gibi istenmeyen bir dilin üretilmesi sorununu çözebilir.

Sionic Llama4 Token Editor, Llama ve Qwen ailesi modellerin tokenizer'ını analiz eden ve belirli kategorilerdeki token ağırlıklarını ayarlayabilen bir araçtır.

  • Token sınıflandırma: Korece, İngilizce, özel karakterler gibi çeşitli kategorilerdeki tokenlar kapsamlı biçimde incelenip sınıflandırılır.
  • Ağırlık ayarı: Analiz edilen token listesine dayanarak Korece tokenların log olasılığı yukarı ya da aşağı ayarlanabilir; böylece modelin üretim sonuçları doğrudan etkilenebilir.
  • JSON ve metin çıktısı: Tüm analiz sonuçları JSON dosyası olarak kaydedilir; sınıflandırılmış token ID listesi ile sınıflandırılmamış token ID listesi ayrı metin dosyaları olarak çıktı verilir.

GitHub deposuna buradan göz atabilirsiniz.
https://github.com/sionic-ai/Llama4-Token-Editor

Henüz yorum yok.

Henüz yorum yok.