- HCX Vision, mevcut büyük dil modeline (LLM) görüntü anlama yeteneği ekleyerek büyük görsel dil modeline (LVLM) dönüşüyor
- Çeşitli görsel ve dil verileriyle ek eğitim alarak görüntü ve metni aynı anda anlayabilen bir yetenek kazanıyor
- Farklı senaryolara uygun veriler toplayarak belge tanıma, görüntü içindeki metni anlama gibi çeşitli durumlarda görsel ve dil anlama görevlerini yerine getirebiliyor
- Naver’in OCR teknolojisi deneyimine dayanarak belge işleme ve karakter tanıma yeteneklerini güçlendirip doğru ve güvenilir hizmet sunuyor
- HCX tabanlı olduğu için Korece ve Kore kültürüne ilişkin bilgiye sahip; bu sayede Korece belgeleri ve görüntü içindeki metni anlamada üstün performans gösteriyor
HyperCLOVA X Vision’ın nicel göstergeleri
- Public Benchmarks’ta ortalama %71,59 performansla GPT-4V’nin %99,94 seviyesine ulaşıyor
- Kore ilkokul, ortaokul ve lise denklik sınavlarının çıkmış sorularında %83,8 doğruluk oranıyla GPT-4o’nun %77,8’inden daha yüksek performans gösteriyor
Örnek temelli HyperCLOVA X Vision özellikleri
- Detailed Image Captioning: Görüntünün en ince ayrıntılarını doğru şekilde tanıyıp betimliyor
- Reasoning: Görüntüye dair ayrıntılı anlayışa dayanarak durumu akıl yürütmeyle değerlendirip sonraki adımı tahmin ediyor
- Entity Recognition: Kişi, mekân, ürün gibi anlamlı varlıkları yalnızca görüntüden anlayabiliyor
- Chart Understanding: Grafik biçimindeki soyut sayısal verileri anlayabiliyor
- Table Understanding: Görüntü yakalamasındaki tablo verilerini tanıyıp konumsal ilişkileri anlayabiliyor
- Document Understanding: Çince karakterler, Japonca gibi farklı dillerdeki belgeleri anlayabiliyor
- Culture and Humor (Meme Understanding): Görüntü ve metin çiftlerinden oluşan memeleri anlayabiliyor
- Equation Understanding: Render edilmiş denklemleri tanıyıp TeX söz dizimine dönüştürüyor
- Code Generation: Belirli şekiller, çizelgeler ve grafikler üreten kod oluşturabiliyor
- Math Problem Solving: Şekil içeren matematik problemlerini anlayıp çözüm sunabiliyor
- Creative Writing (with Image Grounding): Görüntüde yer alan unsurlara dayanarak yaratıcı yazı yazabiliyor
HyperCLOVA X Vision’ın geleceği ve Sovereign AI
- Milyonlar seviyesindeki bağlam uzunluğundan yararlanarak uzun metrajlı film anlama ve gerçek zamanlı video işleme gibi yeteneklerin mümkün hale gelmesi bekleniyor
- Gerçek zamanlı işleme teknolojisi eşlik ettiğinde yapay zeka, bağımsız bir varlık olarak durumlara esnek biçimde yanıt verebilir hale gelecek
- LVLM tarafında da bölgeye veya kültürel arka plana göre egemenlik önemli hale gelecek
- Naver, Güney Kore’nin en büyük platformu olarak gerekli verileri etkili biçimde güvence altına alabilecek avantajlı bir konumda bulunuyor
Yazıyı bitirirken
- Naver’in LVLM teknolojisi, daha yakın ve doğal bir iletişim biçimine doğru gelişiyor
- HCX Vision’ın farklı geçmişlere sahip insanlar için faydalı bir yapay zeka olması adına çalışılıyor
- Gelecekte HCX Vision’ın insanların yaşamına doğal biçimde yerleşmesi umuluyor
GN⁺ görüşü
- HCX Vision’ın görüntü anlama yeteneği sayesinde insanlarla daha doğal iletişim kurulabilmesi bekleniyor. Özellikle görsel bilginin önemli rol oynadığı alanlarda kullanım değeri yüksek olacaktır
- Denklik sınavı sorularını çözmede yüksek performans göstermesi gibi, eğitim alanında da HCX Vision bir öğrenme destek aracı olarak kullanılabilir. Ancak öğrencilerin öz yönelimli öğrenme becerilerinin zayıflaması yönünde kaygılar da var
- Veri edinimi ve egemenlik kazanımı, LVLM geliştirmede önemli unsurlar olarak öne çıkacaktır. Naver’in elindeki büyük ölçekli veri ve platformlardan yararlanarak rekabetçi bir LVLM geliştirebilmesi bekleniyor
- Bugünkü tekil görüntü anlama düzeyinden film ve gerçek zamanlı video anlayışına ilerlerse eğlence, güvenlik, otonom sürüş gibi çeşitli alanlara uygulanabilir hale gelecektir. Teknik ve etik zorluklara karşı da hazırlık gerekiyor
- OpenAI’nin GPT-4’ü ile karşılaştırıldığında benzer performans gösterse de, Korece ve Kore kültürünü anlama açısından HCX Vision’ın güçlü olduğu görülüyor. Küresel rekabet gücü için çok dilli işleme yeteneğinin geliştirilmesi gerekecek
Henüz yorum yok.