5 puan yazan GN⁺ 2024-08-21 | Henüz yorum yok. | WhatsApp'ta paylaş
  • HCX Vision, mevcut büyük dil modeline (LLM) görüntü anlama yeteneği ekleyerek büyük görsel dil modeline (LVLM) dönüşüyor
  • Çeşitli görsel ve dil verileriyle ek eğitim alarak görüntü ve metni aynı anda anlayabilen bir yetenek kazanıyor
  • Farklı senaryolara uygun veriler toplayarak belge tanıma, görüntü içindeki metni anlama gibi çeşitli durumlarda görsel ve dil anlama görevlerini yerine getirebiliyor
  • Naver’in OCR teknolojisi deneyimine dayanarak belge işleme ve karakter tanıma yeteneklerini güçlendirip doğru ve güvenilir hizmet sunuyor
  • HCX tabanlı olduğu için Korece ve Kore kültürüne ilişkin bilgiye sahip; bu sayede Korece belgeleri ve görüntü içindeki metni anlamada üstün performans gösteriyor

HyperCLOVA X Vision’ın nicel göstergeleri

  • Public Benchmarks’ta ortalama %71,59 performansla GPT-4V’nin %99,94 seviyesine ulaşıyor
  • Kore ilkokul, ortaokul ve lise denklik sınavlarının çıkmış sorularında %83,8 doğruluk oranıyla GPT-4o’nun %77,8’inden daha yüksek performans gösteriyor

Örnek temelli HyperCLOVA X Vision özellikleri

  • Detailed Image Captioning: Görüntünün en ince ayrıntılarını doğru şekilde tanıyıp betimliyor
  • Reasoning: Görüntüye dair ayrıntılı anlayışa dayanarak durumu akıl yürütmeyle değerlendirip sonraki adımı tahmin ediyor
  • Entity Recognition: Kişi, mekân, ürün gibi anlamlı varlıkları yalnızca görüntüden anlayabiliyor
  • Chart Understanding: Grafik biçimindeki soyut sayısal verileri anlayabiliyor
  • Table Understanding: Görüntü yakalamasındaki tablo verilerini tanıyıp konumsal ilişkileri anlayabiliyor
  • Document Understanding: Çince karakterler, Japonca gibi farklı dillerdeki belgeleri anlayabiliyor
  • Culture and Humor (Meme Understanding): Görüntü ve metin çiftlerinden oluşan memeleri anlayabiliyor
  • Equation Understanding: Render edilmiş denklemleri tanıyıp TeX söz dizimine dönüştürüyor
  • Code Generation: Belirli şekiller, çizelgeler ve grafikler üreten kod oluşturabiliyor
  • Math Problem Solving: Şekil içeren matematik problemlerini anlayıp çözüm sunabiliyor
  • Creative Writing (with Image Grounding): Görüntüde yer alan unsurlara dayanarak yaratıcı yazı yazabiliyor

HyperCLOVA X Vision’ın geleceği ve Sovereign AI

  • Milyonlar seviyesindeki bağlam uzunluğundan yararlanarak uzun metrajlı film anlama ve gerçek zamanlı video işleme gibi yeteneklerin mümkün hale gelmesi bekleniyor
  • Gerçek zamanlı işleme teknolojisi eşlik ettiğinde yapay zeka, bağımsız bir varlık olarak durumlara esnek biçimde yanıt verebilir hale gelecek
  • LVLM tarafında da bölgeye veya kültürel arka plana göre egemenlik önemli hale gelecek
  • Naver, Güney Kore’nin en büyük platformu olarak gerekli verileri etkili biçimde güvence altına alabilecek avantajlı bir konumda bulunuyor

Yazıyı bitirirken

  • Naver’in LVLM teknolojisi, daha yakın ve doğal bir iletişim biçimine doğru gelişiyor
  • HCX Vision’ın farklı geçmişlere sahip insanlar için faydalı bir yapay zeka olması adına çalışılıyor
  • Gelecekte HCX Vision’ın insanların yaşamına doğal biçimde yerleşmesi umuluyor

GN⁺ görüşü

  • HCX Vision’ın görüntü anlama yeteneği sayesinde insanlarla daha doğal iletişim kurulabilmesi bekleniyor. Özellikle görsel bilginin önemli rol oynadığı alanlarda kullanım değeri yüksek olacaktır
  • Denklik sınavı sorularını çözmede yüksek performans göstermesi gibi, eğitim alanında da HCX Vision bir öğrenme destek aracı olarak kullanılabilir. Ancak öğrencilerin öz yönelimli öğrenme becerilerinin zayıflaması yönünde kaygılar da var
  • Veri edinimi ve egemenlik kazanımı, LVLM geliştirmede önemli unsurlar olarak öne çıkacaktır. Naver’in elindeki büyük ölçekli veri ve platformlardan yararlanarak rekabetçi bir LVLM geliştirebilmesi bekleniyor
  • Bugünkü tekil görüntü anlama düzeyinden film ve gerçek zamanlı video anlayışına ilerlerse eğlence, güvenlik, otonom sürüş gibi çeşitli alanlara uygulanabilir hale gelecektir. Teknik ve etik zorluklara karşı da hazırlık gerekiyor
  • OpenAI’nin GPT-4’ü ile karşılaştırıldığında benzer performans gösterse de, Korece ve Kore kültürünü anlama açısından HCX Vision’ın güçlü olduğu görülüyor. Küresel rekabet gücü için çok dilli işleme yeteneğinin geliştirilmesi gerekecek

Henüz yorum yok.

Henüz yorum yok.