Grok-1.5 Vision Preview: Gelişmiş görsel işleme yeteneklerine sahip ilk multimodal modelin tanıtımı

(x.ai)

5 puan yazan brainer 2024-04-14 | Henüz yorum yok. | WhatsApp'ta paylaş

• İlk nesil multimodal model olan Grok-1.5V, güçlü metin yeteneklerine ek olarak artık belgeler, diyagramlar, grafikler, ekran görüntüleri ve fotoğraflar dahil olmak üzere geniş bir görsel bilgi yelpazesini işleyebiliyor.

• Grok-1.5V; çok disiplinli akıl yürütme, belge anlama, bilimsel diyagramlar, grafikler, ekran görüntüleri ve fotoğraflar gibi çeşitli alanlarda mevcut multimodal modelleri geride bırakıyor ve fiziksel dünyayı anlamada üstün bir yetenek sergiliyor.

• Soru ve kolayca doğrulanabilir yanıtlara sahip 700'den fazla görüntüden oluşan multimodal modellerin temel gerçek dünya mekânsal anlama yeteneklerini değerlendirmek için RealWorldQA adlı yeni bir benchmark tanıtılıyor.

• Grok-1.5V yakında erken test kullanıcıları ve mevcut Grok kullanıcıları için erişilebilir olacak; ayrıca ekip, görüntü, ses ve video gibi çeşitli modalitelerde multimodal yetenekleri aktif olarak genişletiyor.

Grok-1.5 Vision Preview: Gelişmiş görsel işleme yeteneklerine sahip ilk multimodal modelin tanıtımı

İlgili okumalar

Henüz yorum yok.