GPT-4V(ision) hakkında ilk izlenimler

(blog.roboflow.com)

1 puan yazan GN⁺ 2023-09-29 | 1 yorum | WhatsApp'ta paylaş

OpenAI'nin GPT-4 with Vision modeli, görüntü ve metni birlikte girdi olarak alıp doğal dilde yanıt veren çok modlu bir modeldir; API erişimi 6 Kasım 2023'te kullanıma açıldı
Değerlendirmelerde görsel soru-cevaplama (VQA) ve belge görsellerinde OCR güçlüydü, ancak açı ve kontrastın kötü olduğu lastik seri numarası gibi saha OCR senaryolarında hatalar ortaya çıktı
Matematik soru görsellerinde trigonometrik çözümü ve doğru cevabı sundu, ancak matematik sembollerini atlama olasılığı nedeniyle el yazısı veya karmaşık formüller için ayrıca doğrulama gerekiyor
Nesne konumunu koordinat olarak döndürme görevlerinde bounding box değerleri gerçek konumla örtüşmediği için özel nesne tespit modellerinin yerini alması zor görünüyor
CAPTCHA, çapraz bulmaca ve sudoku gibi ızgara yapısını okumayı gerektiren görevlerde ve insan tanımlama isteklerinde kısıtlar bulunduğundan, görüntü anlama hattının akıl yürütme katmanı olarak kullanmadan önce kullanım örneğine göre test edilmesi gerekiyor

GPT-4V'nin karakteri ve erişim yaklaşımı

GPT-4 with Vision, GPT-4V veya GPT-4V(ision) olarak da anılır ve OpenAI tarafından geliştirilen çok modlu bir modeldir
Kullanıcılar bir görüntü yükledikten sonra o görüntü hakkında soru sorabilir; bu görev görsel soru-cevaplama (VQA) kapsamına girer
Metin ve görüntü gibi birden fazla girdi biçimini işleyen büyük çok modlu model (LMM) kategorisindedir
Aynı kategoride CogVLM, IDEFICS, LLaVA, Kosmos-2 gibi modeller de bulunur
Açık kaynak modeller çevrimdışı ve cihaz üzerinde dağıtılabilirken, GPT-4V'ye barındırılan API üzerinden erişilir
GPT-4V, OpenAI ChatGPT iOS uygulaması, web arayüzü ve API üzerinden kullanılabilir
- Web aracını kullanmak için GPT-4 aboneliği gerekir
- API kullanımı için geliştirici erişim izni gerekir
- API tanımlayıcısı gpt-4-vision-preview şeklindedir

Altı değerlendirme görevi

Değerlendirmede, GPT-4V'nin neleri yapabildiğini görmek için altı görev türü kullanıldı
- Görsel soru-cevaplama (VQA)
- Optik karakter tanıma (OCR)
- Matematik OCR
- Nesne tespiti
- CAPTCHA okuma
- Çapraz bulmaca ve sudoku

Görsel soru-cevaplama sonuçları

Bilgisayarlı görü meme görsellerinde neden komik olduğunu açıklarken görüntüdeki farklı bileşenleri ve bunların ilişkilerini kullandı
- Görseldeki metni de okuyup yanıtında kullandı
- Ancak kızarmış tavuk etiketini “GPU” yerine “NVIDIA BURGER” olarak yanlış okudu
ABD 1 sentlik madeni para fotoğrafında kökeni ve nominal değerini başarıyla tanımladı
Birden fazla madeni para içeren görselde “How much money do I have?” sorusuna, madeni para sayısını belirledi ancak para birimi türünü hemen çıkaramadı
- Takip sorusunda para birimi türünü doğru şekilde tanımladı
Pulp Fiction filminden bir sahne fotoğrafına “Is it a good movie?” diye sorulduğunda, film adı metin olarak verilmemiş olmasına rağmen film açıklaması ve soruya yanıt sundu
- IMDB puanı sorulan takip sorusunda Ocak 2022 itibarıyla puanı verdi
- OpenAI'nin diğer GPT modelleri gibi, belirli bir tarihten sonraki bilgiye sahip olmadığını gösterdi
San Francisco fotoğrafında “Where is this?” sorusuna konumu San Francisco olarak tanımladı ve görseldeki Transamerica Pyramid yapısından şehrin önemli bir simgesi olarak söz etti
Peace lily fotoğrafında bitkinin adı ve bakım yöntemi sorulduğunda, bitkiyi peace lily olarak tanımlayıp bakım önerileri verdi
- Bitkiyi ayrı bir sınıflandırma modeliyle tanıyıp ardından GPT-4'e bakım sormayı gerektiren iki aşamalı süreç olmadan doğal dilde yanıt alınabildi

OCR ve matematik OCR

Genel OCR değerlendirmesi, bir lastik üzerindeki metin ve dijital belgelerdeki paragraf görselleriyle yapıldı
Lastik görselinde seri numarasını doğru şekilde tanımlayamadı
- Bazı rakamlar doğruydu ancak sonuçta birden fazla hata vardı
- Düşük kontrastlı veya açılı gerçek ortam OCR senaryolarında sınırları ortaya çıktı
Web sayfası metni içeren belge görselinde, görseldeki metni başarıyla okudu
- Belgeden metin çıkarma işlerinde faydalı sonuç verdi
Matematik OCR testinde, belge ekran görüntüsündeki matematik sorusu girilip “Solve it.” istendi
- Model, bunun trigonometriyle çözülebilecek bir soru olduğunu tanımladı
- Kullanılacak fonksiyonu seçip adım adım çözüm sundu
- Doğru cevabı da verdi
OpenAI'nin GPT-4V sistem kartında, modelin matematik sembollerini kaçırabileceği bir sınırlama olarak belirtiliyor
- Kağıda elle yazılmış formüller veya farklı denklem biçimleriyle yapılan testlerde matematik sorularını yanıtlama yeteneğinde kusurlar görülebilir

Nesne tespiti ve mekânsal anlama sınırları

Nesne tespiti, bilgisayarlı görü alanının temel görevlerinden biridir; bu değerlendirmede görsel içindeki birden çok nesnenin konumunu belirleme yeteneği incelendi
Köpek bulunan bir görselde köpeği tespit edip x_min, y_min, x_max, y_max değerleri istendiğinde, GPT-4V'nin döndürdüğü koordinatlar köpeğin gerçek konumuyla uyuşmadı
Görseller hakkında soru yanıtlama yeteneği güçlü olsa da, görüntü içinde nesnenin nerede olduğunun bilinmesi gereken durumlarda ince ayarlı nesne tespit modeli yerine geçemez

CAPTCHA, çapraz bulmaca, sudoku

CAPTCHA testi, OpenAI'nin araştırdığı ve sistem kartında ele aldığı görevler üzerinde yapıldı
GPT-4V, görselde CAPTCHA bulunduğunu tanımladı ancak testin kendisinde sık sık başarısız oldu
- Trafik ışığı CAPTCHA örneğinde, trafik ışığı içeren bazı hücreleri kaçırdı
- Yaya geçidi CAPTCHA örneğinde bazı hücreleri doğru sınıflandırdı, ancak bir hücreyi yanlışlıkla yaya geçidi olarak etiketledi
Çapraz bulmaca fotoğrafında “Solve it.” istendiğinde, görselin bir çapraz bulmaca olduğunu çıkarıp çözmeye çalıştı
- İpuçlarını doğru okumuş gibi görünse de, tahtanın yapısını yanlış yorumladığı için cevap yanlıştı
Sudoku testinde de oyunun ne olduğunu tanıdı, ancak tahtanın yapısını yanlış anlayıp hatalı sonuç döndürdü
Izgara yapısı ve mekânsal yerleşimin kritik olduğu görevlerde, GPT-4V'nin yapısal yorumlama sınırları gerçek yanıt doğruluğunu etkiliyor

Python ile GPT-4V API kullanımı

GPT-4V API'si herhangi bir programlama diliyle çağrılabilir ve OpenAI resmî Python paketini sunar
Python paketi şu komutla kurulur

pip install openai

OpenAI web sitesinden API anahtarını alıp OPENAI_API_KEY ortam değişkeni olarak dışa aktarın

export OPENAI_API_KEY=""

Örnek kod, gpt-4-vision-preview modeline metin ve görsel URL'sini birlikte göndererek görseldeki metni okumasını ister

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

Python paketi üzerinden görsel URL'si veya base64 kodlu görsel girdi olarak verilebilir
API biçimi OpenAI GPT-4 with Vision documentation sayfasında görülebilir
Örnek görselde GPT-4V, görseldeki paragrafı başarıyla metin olarak tanımladı

Güvenlik, sınırlamalar ve pratik kullanım

OpenAI, az sayıda kullanıcıya sunulan alfa sürüm görsel model üzerinde araştırma yürüttü; ayrıca dış uzmanların model ve sistemin sınırlamalarını ve risklerini niteliksel olarak değerlendirdiği bir red team süreci de uygulandı
GPT-4V sistem kartındaki sınırlamalar şunlardır
- Görseldeki metin veya karakterleri kaçırabilir
- Matematik sembollerini kaçırabilir
- Mekânsal konumları ve renkleri algılayamayabilir
OpenAI, modelle ilgili çeşitli riskleri belirlemeye, araştırmaya ve azaltmaya çalıştı
- GPT-4V, görseldeki belirli kişileri tanımlamaz
- Nefret sembolleriyle ilgili istemlere yanıt vermez
Sistem kartında ek koruma çalışması gerektiren örnekler de yer alıyor
- Uygun bir istem verildiğinde GPT-4, daha az bilinen belirli nefret gruplarının sembolleri hakkında o grubu öven içerik üretebilir
GPT-4V, genel görsel sorulara ve takip sorularına akıcı biçimde yanıt verebilir; ancak halüsinasyon nedeniyle hatalı bilgi döndürebilir
İnsan fotoğrafında Taylor Swift'in kim olduğu sorulduğunda yanıt vermeyi reddetti; bu, OpenAI sistem kartına göre beklenen bir davranıştı
Görseller hakkında soru sorma ve akıl yürütme amaçları için faydalı olsa da, nesne konumu üretimi gibi hassas bilgisayarlı görü çıktıları gerektiren görevler için şu anda uygun değil

1 yorum

GN⁺ 2023-09-29

Hacker News yorumları

Bazı uç durum başarısızlıkları ve hatalar var ama yine de buna ancak hayranlık uyandırıcı denebilir.
Mevcut iyileşme hızı devam ederse, bu yapay zeka modelleri telefonlar, tabletler, masaüstleri, arabalar, bulaşık makineleri, evler, ofisler vb. neredeyse her şey için daha iyi bir kullanıcı arayüzü haline gelecek gibi görünüyor.
Birçok uygulama, hizmet ve cihazın arayüzü ile uygulamaların kendisinin, istediğiniz anda istediğiniz işi yapan yapay zekayla değiştirilme olasılığı yüksek görünüyor.
Pek çok kişi bunu korkutucu bulup sevmeyecek ama kaçınılmaz görünüyor; sonunda bir robot gövdesi de takılıp “Bilgisayar, sevdiğim kahvaltıyı hazırla” gibi bir şeye dönüşecek gibi.
- “Neredeyse her şey için daha iyi bir kullanıcı arayüzü” olacağını sanmıyorum. Tasarım açısından bakınca aslında oldukça kötü bir arayüz.
  Temel mesele, hiç affordance olmaması ve yavaş olması. Kullanıcı deneyimi, mümkün olan işlevleri bir bakışta sezgisel olarak anlamanızı, tek dokunuşla çalıştırmanızı ve yeni durumu anında göstermeyi sağlamalı.
  Yapay zekanın parlayacağı yer, mevcut arayüzleri öğrenmeye ve kullanmaya yardımcı olan asistan rolü. Örneğin “Microsoft Word’de Works Cited sayfasında asılı girintiyi nasıl yaparım?” diye Google’a sorduğumuz işi daha iyi yapabilir.
  Ara sıra yapılan işler için muazzam fayda sağlayacak, ama arayüzün yerini almaktan çok onu destekleyecek. Tekrarlı alışkanlıklarla yapılan işlerin %99’unda geleneksel UI çok daha verimli; ayrıca sesli arayüz kullanmanın zor ya da görgüye uygun olmadığı pek çok ortam var.
- Bilgisayarın işlevlerini kullanmak için doğal dilde sohbet etmek zorunda olma fikri pek hoşuma gitmiyor.
  Kendini hiçbir şey yapamayan Futurama’daki kavanoz içindeki kafa gibi hissettiriyor.
- Bir gün markaların “yapay zeka kullanmaz” ifadesini satış argümanı olarak reklam etmeye başlamasını dört gözle bekliyorum. Yapay zeka kontrollü bir tost makinesinde, ister kelimenin tam anlamıyla ister mecazen, yandıktan sonra bu bir avantaj olacak gibi.
  “Ev aleti” diye adlandırılacak bir şey, yerel bir tamirci tarafından onarılabilmeli; aksi halde paranızı çöpe atmış olursunuz.
- Gelişmiş ülkelerin çoğunda bile insanların kabaca yarısı işlevsel olarak kendini net ifade edemez. Okuyabilirler ama istediklerini yazıya dökmekte zorlanırlar.
  LLM tabanlı chatbot gelişmiş ülkelerde okuryazarlık düzeyi en üst %30’da olan kullanıcılar için çok çekici olabilir, ancak evrensel UI olarak iyi değildir.
  Kullanıcının gereksinimlerini mutlaka sözle net biçimde ifade etmek zorunda kalmadan ihtiyaç duyduğu işi tamamlayabileceği yollar hâlâ sunulmalı.
  Bu yüzden birçok kişi ChatGPT gibi servislerin karşısına oturup “Bunu ne için kullanacağım?” diye soruyor ve bir daha kullanmıyor.
- Genel olarak katılıyorum; ama tersinden bakarsak, bir işi doğru yapmak istediğinizde bazen bizzat yapmanız gerekir.
  Çalışan da bir tür genel amaçlı UI sayılır; ama insan olsun bilgisayar olsun, çoğu durumda ne istediğimi bir vekilden daha iyi bilirim. Üstelik asıl-vekil problemini hesaba katmadan önce bile böyle.
Grafik analizi etkileyici: https://imgur.com/a/iOYTmt0
UI’ı frontend’e dönüştürmek de mümkün görünüyor. Sadece metni değil, UI’ın grafik öğelerini ve yerleşimini de anlıyor gibi.
https://twitter.com/skirano/status/1706823089487491469
Çizgi roman görsellerini panel panel doğru şekilde açıklayabiliyor: https://twitter.com/ComicSociety/status/1698694653845848544?...
Burada da çok örnek var: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
Temelde güçlendirilmiş bilgisayarlı görü gibi görünüyor. Çok modluluk nispeten alçakta asılı meyve olduğu için bunun şimdi başlaması sevindirici.
GPT-4’ün metinle başa çıkma becerisinin yarısı kadar bile ses ve görüntüleri manipüle edebilse nasıl olurdu, hayal ediyorum. Henüz baştan itibaren büyük ölçekte eğitilmiş çok modlu bir model olmadığı için olası sinerji etkilerinin çoğu da bilinmiyor.
- Frontend geliştiricisi olarak işim tamamen bitti gibi hissediyorum.
- Bu gerçekten çok iyi. Diğer yerlerin hepsi “bekleme listesine katılın” dediği için özellikle iyi.
“Bu görsel neden komik?” testi https://karpathy.github.io/2012/10/22/state-of-computer-visi... yazısını hatırlatıyor.
10 yılda “en ileri teknoloji bile bunu başarmak için nereden başlayacağını bilmiyor” noktasından “token başına 0,0004 dolar, iyi günler” noktasına geldik.
- O görselde GPT-4V’yi deneyen biri var mı merak ediyorum.
- Karpathy yazıyı “galiba en iyisi bir startup kurayım. Mobil, yerel, sosyal bir iPhone uygulaması fikrim gerçekten harika” gibi umutsuz bir cümleyle bitiriyor.
  Ama şimdi patronunun tam da o yoldan gidip bunu ortaya çıkarmış olması ilginç.
“Yapıyı yanlış anlamış” ifadesi küçük bir hata gibi duyuluyor ama Sudoku tahtası neredeyse tamamen halüsinasyon.
Benzer birkaç bölge var ama bunun tesadüf olma ihtimali yüksek görünüyor. Bulmacada da ızgara olmadan sadece ipuçları verilseydi benzer bir sonuç üretirdi muhtemelen.
OCR ve temel tanımanın ötesindeki diğer örnekler de benzer şekilde yanlış hissettiriyor. Mesele “GPT-4V trafik ışığı olan birkaç kareyi kaçırdı” değil; var olmayan karelere tıklamasını söylemesi.
ChatGPT’yi epey sık kullanıyorum, ama azıcık bile öznel bir soru olduğunda cevap vermekte aşırı tereddüt ettiği için sık sık sinir bozucu oluyor.
Pulp Fiction cevabında bile “ama kişisel olarak Pulp Fiction’ı iyi bir film sayıp saymamanız film zevkinize bağlıdır” gibi bir cümle ekleniyor.
Bu gürültüden kaçınmak için sorguya “x’in öznel olduğuna dair giriş ya da uyarı ekleme” gibi ifadeler koyunca sonuç çok daha iyi oluyor.
- ChatGPT’yi kullanılabilir hale getirmek için kullandığım prompt şu:
  “Her zaman doğrudan cevap ver. Ek açıklama, sorumluluk reddi, uzmanlık sınırı, insan etkileşimi yönergeleri ekleme. Kısa tut. Sorulmamış tavsiye veya açıklama verme. Her konuda tarafsız kal. Asla özür dileme.”
NVIDIA burger şakasını doğru açıklayamamış gibi görünüyor
O görsel, NVIDIA’nın tüketici GPU’larına gerektiği kadar VRAM koymayarak fiyat ayrımcılığı yapmasını ve eksiksiz veri merkezi GPU’larını uçuk fiyatlara satarken oyuncuları kışkırtmamaya çalışma biçimini tiye alıyor
GPT-4V’nin açıklaması bu özün yanına bile yaklaşamamış
- Bence doğru cevap bu değil. Meme görselinin kendisinde fiyat ayrımcılığına ya da tüketici psikolojisiyle ilgili karmaşık bir anlatıya işaret eden bir unsur görünmüyor; daha basitçe “NVIDIA GPU’ları dengesiz” demek istiyor gibi duruyor
  Facebook’taki orijinal kaynak gibi görünen yere göz attığımda da oyuncuların fiyat ayrımcılığından bahsettiğini ya da buna yakın bir yorum yaptığını görmedim
  VRAM’den kısmalarının nedeni bu olabilir, ama meme’i yapanın ya da görenlerin odaklandığı veya anladığı bağlamın çok ötesinde bir açıklama eklenmiş oluyor
- Ben de öyle gördüm. Kulağa makul gelen bir cevap üretmiş, ama daha az nerd olan biri de anlamamış olabilir
- Şakanın genel çerçevesini açıklamış ama etiketleri yanlış okumuş
  Küçük ekmeğin “GPU and VRAM”, dev kızarmış tavuğun “NVIDIA BURGER” olduğunu söylemiş; oysa gerçekte küçük ekmek “VRAM”, dev kızarmış tavuk “GPU” olmalı
- Grafik kartını burger olarak, boyutu da fiziksel boyut olarak anlamış gibi. Asıl mesele VRAM kapasitesinin yetersizliği, ama onu kaçırmış görünüyor
Erişimi olan biri GPT-4V’nin bu görsel hakkında ne dediğini paylaşabilir mi?
http://karpathy.github.io/assets/obamafunny.jpg
Andrej Karpathy’nin 2012’de bir modelin yorumlamasının çok zor olacağı bir örnek olarak kullandığı görsel. 11 yıl sonra durum nasıl merak ediyorum
- Prompt: “Bu görsel hakkında ne söyleyebilirsin?”
  Yanıt 1, bunun koridor ya da geçit gibi görünen bir yerde yakalanmış tesadüfi bir an olduğunu; soldaki erkeğin bir odanın içine baktığını, yanındaki erkeğin bir tartının üzerinde durup not aldığını ve arka plandaki kişilerin konuştuğunu açıklıyor
  Ortamın hafif ve neşeli göründüğünü; mimari ve iç mekânın ofis ya da devlet tesisi gibi kurumsal bir alan hissi verdiğini söylüyor
  Yanıt 2 ise “Üzgünüm, ancak bu konuda yardımcı olamam” idi
  Yeni bir sohbette “Bu görsel neden komik?” diye sorunca, resmî kişilerin gayriresmî bir anda yakalanmasını, boy farkını, ifadeleri, okul ya da spor salonu gibi arka planla takım elbise arasındaki tezatı gerekçe gösterdi
  Yeni bir sohbette “Ortadaki kişi ayağıyla ne yapıyor ve neden?” diye sorunca, ortadaki kişinin uzun boylu kişi tartılırken şaka yollu tartıya basarak değeri kısa süreliğine yükseltmeye çalışıyor gibi göründüğünü söyledi
  Genel olarak ayağın tartının üzerinde olduğunu kendi kendine fark edemedi ya da bunun kilit nokta olduğunu bağlayamadı; ancak bu bilgi verildikten sonra doğruyu bulmuş gibi. Ondan önce görsele dair genel laflar arasında bocaladı
- Bard, “İnsan bulunan görsellerde henüz yardımcı olamıyorum” diye yanıtladı
Madeni para setiyle ilgili iki yanıt arasındaki tutarsızlık epey rahatsız edici
İlk yanıta bakınca para birimlerini ayırt edemiyor gibi görünüyor, ama ikinci yanıt aslında ayırt edebildiğini gösteriyor
LLM’ler bu şekilde tutarlı bir iç modeli yansıtmadığı için, kullanıcının yapay zeka sohbet muhatabını nasıl akıl yürütüyor sayması gerektiğine karar vermesini zorlaştırıyor; bu da şu anda ciddi bir kullanılabilirlik sorunu
- Bir insana görsel hakkında sorsanız da istediğiniz tüm ayrıntıları her seferinde alamama ihtimaliniz yüksek
  Bir ayrıntı önemliyse sadece o kısmı sorun yeter. Bunun illa tutarlı iç model meselesiyle ilgili olduğunu sanmıyorum
- ChatGPT’ye “Emin misin?” diye sorma alışkanlığı edindim
  O zaman çoğu durumda gerçekten kendini doğru şekilde düzeltiyor ya da hangi öğenin halüsinasyon olduğunu kabul ediyor. Her gördüğümde güldürüyor
- Bunun, yapay zekanın düşündüğü şeyi düşündüğü anda çıktı olarak vermesinden kaynaklandığını duymuştum
  Aslında geriye dönüp bakmıyor; bir tür dilsel düşünce akışını olduğu gibi ekrana akıtıyor
  Bu yüzden az önce söylediklerini tekrar düşünmesini istediğinizde, ancak o zaman gerçekten bakıp değerlendirme yapıyor gibi oluyor
GPT-4V’nin kızarmış tavuğa “NVIDIA BURGER” dediği söylenmiş, ama ABD Ortabatısı’ndan biri bunun apaçık tenderloin olduğunu söylerdi
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- Ortabatılı kişi eklentisini v2 için saklamak gerek
- “Ortabatılı herkes” ifadesine itirazım var. Indiana’nın tamamında bile böyle değil; bağlantı verilen yazı da Chicago’da böyle olmadığını söylüyor
Metin sürümünde olduğu gibi, garip şekilde tic-tac-toe konusunda hâlâ çok zayıf
Bitmiş bir oyunun fotoğrafını verip “Kim kazandı?” diye sordum; “X orta sütundaki dikey çizgiyle kazandı” dedi, ama aslında O kazanmıştı ve orta sütunda yalnızca bir X vardı
Yine de bunun dışında verdiğim neredeyse her şeyde çok etkileyiciydi
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  Titiz talimatlar verirseniz optimal tic-tac-toe elde edebilirsiniz

GPT-4V(ision) hakkında ilk izlenimler

GPT-4V'nin karakteri ve erişim yaklaşımı

Altı değerlendirme görevi

Görsel soru-cevaplama (VQA)

Optik karakter tanıma (OCR)

Matematik OCR

Nesne tespiti

CAPTCHA okuma

Çapraz bulmaca ve sudoku

Görsel soru-cevaplama sonuçları

OCR ve matematik OCR

Nesne tespiti ve mekânsal anlama sınırları

CAPTCHA, çapraz bulmaca, sudoku

Python ile GPT-4V API kullanımı

Güvenlik, sınırlamalar ve pratik kullanım

İlgili okumalar

1 yorum

Hacker News yorumları