- Kısa süre önce yayımlanan DeepSeek-OCR makalesi, büyük dil modellerinin (LLM) metin yerine görüntü piksellerini doğrudan girdi olarak alıp öğrenebilme olasılığını araştırıyor
- Bu yaklaşım, geleneksel OCR (optik karakter tanıma) adımını atlayıp görsel bilgiyi olduğu gibi modele aktarmayı öneriyor
- Karpathy, bu makaleye değinerek piksel girdisinin metin token’larından daha zengin bir bağlam sağlayıp sağlayamayacağını sorguluyor
- Bu fikir, çok modlu yapay zekanın gelişim yönüyle kesişiyor ve dil modellerinin görsel anlama yeteneğini içselleştirip içselleştiremeyeceğini deneysel olarak araştırıyor
- Bu tartışma, gelecekte LLM’lerin girdi yapısını ve eğitim paradigmasını yeniden tanımlayabilecek önemli bir araştırma akımı olarak değerlendiriliyor
DeepSeek-OCR makalesinin temel kavramı
- DeepSeek-OCR, mevcut metin tabanlı girdi yerine belge görüntülerinin piksel verisini doğrudan işleyen bir büyük dil modeli mimarisi öneriyor
- Geleneksel OCR sistemleri görüntüden metni çıkarıp bunu dil modeline iletir; ancak bu süreçte harf biçimi, yerleşim ve görsel bağlam kaybolur
- DeepSeek-OCR, bu kaybı azaltmak için piksel düzeyindeki görsel bilgiyi doğrudan model girdisi olarak kullanıyor
- Model; görüntü içindeki yazı, tablo, formül ve diyagram gibi çeşitli görsel öğeleri aynı anda anlayacak şekilde tasarlanmış
- Böylece yalnızca metin tanıma değil, belge yapısını anlama ve anlamsal çıkarım da mümkün hale geliyor
Karpathy’nin ortaya attığı soru
- Karpathy, Twitter dizisinde “Pikseller metinden daha iyi bir girdi mi?” sorusunu ortaya atarak makaleye değiniyor
- Ona göre LLM’lerin yalnızca metin token’larıyla öğrenen mevcut yöntemi bilgi kaybına yol açabilir
- Özellikle dil modeli görsel bağlamı doğrudan öğrenebilirse, OCR adımını atlayan birleşik bir eğitim yapısı mümkün olabilir
- Karpathy, bu yaklaşımın modelin genelleme yeteneğini ve çok modlu anlama kapasitesini artırma potansiyeline sahip olduğunu değerlendiriyor
- Ancak piksel girdisinin yüksek hesaplama maliyeti ve büyük ölçekli veri kümeleri oluşturmanın zorluğu gibi pratik sınırlamalara da dikkat çekiyor
Teknik anlamı ve potansiyel etkisi
- Piksel tabanlı girdi, metin tabanlı girdiye göre daha yüksek bilgi yoğunluğu sunması ve görsel bağlamı koruması açısından avantajlı
- Örneğin tablo veya formül içeren belgelerde metne dönüştürme sürecinde yapısal bilgi kaybolurken, piksel girdisi bunu olduğu gibi korur
- Buna karşılık piksel girdisi; model parametre sayısında artış, eğitim maliyetinde yükseliş ve çıkarım hızında düşüş gibi sorunları da beraberinde getiriyor
- Bu nedenle gerçek uygulamalarda metin ve pikseli birleştiren hibrit yaklaşım daha gerçekçi bir alternatif olarak görülüyor
- Bu tartışma, LLM’lerin yalnızca dil anlama ile sınırlı kalmayıp görsel ve mekânsal algı yeteneklerini içselleştirip içselleştiremeyeceğine dair deneysel bir araştırma olarak değerlendiriliyor
Sektörel çıkarımlar
- Belge işleme, finans, hukuk, sağlık gibi karmaşık belge yapılarının bulunduğu sektörlerde DeepSeek-OCR yaklaşımı büyük önem taşıyor
- Örneğin taranmış sözleşmelerin veya faturaların görsel yerleşimini olduğu gibi anlayan yapay zeka sistemleri kurulabilir
- Karpathy’nin tartışması, yapay zeka girdi biçimlerinin kökten yeniden değerlendirilmesini tetikleyerek gelecekteki LLM tasarım yönünü etkileme potansiyeli taşıyor
- Piksel girdisine dayalı LLM’ler, OCR teknolojisinin yerini alma veya onunla bütünleşme yönünde ilerleyebilir ve çok modlu yapay zeka araştırmalarında yeni bir dönüm noktası olarak öne çıkıyor
1 yorum
Hacker News görüşü
Bu piksel değil, percel. Piksel görüntüdeki bir nokta iken, percel algısal bilgi birimi olarak sesi, duyuları, hatta düşünce tokenlarını bile kapsayabilir.
İnsanlarda birden çok duyunun birleştiği perceller algılanır; sinir ağları da (özellikle LLM'ler) percelleri tek tek işlemek yerine onları komşu percellerin bağlamı içinde birlikte ele alır.
Disiplinler arası araştırma potansiyeli çok yüksek, ancak mevcut çerçevelere uymadığı için fon bulmasının zor olması üzücü.
“Tokenizer'ı öldürelim” radikal ama temel bir öneri.
Tokenization, dili nicelleştirmeye çalışan bir geçici çözüm sadece ve dilin özünü çarpıtıyor.
Piksellerin daha güçlü bir temsil birimi olabileceği fikri yabancı geliyor ama birilerinin yeni bir yaklaşım denemesi gerekiyor.
Bu yüzden görsel tabanlı girdi, doğal bir evrimin sonucu gibi geliyor.
Metni render edip OCR ile okumak yerine, TTS ile ses örnekleri kodlansa piksellerden daha verimli olabilir. Tabii çözünürlüğe ya da örnekleme hızına göre değişir.
Bununla ilişkili ilginç bir çalışma olarak, Lex Flagel ve diğerlerinin DNA dizi verisini görüntüye dönüştürüp CNN ile eğittiği bir makale var.
Sonuç olarak CNN, geleneksel metin tabanlı analizle elde edilen genetik ölçümleri yeniden üretebildi.
Makale bağlantısı
Son dönemdeki tartışmanın özü, dili makinelere temsil ederken kullandığımız kayıplı soyutlamaların farkına varmamız.
Tokenization bunlardan yalnızca biri; piksel ya da ses sinyali de başka yaklaşık temsil biçimleri.
Bu deneylerin asıl değeri, mevcut mimarilerin tasarım varsayımlarını sınayabilmesinde.
Çoklu modalite hizalamasını öğrenen yaklaşımlar daha iyi latent yapılar ya da eğitim yöntemleri ortaya çıkarabilir; bu da mevcut metin encoder'larını geliştirmeye yol açabilir.
Özellikle kelime sınırlarının belirsiz olduğu dillerde alternatif kodlama yöntemleri büyük fayda sağlayabilir.
Makalede geçen “bilgi sıkıştırma → kısa context window → daha yüksek verimlilik” fikri ilginç,
ama harf boyutu, yazı tipi ya da boşluklar değiştiğinde sıkıştırma oranı kötüleşebilir mi diye de düşündürüyor.
Karpathy'nin iddiasına katılıyorum.
Metin tokenlarının avantajlarından biri, girdi biçimine yani QWERTY klavyeye dair içkin bir anlayış öğrenmeleridir.
Örneğin “Hello” ile “Hwllo”, klavyede komşu tuşlar sayesinde anlamsal olarak birbirine yakın algılanır.
Daha fazla eğitim gerekebilir ama sonuçta genelleştirilmiş bir algılama yeteneği kazanılabilir.
Görüntülerde de yazım hataları üretilip eğitim yapılabilir, bu yüzden çok büyük bir sorun olduğunu düşünmüyorum.
Kendimi düşündüğümde, zihnimde kelimelerin akışı duyuluyor.
Sayfa ya da görüntü değil, ses halindeki kelimelerin peş peşe aktığı bir his.
Mevcut tokenization verimsiz olabilir. Dil zaten yüksek düzeyde bir sıkıştırma yapısına sahip,
ama latent space içinde daha iyi temsil biçimleri bulunma ihtimali var.
ancak mevcut LLM mimarileri aşırı büyük çıktı dağılımlarını yönetmede verimsiz kalıyor.
Bu yaklaşımın pratik hâle gelmesine daha çok var gibi geliyor.
ChatGPT her “Bunu bir görselle anlatalım mı?” dediğinde ortaya çıkan sonuçlar halüsinasyonlarla dolu oluyor.
Burada kastedilen, metni görüntüye dönüştürüp LLM'e girdi olarak vermek; görüntü üretmek değil.
Son dönemde bununla ilgili tartışmalar arasında
DeepSeek-OCR'ı Nvidia Spark üzerinde çalıştırma örneği ve
DeepSeek OCR projesi yer alıyor.
İkisi de 2025 Ekim ayında yoğun biçimde tartışıldı.