Piksel tabanlı girdi metinden daha mı iyi? Karpathy’nin DeepSeek-OCR makalesi hakkında ortaya attığı soru

(twitter.com/karpathy)

3 puan yazan GN⁺ 2025-10-24 | 1 yorum | WhatsApp'ta paylaş

Kısa süre önce yayımlanan DeepSeek-OCR makalesi, büyük dil modellerinin (LLM) metin yerine görüntü piksellerini doğrudan girdi olarak alıp öğrenebilme olasılığını araştırıyor
Bu yaklaşım, geleneksel OCR (optik karakter tanıma) adımını atlayıp görsel bilgiyi olduğu gibi modele aktarmayı öneriyor
Karpathy, bu makaleye değinerek piksel girdisinin metin token’larından daha zengin bir bağlam sağlayıp sağlayamayacağını sorguluyor
Bu fikir, çok modlu yapay zekanın gelişim yönüyle kesişiyor ve dil modellerinin görsel anlama yeteneğini içselleştirip içselleştiremeyeceğini deneysel olarak araştırıyor
Bu tartışma, gelecekte LLM’lerin girdi yapısını ve eğitim paradigmasını yeniden tanımlayabilecek önemli bir araştırma akımı olarak değerlendiriliyor

DeepSeek-OCR makalesinin temel kavramı

DeepSeek-OCR, mevcut metin tabanlı girdi yerine belge görüntülerinin piksel verisini doğrudan işleyen bir büyük dil modeli mimarisi öneriyor
- Geleneksel OCR sistemleri görüntüden metni çıkarıp bunu dil modeline iletir; ancak bu süreçte harf biçimi, yerleşim ve görsel bağlam kaybolur
- DeepSeek-OCR, bu kaybı azaltmak için piksel düzeyindeki görsel bilgiyi doğrudan model girdisi olarak kullanıyor
Model; görüntü içindeki yazı, tablo, formül ve diyagram gibi çeşitli görsel öğeleri aynı anda anlayacak şekilde tasarlanmış
- Böylece yalnızca metin tanıma değil, belge yapısını anlama ve anlamsal çıkarım da mümkün hale geliyor

Karpathy’nin ortaya attığı soru

Karpathy, Twitter dizisinde “Pikseller metinden daha iyi bir girdi mi?” sorusunu ortaya atarak makaleye değiniyor
- Ona göre LLM’lerin yalnızca metin token’larıyla öğrenen mevcut yöntemi bilgi kaybına yol açabilir
- Özellikle dil modeli görsel bağlamı doğrudan öğrenebilirse, OCR adımını atlayan birleşik bir eğitim yapısı mümkün olabilir
Karpathy, bu yaklaşımın modelin genelleme yeteneğini ve çok modlu anlama kapasitesini artırma potansiyeline sahip olduğunu değerlendiriyor
- Ancak piksel girdisinin yüksek hesaplama maliyeti ve büyük ölçekli veri kümeleri oluşturmanın zorluğu gibi pratik sınırlamalara da dikkat çekiyor

Teknik anlamı ve potansiyel etkisi

Piksel tabanlı girdi, metin tabanlı girdiye göre daha yüksek bilgi yoğunluğu sunması ve görsel bağlamı koruması açısından avantajlı
- Örneğin tablo veya formül içeren belgelerde metne dönüştürme sürecinde yapısal bilgi kaybolurken, piksel girdisi bunu olduğu gibi korur
Buna karşılık piksel girdisi; model parametre sayısında artış, eğitim maliyetinde yükseliş ve çıkarım hızında düşüş gibi sorunları da beraberinde getiriyor
- Bu nedenle gerçek uygulamalarda metin ve pikseli birleştiren hibrit yaklaşım daha gerçekçi bir alternatif olarak görülüyor
Bu tartışma, LLM’lerin yalnızca dil anlama ile sınırlı kalmayıp görsel ve mekânsal algı yeteneklerini içselleştirip içselleştiremeyeceğine dair deneysel bir araştırma olarak değerlendiriliyor

Sektörel çıkarımlar

Belge işleme, finans, hukuk, sağlık gibi karmaşık belge yapılarının bulunduğu sektörlerde DeepSeek-OCR yaklaşımı büyük önem taşıyor
- Örneğin taranmış sözleşmelerin veya faturaların görsel yerleşimini olduğu gibi anlayan yapay zeka sistemleri kurulabilir
Karpathy’nin tartışması, yapay zeka girdi biçimlerinin kökten yeniden değerlendirilmesini tetikleyerek gelecekteki LLM tasarım yönünü etkileme potansiyeli taşıyor
Piksel girdisine dayalı LLM’ler, OCR teknolojisinin yerini alma veya onunla bütünleşme yönünde ilerleyebilir ve çok modlu yapay zeka araştırmalarında yeni bir dönüm noktası olarak öne çıkıyor

1 yorum

GN⁺ 2025-10-24

Hacker News görüşü

Bu piksel değil, percel. Piksel görüntüdeki bir nokta iken, percel algısal bilgi birimi olarak sesi, duyuları, hatta düşünce tokenlarını bile kapsayabilir.
İnsanlarda birden çok duyunun birleştiği perceller algılanır; sinir ağları da (özellikle LLM'ler) percelleri tek tek işlemek yerine onları komşu percellerin bağlamı içinde birlikte ele alır.
- Bu fikirle bir araştırma fonu önerisi yazmıştım. ML araştırmacıları yeterince pratik olmadığını söyleyerek çok olumsuz yaklaşmıştı, ama sinirbilimciler güçlü biçimde desteklemişti.
  Disiplinler arası araştırma potansiyeli çok yüksek, ancak mevcut çerçevelere uymadığı için fon bulmasının zor olması üzücü.
- Bu kavram o kadar ilginç geldi ki araştırdım ama bir kaynak bulamadım. Acaba bu sizin uydurduğunuz bir neolojizm mi, yoksa dayandığı bir makale ya da araştırma var mı?
- Sonuçta bunun latent space kavramına benzediğini düşünüyorum. İlgili vektörlerin kümelendiği bir yapı olması açısından benzer.
- Perceli vektör olarak ifade etmek için, algı kipine göre (görsel, işitsel vb.) boyutları ayırarak latent space'e eşlemek gerekir gibi görünüyor.
- Şaka bir yana, percel yerine buna toxel deme isteği geliyor.
“Tokenizer'ı öldürelim” radikal ama temel bir öneri.
Tokenization, dili nicelleştirmeye çalışan bir geçici çözüm sadece ve dilin özünü çarpıtıyor.
Piksellerin daha güçlü bir temsil birimi olabileceği fikri yabancı geliyor ama birilerinin yeni bir yaklaşım denemesi gerekiyor.
- Ben yazı okurken metni hem görsel hem işitsel olarak aynı anda işliyorum.
  Bu yüzden görsel tabanlı girdi, doğal bir evrimin sonucu gibi geliyor.
  Metni render edip OCR ile okumak yerine, TTS ile ses örnekleri kodlansa piksellerden daha verimli olabilir. Tabii çözünürlüğe ya da örnekleme hızına göre değişir.
- Meta'nın Byte Latent Transformer, tokenizer'ın yerini almaya çalıştı ama sonuçta ilgi görmedi.
- O zaman üretim aşamasında neyle decode edileceği sorusu doğuyor. Tokenlar yalnızca basit bir görsel gösterimden fazlasını ifade ediyor; sadece metin görüntüsü üretmek yeterli olmaz.
- Metin bilgi yoğunluğu çok yüksek bir yapı. Bu yüzden girdi olarak hâlâ verimli.
- Ben de pek anlayamıyorum. Metnin kendisinden ziyade onun görüntüsünün daha iyi olması nasıl mantıklı olabilir? Hatta ekranın tamamını görüntüleyip modele kamera öğrenimi de yaptıralım demek gibi geliyor.
Bununla ilişkili ilginç bir çalışma olarak, Lex Flagel ve diğerlerinin DNA dizi verisini görüntüye dönüştürüp CNN ile eğittiği bir makale var.
Sonuç olarak CNN, geleneksel metin tabanlı analizle elde edilen genetik ölçümleri yeniden üretebildi.
Makale bağlantısı
Son dönemdeki tartışmanın özü, dili makinelere temsil ederken kullandığımız kayıplı soyutlamaların farkına varmamız.
Tokenization bunlardan yalnızca biri; piksel ya da ses sinyali de başka yaklaşık temsil biçimleri.
Bu deneylerin asıl değeri, mevcut mimarilerin tasarım varsayımlarını sınayabilmesinde.
Çoklu modalite hizalamasını öğrenen yaklaşımlar daha iyi latent yapılar ya da eğitim yöntemleri ortaya çıkarabilir; bu da mevcut metin encoder'larını geliştirmeye yol açabilir.
Özellikle kelime sınırlarının belirsiz olduğu dillerde alternatif kodlama yöntemleri büyük fayda sağlayabilir.
Makalede geçen “bilgi sıkıştırma → kısa context window → daha yüksek verimlilik” fikri ilginç,
ama harf boyutu, yazı tipi ya da boşluklar değiştiğinde sıkıştırma oranı kötüleşebilir mi diye de düşündürüyor.
Karpathy'nin iddiasına katılıyorum.
Metin tokenlarının avantajlarından biri, girdi biçimine yani QWERTY klavyeye dair içkin bir anlayış öğrenmeleridir.
Örneğin “Hello” ile “Hwllo”, klavyede komşu tuşlar sayesinde anlamsal olarak birbirine yakın algılanır.
- Yapay zeka piksel tabanlı girdileri okuyabilirse, “HWLLO” ya da “H3LL0” gibi varyasyonları da görsel benzerlik üzerinden benzer şekilde algılayabilir.
  Daha fazla eğitim gerekebilir ama sonuçta genelleştirilmiş bir algılama yeteneği kazanılabilir.
- Ben typo learning fikrine katılıyorum. Hatta bunu videomda da ele almıştım.
  Görüntülerde de yazım hataları üretilip eğitim yapılabilir, bu yüzden çok büyük bir sorun olduğunu düşünmüyorum.
Kendimi düşündüğümde, zihnimde kelimelerin akışı duyuluyor.
Sayfa ya da görüntü değil, ses halindeki kelimelerin peş peşe aktığı bir his.
Mevcut tokenization verimsiz olabilir. Dil zaten yüksek düzeyde bir sıkıştırma yapısına sahip,
ama latent space içinde daha iyi temsil biçimleri bulunma ihtimali var.
- Sektörde de tokenizer'ın sınırları iyi biliniyor. Ancak bunun yerine geçecek gerçekten ölçeklenebilir bir yöntem geliştirmek çok zor.
- Görüntü modelleri daha büyük birim tokenlar kullanıyor. Metinde de n-gram tabanlı büyük token sözlükleri kurulabilir,
  ancak mevcut LLM mimarileri aşırı büyük çıktı dağılımlarını yönetmede verimsiz kalıyor.
Bu yaklaşımın pratik hâle gelmesine daha çok var gibi geliyor.
ChatGPT her “Bunu bir görselle anlatalım mı?” dediğinde ortaya çıkan sonuçlar halüsinasyonlarla dolu oluyor.
- Ama görüntü üretimi ile görüntü girdisi tamamen farklı sorunlar.
  Burada kastedilen, metni görüntüye dönüştürüp LLM'e girdi olarak vermek; görüntü üretmek değil.
Son dönemde bununla ilgili tartışmalar arasında
DeepSeek-OCR'ı Nvidia Spark üzerinde çalıştırma örneği ve
DeepSeek OCR projesi yer alıyor.
İkisi de 2025 Ekim ayında yoğun biçimde tartışıldı.

Piksel tabanlı girdi metinden daha mı iyi? Karpathy’nin DeepSeek-OCR makalesi hakkında ortaya attığı soru

DeepSeek-OCR makalesinin temel kavramı

Karpathy’nin ortaya attığı soru

Teknik anlamı ve potansiyel etkisi

Sektörel çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşü