29 puan yazan GN⁺ 2025-02-06 | 2 yorum | WhatsApp'ta paylaş
  • PDF’leri metin parçalarına dönüştürme (chunking) süreci, büyük ölçekli RAG sistemleri kurarken en can sıkıcı sorunlardan biri
  • Hem açık kaynak hem de ticari çözümler mevcut, ancak doğruluk, ölçeklenebilirlik ve maliyet verimliliği açısından tatmin edici sonuç almak hâlâ zor
    • Örnek: NVIDIA’nın nv-ingest çözümü, birden çok servisin Kubernetes kümesi olarak kurulmasını gerektiriyor ve GPU kaynaklarını yoğun kullanan karmaşık bir yaklaşım
    • Bazı ticari hizmetlerde de maliyete göre doğruluk yetersiz kalıyor ya da büyük ölçekli belgelere uygulandığında fiyat astronomik seviyelere çıkıyor

Gemini Flash 2.0’ın gelişi

  • Büyük modelleri (LLM) OCR ve PDF dönüştürme gibi işlerde kullanma denemeleri oldu, ancak gerçek maliyet tasarrufu sınırlı kaldı ve öngörülemeyen hatalar sık görüldü
    • Örnek: GPT-4o’nun tablolara gereksiz hücreler eklediği vakalar raporlandı
  • Gemini Flash 2.0, 1.5 Flash sürümüne kıyasla belirgin biçimde daha iyi doğruluk ve maliyet verimliliği sunuyor olarak değerlendiriliyor
    • İç test sonuçlarına göre, neredeyse kusursuz OCR doğruluğuna ulaşırken maliyet de oldukça düşük
  • Google’ın geliştirici deneyimi (Developer Experience), OpenAI’ye göre biraz geride görülse de makul fiyatlandırma büyük bir avantaj

Maliyet ve doğruluk karşılaştırması

  • PDF’leri Markdown formatına dönüştürürken, Gemini Flash 2.0 sayfa başına işleme maliyeti açısından öne çıkıyor
    • 2.0 Flash: yaklaşık 6.000 sayfa/$1
    • 2.0 Flash Lite: yaklaşık 12.000 sayfa/$1 (test öncesi)
    • 1.5 Flash: yaklaşık 10.000 sayfa/$1
    • AWS Textract: yaklaşık 1.000 sayfa/$1
    • OpenAI 4o-mini: yaklaşık 450 sayfa/$1 vb.
  • Tablo çıkarma doğruluğuna bakıldığında, Reducto’nun kendi modeli 0,90 ile en yüksek skoru aldı; Gemini 2.0 Flash ve Anthropic Sonnet ise 0,84 seviyesinde kaldı
    • Gemini’nin hatalı göründüğü örneklerin çoğu yapısal biçim sorunlarıydı; gerçek sayıları yanlış okuduğu durumlar ise azdı
  • Diğer metin çıkarma işlemleri ise neredeyse kusursuza yakın çalışıyor

Belge bölme (Chunking) ve LLM kullanımı

  • Bunu RAG hattında kullanabilmek için, çıkarılan metnin anlamlı birimlere ayrılması gerekiyor
  • Araştırmalar, büyük LLM’lerin metin sınırlarını daha doğal şekilde belirleyebildiğini gösteriyor
  • Ancak bugüne kadar maliyetler çok yüksek olduğu için bunu gerçekten büyük belge kümelerine uygulamak zordu
  • Gemini Flash 2.0 sayesinde, LLM tabanlı parça bölme büyük belge koleksiyonlarına da düşük maliyetle uygulanabilir hâle geliyor
    • Örnek: 100 milyon sayfalık bir PDF korpusu yaklaşık $5.000 maliyetle işlenebilir
  • Basit bir örnek prompt:

    OCR the following page into Markdown. Tables should be formatted as HTML.
    Do not sorround your output with triple backticks.

    Chunk the document into sections of roughly 250 - 1000 words. Our goal is
    to identify parts of the page with same semantic theme. These chunks will
    be embedded and used in a RAG pipeline.

    Surround the chunks with <chunk> </chunk> html tags.

Bounding Box sorunu

  • PDF’de metnin konum bilgisini (ör. Bounding Box) korumak, kullanıcıya doğru dayanak gösterebilmek için gerekli
  • Markdown’a dönüştürme sırasında konum bilgisinin kaybolması büyük bir dezavantaj
  • Bazı araştırmalar LLM’lerin görsel ve belge içindeki uzamsal anlayış yeteneğine sahip olabileceğini gösterse de, mevcut Gemini modelleri henüz doğru Bounding Box sağlayamıyor
  • Google bunu ek eğitim veya fine-tuning ile belge yerleşimi verileri üzerinden güçlendirirse, sorunun çözülmesi mümkün olabilir

Neden önemli

  • Ucuz ve doğru PDF çıkarma ile bölme çözümü, büyük ölçekli belge indeksleme hatlarını basitleştirip ölçeklenebilirliği artıran temel unsurlardan biri
  • parsing, chunking ve Bounding Box sorunları çözülürse, LLM tabanlı belge işleme çok daha kolay hâle gelecek
  • Önümüzdeki dönemde yüksek olgunluk seviyesine sahip açık kaynak kütüphanelerin peş peşe çıkması bekleniyor; bu da farklı şirketler ve geliştiriciler için kolay kullanılabilir bir temel oluşturacak
  • Google’ın AI Startup kredi programı hakkında bilgisi olan biri varsa iletişime geçmesi isteniyor

Notlar

  • [1] Reducto vs Gemini vs orijinal PDF karşılaştırmasını gösteren örnek görsel eklenmiş
  • [2] Gemini Flash 2.0 maliyet hesabı: giriş görseli maliyeti $0.00009675, 400 token başına $0.0000525 çıktı maliyeti temel alınarak yaklaşık 6.379 sayfa/$1 hesaplanmış

2 yorum

 
jacde 2025-02-07

Maliyet veya performans açısından bakıldığında, agent chunking biraz işe yarayacak gibi görünüyor.

 
ragingwind 2025-02-06

LLM-Ready formatına dönüştürme pazarı oldukça rekabetçi görünüyor.