Milyonlarca PDF’yi işlemenin yolu ve Gemini 2.0’ın neden her şeyi değiştirdiği

(sergey.fyi)

29 puan yazan GN⁺ 2025-02-06 | 2 yorum | WhatsApp'ta paylaş

PDF’leri metin parçalarına dönüştürme (chunking) süreci, büyük ölçekli RAG sistemleri kurarken en can sıkıcı sorunlardan biri
Hem açık kaynak hem de ticari çözümler mevcut, ancak doğruluk, ölçeklenebilirlik ve maliyet verimliliği açısından tatmin edici sonuç almak hâlâ zor
- Örnek: NVIDIA’nın nv-ingest çözümü, birden çok servisin Kubernetes kümesi olarak kurulmasını gerektiriyor ve GPU kaynaklarını yoğun kullanan karmaşık bir yaklaşım
- Bazı ticari hizmetlerde de maliyete göre doğruluk yetersiz kalıyor ya da büyük ölçekli belgelere uygulandığında fiyat astronomik seviyelere çıkıyor

Gemini Flash 2.0’ın gelişi

Büyük modelleri (LLM) OCR ve PDF dönüştürme gibi işlerde kullanma denemeleri oldu, ancak gerçek maliyet tasarrufu sınırlı kaldı ve öngörülemeyen hatalar sık görüldü
- Örnek: GPT-4o’nun tablolara gereksiz hücreler eklediği vakalar raporlandı
Gemini Flash 2.0, 1.5 Flash sürümüne kıyasla belirgin biçimde daha iyi doğruluk ve maliyet verimliliği sunuyor olarak değerlendiriliyor
- İç test sonuçlarına göre, neredeyse kusursuz OCR doğruluğuna ulaşırken maliyet de oldukça düşük
Google’ın geliştirici deneyimi (Developer Experience), OpenAI’ye göre biraz geride görülse de makul fiyatlandırma büyük bir avantaj

PDF’leri Markdown formatına dönüştürürken, Gemini Flash 2.0 sayfa başına işleme maliyeti açısından öne çıkıyor
- 2.0 Flash: yaklaşık 6.000 sayfa/$1
- 2.0 Flash Lite: yaklaşık 12.000 sayfa/$1 (test öncesi)
- 1.5 Flash: yaklaşık 10.000 sayfa/$1
- AWS Textract: yaklaşık 1.000 sayfa/$1
- OpenAI 4o-mini: yaklaşık 450 sayfa/$1 vb.
Tablo çıkarma doğruluğuna bakıldığında, Reducto’nun kendi modeli 0,90 ile en yüksek skoru aldı; Gemini 2.0 Flash ve Anthropic Sonnet ise 0,84 seviyesinde kaldı
- Gemini’nin hatalı göründüğü örneklerin çoğu yapısal biçim sorunlarıydı; gerçek sayıları yanlış okuduğu durumlar ise azdı
Diğer metin çıkarma işlemleri ise neredeyse kusursuza yakın çalışıyor

Bunu RAG hattında kullanabilmek için, çıkarılan metnin anlamlı birimlere ayrılması gerekiyor
Araştırmalar, büyük LLM’lerin metin sınırlarını daha doğal şekilde belirleyebildiğini gösteriyor
Ancak bugüne kadar maliyetler çok yüksek olduğu için bunu gerçekten büyük belge kümelerine uygulamak zordu
Gemini Flash 2.0 sayesinde, LLM tabanlı parça bölme büyük belge koleksiyonlarına da düşük maliyetle uygulanabilir hâle geliyor
- Örnek: 100 milyon sayfalık bir PDF korpusu yaklaşık $5.000 maliyetle işlenebilir
Basit bir örnek prompt:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

PDF’de metnin konum bilgisini (ör. Bounding Box) korumak, kullanıcıya doğru dayanak gösterebilmek için gerekli
Markdown’a dönüştürme sırasında konum bilgisinin kaybolması büyük bir dezavantaj
Bazı araştırmalar LLM’lerin görsel ve belge içindeki uzamsal anlayış yeteneğine sahip olabileceğini gösterse de, mevcut Gemini modelleri henüz doğru Bounding Box sağlayamıyor
Google bunu ek eğitim veya fine-tuning ile belge yerleşimi verileri üzerinden güçlendirirse, sorunun çözülmesi mümkün olabilir

Ucuz ve doğru PDF çıkarma ile bölme çözümü, büyük ölçekli belge indeksleme hatlarını basitleştirip ölçeklenebilirliği artıran temel unsurlardan biri
parsing, chunking ve Bounding Box sorunları çözülürse, LLM tabanlı belge işleme çok daha kolay hâle gelecek
Önümüzdeki dönemde yüksek olgunluk seviyesine sahip açık kaynak kütüphanelerin peş peşe çıkması bekleniyor; bu da farklı şirketler ve geliştiriciler için kolay kullanılabilir bir temel oluşturacak
Google’ın AI Startup kredi programı hakkında bilgisi olan biri varsa iletişime geçmesi isteniyor

[1] Reducto vs Gemini vs orijinal PDF karşılaştırmasını gösteren örnek görsel eklenmiş
[2] Gemini Flash 2.0 maliyet hesabı: giriş görseli maliyeti $0.00009675, 400 token başına $0.0000525 çıktı maliyeti temel alınarak yaklaşık 6.379 sayfa/$1 hesaplanmış

jacde 2025-02-07

Maliyet veya performans açısından bakıldığında, agent chunking biraz işe yarayacak gibi görünüyor.

ragingwind 2025-02-06

LLM-Ready formatına dönüştürme pazarı oldukça rekabetçi görünüyor.