- PDF’leri metin parçalarına dönüştürme (
chunking) süreci, büyük ölçekli RAG sistemleri kurarken en can sıkıcı sorunlardan biri - Hem açık kaynak hem de ticari çözümler mevcut, ancak doğruluk, ölçeklenebilirlik ve maliyet verimliliği açısından tatmin edici sonuç almak hâlâ zor
- Örnek: NVIDIA’nın nv-ingest çözümü, birden çok servisin Kubernetes kümesi olarak kurulmasını gerektiriyor ve GPU kaynaklarını yoğun kullanan karmaşık bir yaklaşım
- Bazı ticari hizmetlerde de maliyete göre doğruluk yetersiz kalıyor ya da büyük ölçekli belgelere uygulandığında fiyat astronomik seviyelere çıkıyor
Gemini Flash 2.0’ın gelişi
- Büyük modelleri (LLM) OCR ve PDF dönüştürme gibi işlerde kullanma denemeleri oldu, ancak gerçek maliyet tasarrufu sınırlı kaldı ve öngörülemeyen hatalar sık görüldü
- Örnek: GPT-4o’nun tablolara gereksiz hücreler eklediği vakalar raporlandı
- Gemini Flash 2.0, 1.5 Flash sürümüne kıyasla belirgin biçimde daha iyi doğruluk ve maliyet verimliliği sunuyor olarak değerlendiriliyor
- İç test sonuçlarına göre, neredeyse kusursuz OCR doğruluğuna ulaşırken maliyet de oldukça düşük
- Google’ın geliştirici deneyimi (Developer Experience), OpenAI’ye göre biraz geride görülse de makul fiyatlandırma büyük bir avantaj
Maliyet ve doğruluk karşılaştırması
- PDF’leri Markdown formatına dönüştürürken, Gemini Flash 2.0 sayfa başına işleme maliyeti açısından öne çıkıyor
- 2.0 Flash: yaklaşık 6.000 sayfa/$1
- 2.0 Flash Lite: yaklaşık 12.000 sayfa/$1 (test öncesi)
- 1.5 Flash: yaklaşık 10.000 sayfa/$1
- AWS Textract: yaklaşık 1.000 sayfa/$1
- OpenAI 4o-mini: yaklaşık 450 sayfa/$1 vb.
- Tablo çıkarma doğruluğuna bakıldığında, Reducto’nun kendi modeli 0,90 ile en yüksek skoru aldı; Gemini 2.0 Flash ve Anthropic Sonnet ise 0,84 seviyesinde kaldı
- Gemini’nin hatalı göründüğü örneklerin çoğu yapısal biçim sorunlarıydı; gerçek sayıları yanlış okuduğu durumlar ise azdı
- Diğer metin çıkarma işlemleri ise neredeyse kusursuza yakın çalışıyor
Belge bölme (Chunking) ve LLM kullanımı
- Bunu RAG hattında kullanabilmek için, çıkarılan metnin anlamlı birimlere ayrılması gerekiyor
- Araştırmalar, büyük LLM’lerin metin sınırlarını daha doğal şekilde belirleyebildiğini gösteriyor
- Ancak bugüne kadar maliyetler çok yüksek olduğu için bunu gerçekten büyük belge kümelerine uygulamak zordu
- Gemini Flash 2.0 sayesinde, LLM tabanlı parça bölme büyük belge koleksiyonlarına da düşük maliyetle uygulanabilir hâle geliyor
- Örnek: 100 milyon sayfalık bir PDF korpusu yaklaşık $5.000 maliyetle işlenebilir
- Basit bir örnek prompt:
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.Surround the chunks with <chunk> </chunk> html tags.
Bounding Box sorunu
- PDF’de metnin konum bilgisini (ör. Bounding Box) korumak, kullanıcıya doğru dayanak gösterebilmek için gerekli
- Markdown’a dönüştürme sırasında konum bilgisinin kaybolması büyük bir dezavantaj
- Bazı araştırmalar LLM’lerin görsel ve belge içindeki uzamsal anlayış yeteneğine sahip olabileceğini gösterse de, mevcut Gemini modelleri henüz doğru Bounding Box sağlayamıyor
- Google bunu ek eğitim veya fine-tuning ile belge yerleşimi verileri üzerinden güçlendirirse, sorunun çözülmesi mümkün olabilir
Neden önemli
- Ucuz ve doğru PDF çıkarma ile bölme çözümü, büyük ölçekli belge indeksleme hatlarını basitleştirip ölçeklenebilirliği artıran temel unsurlardan biri
parsing,chunkingve Bounding Box sorunları çözülürse, LLM tabanlı belge işleme çok daha kolay hâle gelecek- Önümüzdeki dönemde yüksek olgunluk seviyesine sahip açık kaynak kütüphanelerin peş peşe çıkması bekleniyor; bu da farklı şirketler ve geliştiriciler için kolay kullanılabilir bir temel oluşturacak
- Google’ın AI Startup kredi programı hakkında bilgisi olan biri varsa iletişime geçmesi isteniyor
Notlar
- [1] Reducto vs Gemini vs orijinal PDF karşılaştırmasını gösteren örnek görsel eklenmiş
- [2] Gemini Flash 2.0 maliyet hesabı: giriş görseli maliyeti $0.00009675, 400 token başına $0.0000525 çıktı maliyeti temel alınarak yaklaşık 6.379 sayfa/$1 hesaplanmış
2 yorum
Maliyet veya performans açısından bakıldığında, agent chunking biraz işe yarayacak gibi görünüyor.
LLM-Ready formatına dönüştürme pazarı oldukça rekabetçi görünüyor.