- PdfGptIndexer: GPT-2 ve FAISS kullanarak PDF metin verilerini indeksleyen ve arayan bir araçtır.
- Textract, Transformers, Langchain ve FAISS gibi kütüphaneleri kullanarak verimli bilgi erişimi ve yüksek arama doğruluğu sağlar.
- Bu araç PDF belgelerini işler, metni çıkarır ve ardından GPT-2 tokenizer'ını kullanarak yönetilebilir parçalara ayırır.
- Her metin parçası, LangChain kütüphanesi aracılığıyla GPT-2 modeli üzerinden embedding'e dönüştürülür.
- Bu embedding'ler FAISS indeksinde saklanır; böylece sıkıştırılmış ve verimli depolama mümkün olur.
- Sorgu arayüzü sayesinde kullanıcılar, sorular üzerinden indekslenen verilerden ilgili bilgileri arayabilir.
- Embedding'leri yerelde depolamak; hız, çevrimdışı erişim, hesaplama tasarrufu ve ölçeklenebilirlik gibi avantajlar sağlar.
- Programı çalıştırmak için bağımlılıkları kurup depoyu klonladıktan sonra OpenAI API anahtarını değiştirmeniz ve betiği çalıştırmanız yeterlidir.
- Embedding'ler hesaplanıp kaydedildikten sonra sorgu arayüzü başlatılır.
- Kullanıcılar, gönderide sunulan kapsamlı kılavuzu kullanarak ChatGPT ile özel verilerini keşfedebilir.
Henüz yorum yok.