Budist GPT geliştirme arka planı
- Budizm çalışmasında GPT’den yararlanmak istedim, ancak temel performans beklentinin altındaydı.
- PDF materyalleriyle eğitince yanıt kalitesi arttı.
- Jataka sutralarını öğretme önerisi gelince projeye başlandı.
PDF ile eğitimin sınırları
- Jataka PDF’leriyle eğitimden sonra halüsinasyonlar ciddi seviyedeydi.
- Çok sütunlu yapı, tablolar ve görseller gibi doğrusal olmayan yapılar GPT için engel oldu.
Denenen yöntemler (hepsi başarısız)
- epub formatı kullanmak
- instruction ayarlamak
- Markdown’a dönüştürme + crawling
- csv indeksi eklemek
Çözüm için ilk ipucu
- Sorun, Jataka’nın numara tabanlı yapısıyla GPT’nin üretici doğasının çakışmasıydı.
- GPT csv’yi düzgün kullanamadı.
- JSON indeks önerilip uygulanınca doğruluk hızla yükseldi.
Gerçek uygulama yöntemi
- epub → Markdown dönüşümü (
pandoc)
- heading düzenleme, gereksiz metinleri kaldırma
- Duruma göre Markdown yapısını elle kurma
Hizmetin sonlandırılma nedeni
- Abhidhamma sorularında halüsinasyon oluştu
- Çevirmen Sujato Bhante’nin yapay zeka eğitimi karşıtı tutumu
- SuttaCentral lisansının ihlal edilme riski
Sonuç
- RAG basit değildir.
- Yapay zeka eğitimi için kullanılacak materyallerde lisans mutlaka kontrol edilmelidir.
4 yorum
Kutsal metinlere benzer bir yazım kullanan başka tür öğrenmeler için de faydalı olabilir gibi görünüyor. Mesela Platon kitapları gibi...
Şey bu şey... Bizi bırakıp kendi başına nirvanaya ulaşıp gitmedi, değil mi?
Mistral OCR ile Doc As Prompt'ın iyi çalışacağını sanmıştım ama bende de benzer bir sorun vardı. Buradan bir ipucu alıp gidiyorum.
"Arkadaşlara anlatması zor olan ilişki danışmanlığını LLM'e rahatça yaptırın" düşüncesini akla getiriyor.