jsonquotefixer: Hatalı LLM JSON yapısı çıktısını temizce düzenleyen Python paketi
(github.com/abzb1)Merhaba!
Yapay zeka modellerini kullanırken yapılandırılmış JSON çıktısına gerçekten ihtiyaç duyulan pek çok durum oluyor.
Ben de çeşitli projeler yürütürken JSON çıktısını kullanmam gereken durumlarla sık sık karşılaştım ve her seferinde aynı zorlukları yaşadım.
LLM yapılandırılmış çıktısındaki başlıca 3 sorun şunlardı:
-
Kod bloğu(````json … ``` ) işleme
Çoğu LLM, JSON döndürürken üç adet backtick vejsonanahtar kelimesiyle sarılmış bir kod bloğu kullanır.
Basit bir regex ile de işlenebilir ama bunu her seferinde tekrarlamak yorucu oluyor. Paket seviyesinde tek satırda çözülebilse çok daha kullanışlı. -
İç içe tırnak işareti sorunu
JSON'da string'lerin çift tırnak(") ile çevrelenmesi gerekir. Ancak string içinde tekrar alıntı işareti geçtiğinde\"gibi escape kullanımı gerekir.
LLM'ler bu ayrımı sık sık kaçırıp hatalı JSON döndürüyor. Bu sorunu otomatik olarak düzelten bir işlev gerekiyordu. -
Akıllı tırnaklar (Unicode tırnak işaretleri)
LLM'in ürettiği cümlelerde sıkça“ ”gibi akıllı tırnaklar bulunur.
Bunlar JSON standardına uygun olmadığından, bunları normal çift tırnağa(") topluca dönüştürebilmek gerekiyor.
Araştırınca Node.js tabanlı ai-json-fixer projesinin var olduğunu gördüm, ancak Python ekosisteminde buna uygun bir araç yoktu.
Bu yüzden ben yaptım! (GPT hocayla birlikte :) )
pip ile kolayca kurup kullanabilirsiniz.
pip install jsonquotefixer
Bir deneyip bol bol eleştirin :)
2 yorum
Örneklerin GitHub'da
ipynbolarak iyi görüntülenmesi güzel olurduZaman sıralaması n'dir (sekans uzunluğu)!