- ArXiv makalelerini kolayca okuyabilmek için önce özetleyip ardından GPT kullanarak ses/video haline getiren kod
- Görsel öğrenenler için makaleleri video formatına, dinlemeyi tercih edenler için ise ses formatına dönüştürüyor
- Çalışma adımları
- ArXiv ID üzerinden makalenin kaynak kodunu indirir
- LaTeX kodunu
latex2html veya latexmlc kullanarak HTML sayfasına dönüştürür
- HTML sayfasından metin ve formülleri çıkarır; tablo ve görselleri yok sayar
- Video oluştururken PDF sayfaları, metin ve sayfa bloklarına karşılık gelen metin parçaları arasında eşleme yapar
- Metni bölümlere ayırır ve OpenAI GPT API üzerinden cümleleri yeniden kurar, sadeleştirir ve açıklar
- GPT tarafından üretilen metni parçalara böler ve Google'ın metinden sese API'sini kullanarak sese dönüştürür
- Gerekli tüm parçaları paketleyerek video işleme için bir zip dosyası oluşturur
- Daha önce hesaplanan metin-blok haritasını kullanarak
ffmpeg ile video oluşturur
1 yorum
Videoya kadar mı? diye şaşırıp YouTube'a baktım; aslında sadece makale sayfası ekran görüntüsü + sesmiş.
OpenAI Sora yayınlandığında, belki makalenin kendisini daha da yorumlayıp açıklayan videolar üretmek bile mümkün olabilir diye düşünüyorum.
Resmi YouTube kanalı : https://www.youtube.com/@ArxivPapers