6 puan yazan xguru 2024-03-20 | 1 yorum | WhatsApp'ta paylaş
  • ArXiv makalelerini kolayca okuyabilmek için önce özetleyip ardından GPT kullanarak ses/video haline getiren kod
  • Görsel öğrenenler için makaleleri video formatına, dinlemeyi tercih edenler için ise ses formatına dönüştürüyor
  • Çalışma adımları
    • ArXiv ID üzerinden makalenin kaynak kodunu indirir
    • LaTeX kodunu latex2html veya latexmlc kullanarak HTML sayfasına dönüştürür
    • HTML sayfasından metin ve formülleri çıkarır; tablo ve görselleri yok sayar
    • Video oluştururken PDF sayfaları, metin ve sayfa bloklarına karşılık gelen metin parçaları arasında eşleme yapar
    • Metni bölümlere ayırır ve OpenAI GPT API üzerinden cümleleri yeniden kurar, sadeleştirir ve açıklar
    • GPT tarafından üretilen metni parçalara böler ve Google'ın metinden sese API'sini kullanarak sese dönüştürür
    • Gerekli tüm parçaları paketleyerek video işleme için bir zip dosyası oluşturur
    • Daha önce hesaplanan metin-blok haritasını kullanarak ffmpeg ile video oluşturur

1 yorum

 
xguru 2024-03-20

Videoya kadar mı? diye şaşırıp YouTube'a baktım; aslında sadece makale sayfası ekran görüntüsü + sesmiş.
OpenAI Sora yayınlandığında, belki makalenin kendisini daha da yorumlayıp açıklayan videolar üretmek bile mümkün olabilir diye düşünüyorum.

Resmi YouTube kanalı : https://www.youtube.com/@ArxivPapers