1 puan yazan GN⁺ 2024-10-28 | 1 yorum | WhatsApp'ta paylaş
  • PDF'yi podcast'e dönüştüren bir iş akışı kurmaya yönelik öğretici serisi
  • Metinden konuşmaya dönüştürme modelleriyle deney yapmayı da öğrenebilirsiniz
  • LLM, prompt'lar ve ses modelleri hakkında ön bilgi olmasa da her şey ilgili notebook'larda ele alınıyor

Adım adım süreç

  • 1. adım: PDF ön işleme
    Llama-3.2-1B-Instruct modeli kullanılarak PDF ön işlenir ve .txt dosyası olarak kaydedilir.
  • 2. adım: Transkript yazımı
    Llama-3.1-70B-Instruct modeli kullanılarak metinden bir podcast transkripti oluşturulur.
  • 3. adım: Dramatik yeniden yazım
    Llama-3.1-8B-Instruct modeli kullanılarak transkript daha dramatik hale getirilir.
  • 4. adım: Metinden konuşmaya dönüştürme iş akışı
    parler-tts/parler-tts-mini-v1 ve bark/suno modelleri kullanılarak diyalog tabanlı bir podcast üretilir.

Notebook'ları çalıştırmaya ilişkin ayrıntılı adımlar

  • Gereksinimler
    70B, 8B ve 1B Llama modellerini kullanmak için bir GPU sunucusu veya API sağlayıcısı gerekir.
  • Notebook 1
    PDF'yi işler ve Feather light modeli kullanarak .txt dosyasına dönüştürür.
  • Notebook 2
    Notebook 1'in çıktısını alır ve yaratıcı biçimde bir podcast transkriptine dönüştürür.
  • Notebook 3
    Önceki transkripti alır ve diyaloğa dramatik unsurlar ile duraklamalar ekler.
  • Notebook 4
    Son notebook'un sonucunu podcast'e dönüştürür.

Gelecekteki iyileştirme/ek fikirler

  • Ses modeli deneyleri: Daha doğal bir ses için TTS modellerinin iyileştirilmesi gerekiyor.
  • LLM vs LLM tartışması: İki ajan bir konuyu tartışarak podcast taslağı oluşturur.
  • 405B modelini kullanarak transkript yazımı testi.
  • Daha iyi prompt yazımı.
  • Web siteleri, ses dosyaları, YouTube bağlantıları vb. toplayabilecek özellik desteği.

GN⁺ Özeti

  • NotebookLlama, PDF'yi podcast'e dönüştüren açık kaynaklı bir proje olup çeşitli LLM ve TTS modelleri kullanarak yaratıcı içerik üretir.
  • Bu proje, LLM ve TTS modelleriyle yapılan deneyler aracılığıyla daha doğal ses üretme potansiyelini ortaya koyuyor.
  • Benzer işlevlere sahip projeler arasında Google'ın TTS API'si ve Amazon Polly öneriliyor.

1 yorum

 
GN⁺ 2024-10-28
Hacker News yorumları
  • NotebookLM'in "episode"larını dinledikçe, Google'ın mevcut multimodal omurgayı temel alıp iki konuşmacının yer aldığı bir "podcast tartışması" modelini eğittiğine daha çok inanıyorum

    • İki konuşmacının insanlar gibi birbirinin sözünü keserek konuşma biçimi çok doğal
    • Modelin, gerçek podcast'ler ve bunların dökümleri temel alınarak ince ayar görmüş olması mümkün
    • Örnek olarak "The Daily" bölümlerini ele alıp, bir dil modelinin podcast içeriğini özetleyen kurgusal bir makale yazmasını sağladıktan sonra bunu iki konuşmacı modeline verip, ortaya çıkan dökümün girdi makalesiyle ne kadar örtüştüğünü kontrol eden bir yöntem olabileceğini tahmin ediyor
  • NotebookLM, teknolojiye aşina olmayan insanlar için bile çok etkileyici

    • 70'li yaşlarındaki anne babamla 8 yaşındaki çocuğum da bu teknolojiye hayran kaldı ve kullanmaya devam ediyor
  • TTS motoru seçimi bana tuhaf geliyor

    • En yeni açık TTS sistemleriyle karşılaştırınca, XTTSv2 ya da yeni F5-TTS'in daha iyi bir seçim olacağını savunuyor
  • Örnek çıktının çok yetersiz olduğunu düşünüyor

    • NotebookLM ekibinin mevcut temel modelleri kullanarak çok başarılı bir ürün çıkardığını vurguluyor
  • Diğer dillerde ve çeşitli aksanlarla, özellikle Güneydoğu Asya aksanlarıyla yayınlanmasını umuyor

  • NotebookLM'in açık kaynak değil de iPython notebook içindeki birkaç deney olabileceğini düşünüyor

    • LLM düzeyindeki işlevler özellikle yeni değil, ama bir ürün olarak paketlenme biçimi ilginç
    • "Podcast" kısmının, büyük bir korpusun giriş/özetinden ibaret olduğunu; asıl daha kullanışlı olanın botla konuşarak alıntılanmış referans kaynakları elde etmek olduğunu düşünüyor
  • LLM ile prototiplemenin çok hızlı olduğunu gösteriyor

    • API kullanmamış kişilere bunu denemelerini tavsiye ediyor
  • NotebookLM'in yalnızca podcast mi ürettiğini merak ediyor

    • Podcast'in eğlenceli ama biraz oyuncak gibi bir özellik olduğunu düşünüyor
  • Mobil telefonda yerel olarak çalışabilse güzel olurdu

    • Örneğin, iş belgelerini podcast'e çevirip araba kullanırken dinleyebilmenin verimliliği büyük ölçüde artıracağını savunuyor
  • Örneğin biraz ham olduğunu düşünüyor

  • NotebookLM'i kullanmış birinin çıktısını duymak istediğini belirtiyor