- PDF'yi podcast'e dönüştüren bir iş akışı kurmaya yönelik öğretici serisi
- Metinden konuşmaya dönüştürme modelleriyle deney yapmayı da öğrenebilirsiniz
- LLM, prompt'lar ve ses modelleri hakkında ön bilgi olmasa da her şey ilgili notebook'larda ele alınıyor
Adım adım süreç
- 1. adım: PDF ön işleme
Llama-3.2-1B-Instruct modeli kullanılarak PDF ön işlenir ve .txt dosyası olarak kaydedilir.
- 2. adım: Transkript yazımı
Llama-3.1-70B-Instruct modeli kullanılarak metinden bir podcast transkripti oluşturulur.
- 3. adım: Dramatik yeniden yazım
Llama-3.1-8B-Instruct modeli kullanılarak transkript daha dramatik hale getirilir.
- 4. adım: Metinden konuşmaya dönüştürme iş akışı
parler-tts/parler-tts-mini-v1 ve bark/suno modelleri kullanılarak diyalog tabanlı bir podcast üretilir.
Notebook'ları çalıştırmaya ilişkin ayrıntılı adımlar
- Gereksinimler
70B, 8B ve 1B Llama modellerini kullanmak için bir GPU sunucusu veya API sağlayıcısı gerekir.
- Notebook 1
PDF'yi işler ve Feather light modeli kullanarak .txt dosyasına dönüştürür.
- Notebook 2
Notebook 1'in çıktısını alır ve yaratıcı biçimde bir podcast transkriptine dönüştürür.
- Notebook 3
Önceki transkripti alır ve diyaloğa dramatik unsurlar ile duraklamalar ekler.
- Notebook 4
Son notebook'un sonucunu podcast'e dönüştürür.
Gelecekteki iyileştirme/ek fikirler
- Ses modeli deneyleri: Daha doğal bir ses için TTS modellerinin iyileştirilmesi gerekiyor.
- LLM vs LLM tartışması: İki ajan bir konuyu tartışarak podcast taslağı oluşturur.
- 405B modelini kullanarak transkript yazımı testi.
- Daha iyi prompt yazımı.
- Web siteleri, ses dosyaları, YouTube bağlantıları vb. toplayabilecek özellik desteği.
GN⁺ Özeti
- NotebookLlama, PDF'yi podcast'e dönüştüren açık kaynaklı bir proje olup çeşitli LLM ve TTS modelleri kullanarak yaratıcı içerik üretir.
- Bu proje, LLM ve TTS modelleriyle yapılan deneyler aracılığıyla daha doğal ses üretme potansiyelini ortaya koyuyor.
- Benzer işlevlere sahip projeler arasında Google'ın TTS API'si ve Amazon Polly öneriliyor.
1 yorum
Hacker News yorumları
NotebookLM'in "episode"larını dinledikçe, Google'ın mevcut multimodal omurgayı temel alıp iki konuşmacının yer aldığı bir "podcast tartışması" modelini eğittiğine daha çok inanıyorum
NotebookLM, teknolojiye aşina olmayan insanlar için bile çok etkileyici
TTS motoru seçimi bana tuhaf geliyor
Örnek çıktının çok yetersiz olduğunu düşünüyor
Diğer dillerde ve çeşitli aksanlarla, özellikle Güneydoğu Asya aksanlarıyla yayınlanmasını umuyor
NotebookLM'in açık kaynak değil de iPython notebook içindeki birkaç deney olabileceğini düşünüyor
LLM ile prototiplemenin çok hızlı olduğunu gösteriyor
NotebookLM'in yalnızca podcast mi ürettiğini merak ediyor
Mobil telefonda yerel olarak çalışabilse güzel olurdu
Örneğin biraz ham olduğunu düşünüyor
NotebookLM'i kullanmış birinin çıktısını duymak istediğini belirtiyor