10 puan yazan aitechtree 2023-12-28 | 1 yorum | WhatsApp'ta paylaş

Herkes için hikâye anlatımı üretmek çok önemli ama zor bir alan.
Ne olursa olsun işin özü iyi bir hikâye yaratmak.
ChatGPT’nin ortaya çıkmasıyla yapay zeka kullanarak hikâye üretiminde bir devrim yaşandı, ancak hâlâ
gidilecek uzun bir yol olduğunu düşünüyorum.

Yaklaşık 1 yıl önce ChatGPT ve Stable Diffusion kullanarak bir masal kitabı hazırlayıp
Kakao Brunch’ta yayımlamıştım; bu kez daha multimodal bir şey
oluşturmaya karar verdim.

Hedefi, ilk kurulumdan sonra “insanın dışarıda bırakıldığı ve %99’dan fazlasında yapay zekanın kendi başına nihai sonuca kadar
üretim yaptığı insansızlaştırma” olarak belirledim.
Elbette, özgün ve tutarlı bir hikâyenin neden-sonuç ilişkisiyle birbirine bağlanması şart.

Bu doğrultuda uygulama hedefi olarak “çocuklara yönelik YouTube içeriği”ni seçtim.
Bunu çocuk odaklı seçmemin nedenleri şunlardı:

  1. Hikâyeyi ele almanın görece daha kolay olması
  2. Video kalitesine kıyasla beklenen etkinin yüksek olacağını düşünmem
  3. Çocuk içeriği benim için bir ilkti; denemek istedim

[Somut uygulama planını (mimariyi) tasarlayıp doğrudan inşa etmek]

  1. Hikâye üretim mantığını, “tutarlılığı korurken sürekli yeni bölümlerin eklendiği
    bir yapı olarak tasarlamak gerekir; böylece sürdürülebilirlik oluşur” diye düşündüm.

  2. Buna göre çocuklara yönelik hikâye anlatımı için özel bir GPT oluşturdum. (Şu anda yalnızca bana görünür ayarda)
    GPT’nin instruction kısmını yaklaşık 1 A4 sayfası uzunluğunda, oldukça ayrıntılı biçimde (“genel konsepti ve bağlamı
    koruyabilmesini sağlamak amacıyla”) hazırladım.
    Instruction içinde, yazılan her metnin başında ve sonunda belirlediğim anahtar kelimelerin mutlaka kullanılmasını sağladım (bu videoyu ilk kez gören birinin bile hangi konsept ve arka planla karşı karşıya olduğunu kavrayabilmesi ve bir sonraki bölümü beklemesini sağlayacak metinsel kurgu).
    Gövde kısmında doğal zaman akışına göre kriz, çatışma ve çözüm ekseninde ilerlerken
    çok sayıda ayrıntılı örnek tanımlayarak bağlamı korudum; yeni bölümlerin üretiminin de
    bu kuralları izlemesini sağladım.
    *“Tori’nin Macerası” konseptini “her gün uyandığında yüzü değişen bir çocuk” olarak belirlememin
    nedeni, görüntü üretiminde seed’i korumanın zor olmasıydı; bu yüzden bu dezavantajı
    doğrudan avantaja çevirmek istedim. Ayrıca her seferinde yeni bir bölüm üretildiği için
    bunun daha da iyi olacağını düşündüm.

  3. GPT içinde üretilen metni, Zapier üzerinden sonraki işleme ve multimodal üretim için
    Actions’ı API ile bağladım.

*GPT Actions ayarlarının ayrıntılı yöntemi için kendi yazdığım Kakao Brunch bağlantısına bakabilirsiniz
https://brunch.co.kr/@seawolf/9

  1. GPT’ye bağlandığında, GPT’nin bana “yeni bölümün konu anahtar kelimesi”ni sormasını sağladım. İnsan tarafından karar verilmesi gereken tek şey bu. Tabii bunu da rastgele yapmak mümkün.
    ‘Konu anahtar kelimesi’ni çıkarma yöntemi, instruction’da belirlediğim şekilde şu süreci izliyor.
  1. Arama portalları üzerinden çocukların tercih ettiği (arama anahtar kelimesi trafiği vb. ile değerlendirilen) güncel
    ‘anahtar kelimeler’i çıkarıp sunmasını sağladım. (Uygulamada görüldüğü gibi oyunlar ve eğlence içerikleri açık ara önde.)
  2. Sunulan anahtar kelimeler arasından beğenilen birini seçince
  3. Instruction’da tanımlanan mantığa göre tek seferde bir sayfalık, tutarlı yeni bir hikâye
    üretir.
  4. İçerik çoğu zaman beğenilecek kadar özgün olsa da, prompt ile bazı bölümlerde küçük değişiklikler ya da silmeler istenebilir.
  5. Nihai olarak onaylanan metin için Actions üzerinden “e-postama veya API’ye gönder” komutu verildiğinde anında gönderilir ve tetikleyici çalışır.
  1. Artık GPT’den çağrılıp iletilen metni alan Zapier tarafında, benim önceden belirlediğim sıraya göre API’ler çağrılır; veri işleme, birleştirme ve üretim süreçleri gerçekleşir.

  2. Nihai video üretimine kadar multimodal bileşenler (API’ler ve çeşitli hizmet platformlarının kullanımı)

  1. Optimize edilmiş metin senaryosu
  2. Metinden sese üretim
  3. Senaryo parçalarının (genelde 1 ila 3 cümlelik bloklar)
    bağlamı ve anahtar kelimeleri otomatik çıkarılarak görüntü üretimi
  4. Müzik, ses efektleri, emojiler gibi ek unsurların da bağlama uygun şekilde otomatik yerleştirilmesi
  5. Üretilen sesin altyazı olarak çıkarılması
  6. Nihai video render alma
  7. İsteğe bağlı olarak “çok dilli dil dönüşümü”
  1. Tamamlanmış çıktının indirilmesiyle süreç biter
  2. YouTube içeriği olarak yüklenir

Geçen süreyi ölçtüğümde (giderek hızlanıyor),

  1. GPT ile yeni hikâye üretiminin tüm süreci: 1 dakikadan az
  2. Actions çağrısı üzerinden arka uç API’lerinin sonraki işlemleri: yaklaşık 1~2 dakika
  3. Nihai tamamlanmış multimodal videonun otomatik üretimine kadar: yaklaşık 3 dakika
  4. Bu aşamada insanın kontrol edip düzeltmesi gereken yerlerde hafif rötuş
    yapılırsa kalite ciddi biçimde yükseliyor (yalnızca basit rötuş ise yaklaşık 3 dakika)
  5. Nihai render: 3~5 dakika (video boyutuna göre değişir)
    Yani 10 dakikada, oldukça iyi seviyede 3D modellemeli arka planlara sahip, sağlam ve eğlenceli
    çocuklara yönelik bir video bölümü üretilebiliyor.
    Maliyet açısından ise OPENAI dahil birkaç ücretli API’nin kullanım bedeli ve barındırma maliyeti
    toplandığında bile, 3 dakikayı aşmayan tek bir video üretmenin birim maliyeti dakika başına 1.000 wonun altında olacaktır.

[Tamamlanmış sonuçları izleme bağlantısı]
“Tori’nin Macerası” Bölüm 1: K-POP yıldızına dönüşüm (Korece)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

“Tori’nin Macerası” Bölüm 1: K-POP yıldızına dönüşüm (İngilizce versiyon)
https://www.youtube.com/watch?v=CT3KHU7BvIs

“Tori’nin Macerası” Bölüm 2: Süper kahramana dönüşüm (Korece)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

“Tori’nin Macerası” Bölüm 3: Noel Baba’ya dönüşüm (Korece / 3D modelleme versiyonu)
https://www.youtube.com/watch?v=wl2RWAqOXtY

Sürecin %90’ından fazlasında insansız otomasyonu başardığımı düşünüyorum.
Bu deneyim sayesinde çeşitli uygulama alanları keşfettim ve bilgiyi
paylaşmak amacıyla bu yazıyı hazırladım.

Daha fazla bilgi istiyorsanız topluluğa katılın.
[ Topluluk (KakaoTalk açık sohbet) katılım bağlantısı ]
https://open.kakao.com/o/gE6hK9Vf

1 yorum

 
aitechtree 2023-12-28

Biraz da olsa birçok kişiye faydalı olmasını umuyorum.