- OpenAI’nin ses transkripsiyon ücretlendirmesi girilen sesin uzunluğuna göre hesaplanır
- ffmpeg gibi araçlarla sesi 2–3 kat hızlandırıp ardından yüklerseniz, transkripsiyon kalitesini düşürmeden işlem süresini ve maliyeti azaltabilirsiniz
- Gerçek bir 40 dakikalık ses kaydında 2x ve 3x hız dönüşümü uygulandığında maliyet %23–33 azalıyor
- gpt-4o-transcribe modeli yalnızca 25 dakikanın altındaki sesleri desteklediği için, hız artırma faydalı bir geçici çözüm oluyor
- 2x–3x’e kadar sonuç kalitesi korunurken, 4x hızda transkripsiyon doğruluğu keskin biçimde düşüyor
Kısa özet
- OpenAI’nin transkripsiyon ve ses ücretlendirme politikasını daha verimli kullanmanın basit bir yolu
- Ses dönüştürme hızını artırarak aynı içeriği daha kısa sürede işleyip hem ücretten hem zamandan tasarruf etme stratejisi
ffmpeggibi açık kaynak araçlarla ses dosyasını 2–3 kat hızlandırdıktan sonra OpenAI API’ye yüklerseniz, kalite kaybı olmadan fiyatı ve işlem süresini düşürebilirsiniz- Bu yöntem özellikle giriş uzunluğu fazla olan seslerde (
gpt-4o-transcribemodelinin 25 dakika sınırı nedeniyle) daha etkilidir
Transkripsiyonda hız/maliyet tasarrufunun temel yöntemi
- OpenAI’nin ses transkripsiyon hizmeti ücreti, aldığı sesin uzunluğunu temel alır
- Bu yüzden ses dosyasını
ffmpegvb. ile önceden 2–3 kat hızlandırıp yüklerseniz, giriş token sayısı ciddi biçimde azalır ve transkripsiyon işleme süresi de kısalır - Bu yöntem pratikte uygulandığında, 40 dakikalık bir ses için giriş token maliyeti %33’ten fazla azalır (3x için $0.07, 2x için $0.09)
- Çıkış token maliyeti, ses hızından bağımsız olarak neredeyse aynı görünür (giriş özet uzunluğuna göre otomatik ayrılan sonuç)
- 2x ve 3x hızlarda transkripsiyon doğruluğu kararlı kalırken, 4x hızda modelin içeriği düzgün tanıyamadığı bir sınır ortaya çıkar
Kullanım betiği örneği
Aşağıdaki açık kaynak araçlar gerekir:
yt-dlp: YouTube vb. kaynaklardan ses çıkarmaffmpeg: ses dönüştürme ve hız ayarlamallm: metin özetlemeyi otomatikleştirme
Referans amaçlı tam iş akışı:
yt-dlpile sesi çıkarın, ardındanffmpegile sesi 2–3 kat hızlandırıp mp3 olarak kaydedin- OpenAI API (
gpt-4o-transcribe) ile mp3’ü yükleyip transkripsiyon metnini alın - Elde edilen metni
llmiçine vererek istediğiniz özeti otomatik oluşturun
Gerçek deneyim ve karşılaşılan sorunlar
- Başta YouTube’un otomatik transkripsiyonunu almaya çalışılmış, ancak
yt-dlp’nin eski sürümü (2025.04.03) nedeniyle indirme hatası oluşmuş - Program güncellendikten sonra normal çalışmış, ancak bu arada manuel çıkarma +
ffmpegile hızlandırma → OpenAI API işleme yöntemine geçilmiş - M3 MacBook Air üzerinde yerel Whisper çalıştırıldığında pil yükü ve çalışma hızı sorunları görülmüş; bunu buluta (OpenAI API) taşımak daha hızlı ve verimli olmuş
Transkripsiyon kalitesi ve algoritma özellikleri
- Ses hızı 2x–3x’e çıkarılsa da, bir insanın orijinal konuşmayı hızlandırılmış biçimde dinlemesine benzer şekilde yapay zeka modeli de temel bilgiyi büyük ölçüde algılayabiliyor
- Görüntü dosyası boyutu optimizasyonuna (kayıplı/kayıpsız formatlar) benzer biçimde, dinleme bilgisinin bir kısmı kaybolsa bile (yüksek hızda ara sıra sözcük kaybı gibi) özetleme ve anlama büyük ölçüde etkilenmiyor
- Beynin hatalı yazılmış ya da bazı sözcükleri eksik metni tamamlayarak anlaması gibi, transkripsiyon algoritması da hızlandırılmış seste ana bilgilerin çoğunu iyi çıkarabiliyor
Gerçek ücret karşılaştırması ve tasarruf oranı
- OpenAI’nin
gpt-4o-transcribemodeli için, ses hızına göre maliyetler şöyle hesaplanıyor- 2x hız (1.186 saniye): $0.09
- 3x hız (791 saniye): $0.07
- Giriş sesi uzun olduğunda (ör. 2.372 saniyelik orijinal kayıt), model gereksinimleri nedeniyle işlenemiyor
Whisper-1modeli için ücret $0.006/dakika; sonuç olarak bu yöntemle en fazla yaklaşık %67 maliyet tasarrufu mümkün
- Çıkış token maliyeti giriş hızından bağımsız olarak neredeyse aynı kalıyor (modelin bağlam penceresi ve özetleme yöntemi etkili)
- 4x hız uygulandığında çıktı ciddi biçimde bozuluyor; örneğin tekrar eden cümleler oluşabiliyor
Öneriler ve sonuç
- OpenAI’nin ses transkripsiyonunu hızlı ve düşük maliyetli kullanmak için sesi 2–3 kat hızlandırmak en verimli yöntemdir
- Aşırı yüksek hızda (4x) doğruluk düşüşü sorunu vardır
- Yöntem basit ve uygulaması kolaydır; hem kaliteyi korumak hem de maliyeti düşürmek açısından avantajlıdır
- Özellikle iş amaçlı ses özetleri, toplantı kayıtları ve uzun süreli konuşma verisi işleyen startup’lar ile BT profesyonelleri için doğrudan zaman/maliyet tasarrufu sağlayan bir araç olabilir
Özet (TL;DR)
- OpenAI, ücreti ses uzunluğuna veya giriş/çıkış tokenlerine göre alır
- Sesi
ffmpegile 2–3 kat hızlandırıp giriş olarak verirseniz hem zaman hem maliyet tasarrufu sağlanabilir - Giriş tokenlerinin (veya sürenin) azalması ücreti düşürür
- 2x ve 3x en uygun hızlardır; 4x ve üzerindeyse transkripsiyon kalitesi düşmeye başlar
2 yorum
gpt-4o-transcribekullanabiliyor musunuz?Dün OpenAI'ye sordum ve bana API anahtarıyla yalnızca Whisper modelinin çağrılabildiğini söylediler.
Kalitenin korunup korunamayacağını görmek için Whisper'ı daha hızlı bir ayarla denemeyi düşünüyorum.
Hacker News görüşü
Andrej’in verdiği konuşmaların hızı zaten ortalama bir insandan en az 1.5 kat daha yüksek ve doğal geliyor; bu yüzden takip edebilmek için YouTube oynatma hızını mutlaka 1x’e düşürmek gerektiğini hissediyorum. OpenAI dakikalarını daha verimli kullanmak istiyorsanız, sessiz kısımları tamamen çıkarıp işlemeyi öneriyorum.
ffmpegkomutu örneğiyle, -50dB altındaki 20 ms’den uzun tüm sessizlikleri 20 ms duraklamayla değiştirerek 39 dakika 31 saniyelik videoyu 31 dakika 34 saniyeye indirme olasılığını denedim. Yazının amacı doğrultusunda yalnızca süreyi ölçerek etkiyi değerlendirdim; kısaltılmış sürümün kalitesini ayrıca kontrol etmedimBen her videoyu hep 2x hızda izliyorum ve Andrej’in konuşmaları da bana 2x’te doğal geliyor. Ama benim yaptığım videolar için çevremdekiler sık sık fazla hızlı olduğunu, 0.75x’te izlemeleri gerektiğini söylüyor. Bana göre 2x değilse fazla yavaş hissettiriyor. Bu arada John Carmack’in konuşma hızı için 2x bile tamamen doğal geliyor. Son videolarımdan merak ederseniz buradan bakabilirsiniz; çoğu zaman konuyu anlık belirleyip kayıt alıyorum ve bu şekilde 250~300’den fazla bölüm yaptım. Benim videolarım gerçekten aşırı hızlı mı geliyor, yoksa yeterince normal mi, merak ediyorum
Kaliteyi zaten kontrol etmediyseniz, iki sürümün çıktısını diffchecker gibi bir şeyle karşılaştırmak oldukça kolay olurdu diye düşündüm
Keşke YouTube’da normal insanlar için 2.25x hızı da olsaydı. Ben hep kısayol tuşlarını kullanıyorum ve zamanın %90’ında 2x dinliyorum ama Andrej’in konuşmalarında 1.25x’in üstüne çıkmak zor
Andrej’in ortalama bir insandan 1.5 kat hızlı konuştuğu konusunda, YouTube hızını normale döndürmek gerektiği fikrine katılıyorum. İnsanların konuşma hızını otomatik algılamanın bir yolu var mı diye merak ediyorum. Hız öznel ve kişiden kişiye değişiyor ama OP’nin denediği yöntemin başarısız olduğu durumları tespit etmek mümkün olsaydı ilginç olurdu. (Örneğin x4 hızda kalite tamamen bozulmuş gibi)
ffmpegbüyüsünü daha da fazla kullanabilme ihtimali heyecan verici. Sonra mutlaka denemek istiyorum, fikir için teşekkürlerŞöyle bir göz gezdirmekle vakit ayırıp gerçekten okumak üzerine düşünceler.
Andrej’in konuşmasının transcript’ini ve özetini sadece okuduğumda sıradan geldi ve geçtim; ama YouTube’da tam videoyu izleyince çok çeşitli fikirler, düşünceler ve kararlara uzanan bir deneyim yaşadım. Bunu başka konularda da sık sık yaşıyorum. Bir konferansa bizzat gidip dinlemek, çevrimiçi bir konuşmadan çok daha faydalı oluyor. Çevrimiçi izlemek bile yalnızca özeti okumaktan çok daha yararlı. Hatta 10 dakikada kabaca düşünüp geçmektense yürüyüş yaparken derin düşünmek çok daha iyi geliyor. Düşünmek için genelde yavaş olmak daha iyi
Bu bana gerçekten çok tuhaf geliyor. Okulda herkese aynı biçimde bilgi aktarılmasından nefret eden bir geliştirici olarak, şimdi benzer türden deneyimler için isteyerek para ödüyor olmam garip. Okumanın kendisi keyifli ve konuşma izlerken düşüncelerin yerli yerine oturma hissi de harika. Dünyanın anlamını kendimizin düşünmesi insan olmanın parçası gibi geliyor bana. Ama buna rağmen bu eğilimin hepimizi daha aptal hâle getirdiği fikrine hiç katılamıyorum
Yukarıdaki yoruma güçlü biçimde katılıyorum. Bir konuşmanın değeri, kamuya açık olgu veya fikirlerin kendisinden çok, onun tetiklediği çeşitli ek ilhamlarda yatıyor bence. Dünyada gerçekten sayısız bilgi var ve bağlam her şey demek. Eğer biraz daha somut bir bağlam eklenmiş olsaydı izlemek için zaman ayırırdım; ama bağlamsız bir link gelince yalnızca “öz”ü hızlıca çıkarıp tepki vermeye çalışma moduna giriyorum. Sonuçta bu sayede yeniden ilgimi çekti, belki şimdi dönüp izlerim. “Yavaş düşünmek genelde daha iyidir” fikrine bir kez daha katılıyorum
Yavaş düşünmenin önemli olduğu doğru ama konuşmanın bir kısmını şimdi dinleyip sonra tekrar dönerek daha derin düşünmenin de epey yararlı bir yöntem olabileceğini düşünüyorum
Acaba burada önemli olan gerçekten videonun hızı mıydı, yoksa video ve sesin taşıdığı ek bilgiler miydi, diye soruyorum. İyi konuşan bir anlatıcı aynı mesajı sesli/görüntülü formatta çok daha iyi aktarabiliyor gibi geliyor. Çünkü ses belirli noktalara vurgu katıyor, video da jest ve mimiklerle mesaja katkı sağlıyor
Ben tam tersine podcast veya sesli kitapları 2~3x hızda dinleyen insanları görünce şaşırıyorum; benim durumumda 0.8x’e yavaşlatınca daha iyi odaklanabiliyor ve düşünmek için daha fazla zaman bulabiliyorum. Acaba istisnai bir örnek miyim diye merak ediyorum
OpenAI transcription API ile 40 dakikalık bir konuşmayı özetlemeyi denedim ama uzunluk fazla gelince
ffmpegile 3x hızda sıkıştırıp 25 dakikalık sınırın içine soktum. Gerçekten işe yaradı; hem maliyet hem zaman tasarrufu sağladı, ben de bunu yazıyla paylaştım. Tam script ve maliyet kırılımı da var“Doğruluk nasıl?” “Bilmiyorum, mesele zaten buydu” hissini aynen veren, çok havalı bir çalışma olduğunu düşünenler var; ama aynı zamanda bu geleceği biraz tedirgin edici bulanlar da var
Gemini 2.0 öncesi sürümlerde, tek bir görsel için sabit 258 token ücret alan bir yöntem vardı; görselin içine çok daha fazla metin sıkıştırınca o kadar daha ucuza işlenebiliyordu
Bir Chrome eklentisi yaptım;
huggingface/transformers.jsiçinde OpenAI Whisper modelini WebGPU ile çalıştırıp sesleri tarayıcı içinde doğrudan metne dönüştürebiliyor. Örnek listesine bakabilirsiniz. Mesela başkanın sosyal medya videolarını dinlemek ya da izlemek istemiyorum ama ekonomiyi ciddi etkileyebilecek saçma bir açıklama geldiğinde bunu hızlıca yakalamam gerekiyor; bu yüzden her dakika yeni gönderileri crawl edip OCR ve ses transkripsiyonunu yerelde otomatik işliyor, ardından metin analizi yapıyor ve yalnızca ekonomik açıdan önemliyse bildirim gönderiyor. Proje bağlantısıOpenAI Whisper API yerine Groq da öneriliyor (ucuz biçimde
distil-large-v3saatlik $0.02,whisper-large-v3-turbo$0.04, OpenAI ise $0.36/hr). Kurum içinde belediye meclisi toplantıları YouTube’a yüklenince otomatik olarak Groq, Replicate, Deepgram gibi servislerle transcription yapılıyorHugging Face Inference API kullanırsanız birden fazla API sağlayıcısı arasında kolayca geçiş yapılabildiği ve bunun pratik olduğu söyleniyor. Örneği burada görebilirsiniz
Saatlik $0.02~$0.04 seviyesinde olduğu için aslında özel bir optimizasyona gerek yok gibi; ama sesi daha da hızlandırıp maliyeti daha fazla düşürmek mümkün mü diye merak edenler de var. YouTube’un zaten çoğu durumda bir gün içinde otomatik altyazı sunduğunu da soruyorlar
Yeni bir MacBook kullanıyorsanız Whisper modelini tamamen ücretsiz biçimde yerelde çalıştırabileceğinizi özellikle vurgulayanlar var. İnsanlar kendi donanımlarındaki hesaplama gücünün aslında ne kadar ucuz olduğunu yeterince fark etmiyor gibi
cloudflare workers aiiçinde dewhisper-large-v3-turbomodelini saatlik yaklaşık $0.03’e kullanma seçeneği olduğu belirtiliyor (bağlantı)Google AI Studio’da yalnızca bir YouTube linki vermenin, konuşmacı etiketleri içeren transcript’i ve görsel ipuçlarını otomatik çıkarmaya yettiği özellikle vurgulanıyor. Videolarda multimodal desteği de anılıyor
Ben OpenAI’de API ile ilgili işlerde çalışıyorum; 2~3x hızlarda bile sonucun oldukça iyi çıkmasına şaşırdım. Gerçekte telefon kanalı için 8khz sesi 24khz’e upsample ederek de gayet iyi kullanıyoruz. Yine de 1x’ten uzaklaştıkça doğruluk kaybının belirgin olduğunu, uzun vadede daha uzun dosya yükleme desteğine ihtiyaç olduğunu söylemek gerekir
Yazının doğrudan konuya giren tarzını beğenenler de var. Pek çok yazı gereksiz yere uzuyor; bu yaklaşım ferahlatıcı. Hatta yazarların yarısının aslında ortada gerçek bir ana mesajı olmadığını fark etmelerine bile yol açabilir