OpenAI dakika başına ücretlendiriyorsa, sesi hızlandırıp süreyi kısaltın

(george.mand.is)

16 puan yazan GN⁺ 2025-06-26 | 2 yorum | WhatsApp'ta paylaş

OpenAI’nin ses transkripsiyon ücretlendirmesi girilen sesin uzunluğuna göre hesaplanır
ffmpeg gibi araçlarla sesi 2–3 kat hızlandırıp ardından yüklerseniz, transkripsiyon kalitesini düşürmeden işlem süresini ve maliyeti azaltabilirsiniz
Gerçek bir 40 dakikalık ses kaydında 2x ve 3x hız dönüşümü uygulandığında maliyet %23–33 azalıyor
gpt-4o-transcribe modeli yalnızca 25 dakikanın altındaki sesleri desteklediği için, hız artırma faydalı bir geçici çözüm oluyor
2x–3x’e kadar sonuç kalitesi korunurken, 4x hızda transkripsiyon doğruluğu keskin biçimde düşüyor

Kısa özet

OpenAI’nin transkripsiyon ve ses ücretlendirme politikasını daha verimli kullanmanın basit bir yolu
Ses dönüştürme hızını artırarak aynı içeriği daha kısa sürede işleyip hem ücretten hem zamandan tasarruf etme stratejisi
ffmpeg gibi açık kaynak araçlarla ses dosyasını 2–3 kat hızlandırdıktan sonra OpenAI API’ye yüklerseniz, kalite kaybı olmadan fiyatı ve işlem süresini düşürebilirsiniz
Bu yöntem özellikle giriş uzunluğu fazla olan seslerde (gpt-4o-transcribe modelinin 25 dakika sınırı nedeniyle) daha etkilidir

Transkripsiyonda hız/maliyet tasarrufunun temel yöntemi

OpenAI’nin ses transkripsiyon hizmeti ücreti, aldığı sesin uzunluğunu temel alır
Bu yüzden ses dosyasını ffmpeg vb. ile önceden 2–3 kat hızlandırıp yüklerseniz, giriş token sayısı ciddi biçimde azalır ve transkripsiyon işleme süresi de kısalır
Bu yöntem pratikte uygulandığında, 40 dakikalık bir ses için giriş token maliyeti %33’ten fazla azalır (3x için $0.07, 2x için $0.09)
Çıkış token maliyeti, ses hızından bağımsız olarak neredeyse aynı görünür (giriş özet uzunluğuna göre otomatik ayrılan sonuç)
2x ve 3x hızlarda transkripsiyon doğruluğu kararlı kalırken, 4x hızda modelin içeriği düzgün tanıyamadığı bir sınır ortaya çıkar

Kullanım betiği örneği

Aşağıdaki açık kaynak araçlar gerekir:

yt-dlp : YouTube vb. kaynaklardan ses çıkarma
ffmpeg : ses dönüştürme ve hız ayarlama
llm : metin özetlemeyi otomatikleştirme

Referans amaçlı tam iş akışı:

yt-dlp ile sesi çıkarın, ardından
ffmpeg ile sesi 2–3 kat hızlandırıp mp3 olarak kaydedin
OpenAI API (gpt-4o-transcribe) ile mp3’ü yükleyip transkripsiyon metnini alın
Elde edilen metni llm içine vererek istediğiniz özeti otomatik oluşturun

Gerçek deneyim ve karşılaşılan sorunlar

Başta YouTube’un otomatik transkripsiyonunu almaya çalışılmış, ancak yt-dlp’nin eski sürümü (2025.04.03) nedeniyle indirme hatası oluşmuş
Program güncellendikten sonra normal çalışmış, ancak bu arada manuel çıkarma + ffmpeg ile hızlandırma → OpenAI API işleme yöntemine geçilmiş
M3 MacBook Air üzerinde yerel Whisper çalıştırıldığında pil yükü ve çalışma hızı sorunları görülmüş; bunu buluta (OpenAI API) taşımak daha hızlı ve verimli olmuş

Transkripsiyon kalitesi ve algoritma özellikleri

Ses hızı 2x–3x’e çıkarılsa da, bir insanın orijinal konuşmayı hızlandırılmış biçimde dinlemesine benzer şekilde yapay zeka modeli de temel bilgiyi büyük ölçüde algılayabiliyor
Görüntü dosyası boyutu optimizasyonuna (kayıplı/kayıpsız formatlar) benzer biçimde, dinleme bilgisinin bir kısmı kaybolsa bile (yüksek hızda ara sıra sözcük kaybı gibi) özetleme ve anlama büyük ölçüde etkilenmiyor
Beynin hatalı yazılmış ya da bazı sözcükleri eksik metni tamamlayarak anlaması gibi, transkripsiyon algoritması da hızlandırılmış seste ana bilgilerin çoğunu iyi çıkarabiliyor

Gerçek ücret karşılaştırması ve tasarruf oranı

OpenAI’nin gpt-4o-transcribe modeli için, ses hızına göre maliyetler şöyle hesaplanıyor
- 2x hız (1.186 saniye): $0.09
- 3x hız (791 saniye): $0.07
- Giriş sesi uzun olduğunda (ör. 2.372 saniyelik orijinal kayıt), model gereksinimleri nedeniyle işlenemiyor
- Whisper-1 modeli için ücret $0.006/dakika; sonuç olarak bu yöntemle en fazla yaklaşık %67 maliyet tasarrufu mümkün
Çıkış token maliyeti giriş hızından bağımsız olarak neredeyse aynı kalıyor (modelin bağlam penceresi ve özetleme yöntemi etkili)
4x hız uygulandığında çıktı ciddi biçimde bozuluyor; örneğin tekrar eden cümleler oluşabiliyor

Öneriler ve sonuç

OpenAI’nin ses transkripsiyonunu hızlı ve düşük maliyetli kullanmak için sesi 2–3 kat hızlandırmak en verimli yöntemdir
Aşırı yüksek hızda (4x) doğruluk düşüşü sorunu vardır
Yöntem basit ve uygulaması kolaydır; hem kaliteyi korumak hem de maliyeti düşürmek açısından avantajlıdır
Özellikle iş amaçlı ses özetleri, toplantı kayıtları ve uzun süreli konuşma verisi işleyen startup’lar ile BT profesyonelleri için doğrudan zaman/maliyet tasarrufu sağlayan bir araç olabilir

Özet (TL;DR)

OpenAI, ücreti ses uzunluğuna veya giriş/çıkış tokenlerine göre alır
Sesi ffmpeg ile 2–3 kat hızlandırıp giriş olarak verirseniz hem zaman hem maliyet tasarrufu sağlanabilir
Giriş tokenlerinin (veya sürenin) azalması ücreti düşürür
2x ve 3x en uygun hızlardır; 4x ve üzerindeyse transkripsiyon kalitesi düşmeye başlar

2 yorum

mbsahg 2025-06-27

gpt-4o-transcribe kullanabiliyor musunuz?
Dün OpenAI'ye sordum ve bana API anahtarıyla yalnızca Whisper modelinin çağrılabildiğini söylediler.
Kalitenin korunup korunamayacağını görmek için Whisper'ı daha hızlı bir ayarla denemeyi düşünüyorum.

GN⁺ 2025-06-26

Hacker News görüşü

Andrej’in verdiği konuşmaların hızı zaten ortalama bir insandan en az 1.5 kat daha yüksek ve doğal geliyor; bu yüzden takip edebilmek için YouTube oynatma hızını mutlaka 1x’e düşürmek gerektiğini hissediyorum. OpenAI dakikalarını daha verimli kullanmak istiyorsanız, sessiz kısımları tamamen çıkarıp işlemeyi öneriyorum.
ffmpeg komutu örneğiyle, -50dB altındaki 20 ms’den uzun tüm sessizlikleri 20 ms duraklamayla değiştirerek 39 dakika 31 saniyelik videoyu 31 dakika 34 saniyeye indirme olasılığını denedim. Yazının amacı doğrultusunda yalnızca süreyi ölçerek etkiyi değerlendirdim; kısaltılmış sürümün kalitesini ayrıca kontrol etmedim
- Ben her videoyu hep 2x hızda izliyorum ve Andrej’in konuşmaları da bana 2x’te doğal geliyor. Ama benim yaptığım videolar için çevremdekiler sık sık fazla hızlı olduğunu, 0.75x’te izlemeleri gerektiğini söylüyor. Bana göre 2x değilse fazla yavaş hissettiriyor. Bu arada John Carmack’in konuşma hızı için 2x bile tamamen doğal geliyor. Son videolarımdan merak ederseniz buradan bakabilirsiniz; çoğu zaman konuyu anlık belirleyip kayıt alıyorum ve bu şekilde 250~300’den fazla bölüm yaptım. Benim videolarım gerçekten aşırı hızlı mı geliyor, yoksa yeterince normal mi, merak ediyorum
- Kaliteyi zaten kontrol etmediyseniz, iki sürümün çıktısını diffchecker gibi bir şeyle karşılaştırmak oldukça kolay olurdu diye düşündüm
- Keşke YouTube’da normal insanlar için 2.25x hızı da olsaydı. Ben hep kısayol tuşlarını kullanıyorum ve zamanın %90’ında 2x dinliyorum ama Andrej’in konuşmalarında 1.25x’in üstüne çıkmak zor
- Andrej’in ortalama bir insandan 1.5 kat hızlı konuştuğu konusunda, YouTube hızını normale döndürmek gerektiği fikrine katılıyorum. İnsanların konuşma hızını otomatik algılamanın bir yolu var mı diye merak ediyorum. Hız öznel ve kişiden kişiye değişiyor ama OP’nin denediği yöntemin başarısız olduğu durumları tespit etmek mümkün olsaydı ilginç olurdu. (Örneğin x4 hızda kalite tamamen bozulmuş gibi)
- ffmpeg büyüsünü daha da fazla kullanabilme ihtimali heyecan verici. Sonra mutlaka denemek istiyorum, fikir için teşekkürler
Şöyle bir göz gezdirmekle vakit ayırıp gerçekten okumak üzerine düşünceler.
Andrej’in konuşmasının transcript’ini ve özetini sadece okuduğumda sıradan geldi ve geçtim; ama YouTube’da tam videoyu izleyince çok çeşitli fikirler, düşünceler ve kararlara uzanan bir deneyim yaşadım. Bunu başka konularda da sık sık yaşıyorum. Bir konferansa bizzat gidip dinlemek, çevrimiçi bir konuşmadan çok daha faydalı oluyor. Çevrimiçi izlemek bile yalnızca özeti okumaktan çok daha yararlı. Hatta 10 dakikada kabaca düşünüp geçmektense yürüyüş yaparken derin düşünmek çok daha iyi geliyor. Düşünmek için genelde yavaş olmak daha iyi
- Bu bana gerçekten çok tuhaf geliyor. Okulda herkese aynı biçimde bilgi aktarılmasından nefret eden bir geliştirici olarak, şimdi benzer türden deneyimler için isteyerek para ödüyor olmam garip. Okumanın kendisi keyifli ve konuşma izlerken düşüncelerin yerli yerine oturma hissi de harika. Dünyanın anlamını kendimizin düşünmesi insan olmanın parçası gibi geliyor bana. Ama buna rağmen bu eğilimin hepimizi daha aptal hâle getirdiği fikrine hiç katılamıyorum
- Yukarıdaki yoruma güçlü biçimde katılıyorum. Bir konuşmanın değeri, kamuya açık olgu veya fikirlerin kendisinden çok, onun tetiklediği çeşitli ek ilhamlarda yatıyor bence. Dünyada gerçekten sayısız bilgi var ve bağlam her şey demek. Eğer biraz daha somut bir bağlam eklenmiş olsaydı izlemek için zaman ayırırdım; ama bağlamsız bir link gelince yalnızca “öz”ü hızlıca çıkarıp tepki vermeye çalışma moduna giriyorum. Sonuçta bu sayede yeniden ilgimi çekti, belki şimdi dönüp izlerim. “Yavaş düşünmek genelde daha iyidir” fikrine bir kez daha katılıyorum
- Yavaş düşünmenin önemli olduğu doğru ama konuşmanın bir kısmını şimdi dinleyip sonra tekrar dönerek daha derin düşünmenin de epey yararlı bir yöntem olabileceğini düşünüyorum
- Acaba burada önemli olan gerçekten videonun hızı mıydı, yoksa video ve sesin taşıdığı ek bilgiler miydi, diye soruyorum. İyi konuşan bir anlatıcı aynı mesajı sesli/görüntülü formatta çok daha iyi aktarabiliyor gibi geliyor. Çünkü ses belirli noktalara vurgu katıyor, video da jest ve mimiklerle mesaja katkı sağlıyor
- Ben tam tersine podcast veya sesli kitapları 2~3x hızda dinleyen insanları görünce şaşırıyorum; benim durumumda 0.8x’e yavaşlatınca daha iyi odaklanabiliyor ve düşünmek için daha fazla zaman bulabiliyorum. Acaba istisnai bir örnek miyim diye merak ediyorum
OpenAI transcription API ile 40 dakikalık bir konuşmayı özetlemeyi denedim ama uzunluk fazla gelince ffmpeg ile 3x hızda sıkıştırıp 25 dakikalık sınırın içine soktum. Gerçekten işe yaradı; hem maliyet hem zaman tasarrufu sağladı, ben de bunu yazıyla paylaştım. Tam script ve maliyet kırılımı da var
- Böyle bir püf noktasını sessizce kullanıp OpenAI’den daha ucuz bir transcription işi bile başlatabilirdiniz diye espri yapan biri oldu
“Doğruluk nasıl?” “Bilmiyorum, mesele zaten buydu” hissini aynen veren, çok havalı bir çalışma olduğunu düşünenler var; ama aynı zamanda bu geleceği biraz tedirgin edici bulanlar da var
- Zaten insanların hazırladığı konuşma kayıtlarında da doğruluk hiçbir zaman garanti değildi. Böyle dönüşüm süreçlerinde hep hata vardı, bundan sonra da beklentinin parçası olacak. Beni daha çok endişelendiren şey, üretken yapay zekanın yorumlarını sanki gerçekmiş gibi sunması ya da “AI daha güvenilir” şeklindeki toplumsal kanaatin kendisi. AI’nin insanlardan, uzmanlardan ya da gazetecilerden daha güvenilir / tarafsız olduğuna dair yaygın düşünce de tehlikeli
Gemini 2.0 öncesi sürümlerde, tek bir görsel için sabit 258 token ücret alan bir yöntem vardı; görselin içine çok daha fazla metin sıkıştırınca o kadar daha ucuza işlenebiliyordu
Bir Chrome eklentisi yaptım; huggingface/transformers.js içinde OpenAI Whisper modelini WebGPU ile çalıştırıp sesleri tarayıcı içinde doğrudan metne dönüştürebiliyor. Örnek listesine bakabilirsiniz. Mesela başkanın sosyal medya videolarını dinlemek ya da izlemek istemiyorum ama ekonomiyi ciddi etkileyebilecek saçma bir açıklama geldiğinde bunu hızlıca yakalamam gerekiyor; bu yüzden her dakika yeni gönderileri crawl edip OCR ve ses transkripsiyonunu yerelde otomatik işliyor, ardından metin analizi yapıyor ve yalnızca ekonomik açıdan önemliyse bildirim gönderiyor. Proje bağlantısı
- Etkileyici bir uygulama olduğu yorumu var
OpenAI Whisper API yerine Groq da öneriliyor (ucuz biçimde distil-large-v3 saatlik $0.02, whisper-large-v3-turbo $0.04, OpenAI ise $0.36/hr). Kurum içinde belediye meclisi toplantıları YouTube’a yüklenince otomatik olarak Groq, Replicate, Deepgram gibi servislerle transcription yapılıyor
- Hugging Face Inference API kullanırsanız birden fazla API sağlayıcısı arasında kolayca geçiş yapılabildiği ve bunun pratik olduğu söyleniyor. Örneği burada görebilirsiniz
- Saatlik $0.02~$0.04 seviyesinde olduğu için aslında özel bir optimizasyona gerek yok gibi; ama sesi daha da hızlandırıp maliyeti daha fazla düşürmek mümkün mü diye merak edenler de var. YouTube’un zaten çoğu durumda bir gün içinde otomatik altyazı sunduğunu da soruyorlar
- Yeni bir MacBook kullanıyorsanız Whisper modelini tamamen ücretsiz biçimde yerelde çalıştırabileceğinizi özellikle vurgulayanlar var. İnsanlar kendi donanımlarındaki hesaplama gücünün aslında ne kadar ucuz olduğunu yeterince fark etmiyor gibi
- cloudflare workers ai içinde de whisper-large-v3-turbo modelini saatlik yaklaşık $0.03’e kullanma seçeneği olduğu belirtiliyor (bağlantı)
Google AI Studio’da yalnızca bir YouTube linki vermenin, konuşmacı etiketleri içeren transcript’i ve görsel ipuçlarını otomatik çıkarmaya yettiği özellikle vurgulanıyor. Videolarda multimodal desteği de anılıyor
Ben OpenAI’de API ile ilgili işlerde çalışıyorum; 2~3x hızlarda bile sonucun oldukça iyi çıkmasına şaşırdım. Gerçekte telefon kanalı için 8khz sesi 24khz’e upsample ederek de gayet iyi kullanıyoruz. Yine de 1x’ten uzaklaştıkça doğruluk kaybının belirgin olduğunu, uzun vadede daha uzun dosya yükleme desteğine ihtiyaç olduğunu söylemek gerekir
- İçeride bu tür hız optimizasyonlarının araştırılıp doğruluk kaybının en düşük olduğu çarpan noktalarının bulunması iyi olurdu diye geri bildirim verilmiş. Basit ön işleme ile API fiyatını düşürme etkisi de mümkün olabilir
Yazının doğrudan konuya giren tarzını beğenenler de var. Pek çok yazı gereksiz yere uzuyor; bu yaklaşım ferahlatıcı. Hatta yazarların yarısının aslında ortada gerçek bir ana mesajı olmadığını fark etmelerine bile yol açabilir