4 puan yazan GN⁺ 2025-10-31 | 1 yorum | WhatsApp'ta paylaş
  • Koklea (cochlea), hava basıncı değişimlerinden doğan titreşimleri alıp frekanslara göre ayıran fiziksel bir yapı üzerinden sesi işler
  • Baziler membran (basilar membrane) üzerindeki her konum belirli bir frekansta rezonansa girer; yüksek frekanslar sert taban kısmında, düşük frekanslar ise esnek uç bölümde tepki verir
  • Bu süreçte tüy hücreleri (hair cell), titreşime göre iyon kanallarını açıp kapatarak sinyali elektriksel forma dönüştürür; sinir lifleri zaman ve frekans bilgisini filtreler
  • Ancak bu filtreler, Fourier dönüşümünden farklı olarak zaman çözünürlüğünü korur; pratikte wavelet ile Gabor arasında bir biçimde çalışır
  • Bu yapı, doğal seslerdeki yinelenen bilgiyi azaltan verimli kodlama (efficient coding) stratejisidir ve insan dili kendine özgü bir zaman-frekans uzayını kaplar

Kokleanın frekans ayırma yapısı

  • Kulak zarı (tympanic membrane), hava basıncı değişimlerine göre titreşir ve orta kulaktaki kemikler bunu yükselterek kokleadaki sıvıya iletir
    • Titreşim, baziler membran (basilar membrane) boyunca ilerler ve her konum fiziksel özelliklerine göre belirli bir frekansta rezonansa girer
    • Taban kısmı sert ve hafif olduğu için yüksek frekanslara, uç kısmı esnek ve ağır olduğu için düşük frekanslara tepki verir
  • Baziler membranın rezonans frekansı mekânsal olarak logaritmik (logarithmic) biçimde azalır
    • Bu, insanın pitch algısının logaritmik değişmesiyle uyumludur

Tüy hücrelerinde mekanik-elektrik dönüşümü

  • Baziler membran üzerindeki tüy hücreleri (hair cell), bulundukları konuma karşılık gelen frekansta titreşir ve bu hareket iyon kanallarının açılıp kapanmasını tetikler
    • Tüy hücresinin ucundaki yay benzeri yapı, “trapdoor” gibi çalışarak titreşim frekansına göre nörotransmiter salgılar
  • Bu süreç sayesinde mekanik titreşim elektrik sinyaline dönüştürülür ve işitsel sinire iletilir

İşitsel filtreler ve zaman-frekans çözünürlüğü

  • İşitsel sinir lifleri, zaman ve frekans bilgisini çıkaran filtreler gibi çalışır
    • Kısa zamana yoğunlaşan filtreler zaman çözünürlüğünde yüksektir, ancak frekans dağılımı dengesizdir
    • Uzun zamana yayılan filtreler frekans çözünürlüğünde yüksektir, ancak zaman bilgisi bulanıklaşır
  • Fourier dönüşümü (Fourier transform) zaman bilgisini içermez ve sağdaki şekilde olduğu gibi eşit frekans dağılımına sahiptir; ancak bu, gerçek kulağın filtrelerinden farklıdır
  • Kokleadaki filtreler wavelet ile Gabor filtreleri arasında bir ara biçimdedir ve
    • yüksek frekans bölgesinde zaman çözünürlüğünü artırır
    • düşük frekans bölgesinde frekans çözünürlüğünü artıran bir karşılıklı ödünleşim yapısına sahiptir

Verimli kodlama ve doğal ses analizi

  • Lewicki (2002) çalışması, bu filtre yapısının doğal seslerdeki tekrarları azaltmaya yönelik bir strateji olduğunu öne sürer
    • Bağımsızlığı en üst düzeye çıkarmaya yönelik ICA (Independent Component Analysis) ile çevresel sesler, hayvan vokalizasyonları ve insan konuşması karşılaştırılmıştır
    • Çevresel sesler ve insan konuşması wavelet tipi filtrelere, hayvan vokalizasyonları ise Fourier tipi filtrelere daha yakın sonuçlar verir
  • İnsan dili kendine özgü bir zaman-frekans uzayını kaplar ve
    • bazı araştırmacılar, dilin mevcut doğal seslerin doldurmadığı alanları dolduracak şekilde evrimleşmiş olabileceğini belirtir

Ekolojik kodlama ve duyusal işleme

  • Duyusal sistemler çevreye uygun kodlama biçimleri geliştirir; işitme de bunun bir örneği olarak sunulur
    • Bu tür ekolojik açıdan anlamlı gösterimler (ecologically-relevant representation), davranış ile çevre arasındaki etkileşime dayanır
  • Yazının sonunda, sonraki derste odağın nöron düzeyindeki biyofiziksel hesaplamalara kayacağı belirtilir
  • Genel olarak kulak, Fourier dönüşümü yapan değil, verimli ve uyarlanabilir bir filtreleme sistemi olarak çalışır

1 yorum

 
GN⁺ 2025-10-31
Hacker News görüşleri
  • Özetle, kulak Fourier Transform yapmaz ama wavelet ile Gabor dönüşümü arasında bir yerde duran, zamanda yerelleştirilmiş bir frekans dönüşümü yapar
    Bunun nedeni sesin zamansal olarak yerelleşmiş olmasıdır
    Ayrıca, insan dilinin frekans–zarf süre uzayında boş olan bölgeleri dolduracak şekilde evrimleştiği teorisi de tanıtılıyor
    İnsan kokleasının insan konuşmasına optimize edilmiş olması mümkün olabilir

    • Bu yazı fazla saman adam safsatası kuruyormuş gibi hissettiriyor
      Sinyal işlemeden anlayan hiç kimse kulağın sonsuz zaman boyunca bir Fourier dönüşümü yaptığını iddia etmez
      Kulak fiilen FFT (Hızlı Fourier Dönüşümü) benzeri bir işlem yapar; bu da frekans başına yoğunluğu hesaplamaktır
      Wavelet ya da Gabor dönüşümleri matematiksel olarak farklı olsa da sonuçta %95–99 oranında aynı sonucu verir
      O yüzden basit anlatımla, kulak pencerelenmiş ayrık Fourier dönüşümü yapıyor denebilir
    • Yüksek frekanslarda zaman çözünürlüğünü artırmak için frekans çözünürlüğünden vazgeçilir, düşük frekanslarda ise tersi geçerlidir
      Bu, zaman-frekans belirsizlik ilkesi ile açıklanabilir
      Kulağın filtre bankasını, fizyolojik sonuçlara dayalı keyfi bir filtre kümesi olarak görmek anlamayı kolaylaştırır
      Ayrıca hayvanın boyutu da etkilidir — küçük hayvanlar ultrasonik bölgede ses çıkarıp duyabilir
    • İnsan kokleasının özellikleri insan konuşmasına uyumluysa, bu durum film veya TV diyaloglarının ses masteringinde kullanılarak konuşmaların daha net duyulması sağlanabilir gibi görünüyor
    • Kulak gerçekten Fourier dönüşümü yapsaydı, herhalde ömür boyu beklemek gerekirdi diye düşünüyorum. Sesi gerçek zamanlı duyduğumuz için bunun açıkça böyle olmadığı ortada
    • Bu fikri biraz daha genişletirsek, belirli kelime ve fonemler frekans–zaman takas uzayının belirli bölgelerini kaplıyor olmalı
      Örneğin, “kaplan saldırıyor” uyarı sesi ile “bebeği sakinleştiren ses” farklı bölgelerde yer alır
  • Başlık biraz tık tuzağı gibi ve içerik de teknik olarak yanlış
    Gabor ya da wavelet dönüşümleri, Fourier dönüşümünün genelleştirilmiş biçimleridir ve zamana göre spektrum analizi sağlar
    Kulak aslında oldukça Fourier-benzeri işler yapıyor

    • Tık tuzağı olduğu konusunda katılıyorum ama teknik olarak yanlış değil
      Fourier dönüşümü sonsuz ve süreklidir, DFT ise sonlu ve ayrık yapıdadır
      İnsan işitmesi bunların ortasında, Fourier Series’e daha yakın görülebilir
      Wavelet ise sinüs dalgaları yerine değiştirilmiş dalga biçimleri kullanan başka bir yaklaşımdır
      Sonuçta kulak, günlük dille söylersek “Fourier-benzeri” işlem yapar
    • Bu yazı, bir yüksek lisans öğrencisinin Lewicki 2002 makalesini tanıttığı bir journal club yazısı
      Makale özetinde, “hayvan seslenmelerine optimize edildiğinde Fourier dönüşümüne benzer, biyolojik olmayan çevresel seslere optimize edildiğinde ise wavelet dönüşümüne benzer” ifadesi açıkça yer alıyor
  • Daha derine inmek isterseniz, Richard Lyon’un CARFAC modeline (Cascade of Asymmetric Resonators with Fast-Acting Compression) bakmaya değer
    İnsan işitmesini dijital olarak en doğru modelleyen çalışmalar arasında değerlendiriliyor
    Kitabının PDF’i buradan görülebilir

    • Harika bir kaynak. Teşekkürler
  • İnsan sesinin daha az kalabalık spektral bölgeleri kapladığı argümanı, 『The Great Animal Orchestra』 kitabıyla da paralellik taşıyor
    Kitap bağlantısı
    Farklı türlerin her birinin kendine özgü bir akustik niş işgal edecek şekilde evrimleştiğini anlatıyor
    Ancak habitat tahribatı yüzünden bu olgunun zayıflıyor olması biraz karamsar

    • Kuşlar da kendilerini daha iyi duyurabilecekleri zamanları seçecek şekilde evrimleşti
      Şehirlerde trafik gürültüsü başlamadan önce erken saatlerde, ormanlarda ise böcek gürültüsü azaldığında daha geç saatlerde öterler
    • Doğada avantaj sağlayan evrimsel özellikler kaybolduğunda, onların yerini kent ortamına uygun özellikler alır
      Mekânsal çeşitlilik yerine zamansal çeşitlilik yönünde evrim de olabilir
  • Terminolojide biraz karışıklık var ama Fourier dönüşümü sonsuz bir zaman aralığını varsayar
    Sonlu bir zaman aralığında Fourier Series demek daha doğrudur
    Kulağın gerçek işleyişi, zamansal ağırlık fonksiyonu uygulayan bir yapı olarak, Fourier serisi ile dönüşümün arasında bir yerde durur
    Yazı bu noktayı iyi yakalıyor

    • Sonuçta kulak tek bir Fourier dönüşümü değil, zaman–frekans çözünürlüğü arasında takas içeren birden çok dönüşüm yapar
      İnsan konuşması ile işitsel yapı arasında eşevrim (co-evolution) olmuş olması da mümkündür
    • Başlık biraz kışkırtıcı ama insan işitmesinin ayrıntılı fizyolojik uygulamasını, örneğin kokleadaki tüy hücrelerinin dönüşüm mekanizmasını, iyi ele alması bakımından ilginç
  • Kulak sonsuz zamanlı bir Fourier dönüşümü yapmaz
    Bunun yerine ayrık ve pencerelenmiş dönüşümler yapar; bu da zaman ve frekans çözünürlüğü arasındaki belirsizlik ilkesine benzer
    Uzun pencereler frekans çözünürlüğünü artırır ve zaman çözünürlüğünü düşürür, kısa pencereler ise bunun tersini yapar
    İnsan kokleası düşük frekanslarda formantları ayırt etmek için frekans çözünürlüğünü artırır, yüksek frekanslarda ise patlamalı ünsüzleri (plosive) algılamak için zaman çözünürlüğünü yükseltir

    • Sanırım burada ‘Pauli dışarlama ilkesi’ değil, Heisenberg belirsizlik ilkesi kastediliyor
    • Kulak veri örneklemesi yapan bir sistem değil, sürekli bir mekanik süreç olarak çalışır
    • Bunu anlamak için STFT (Kısa Zamanlı Fourier Dönüşümü) düşünmek faydalı olur
  • Baziler membran inanılmaz bir biyolojik yapı
    Bilgisayarlı ses işlemede FFT kullanışlı olsa da insanın zaman algısına dayalı işitme modellemesinde sınırlamaları var

  • Tüy hücrelerinin tip linkleri ve iyon kanallarını gösteren video ilgi çekici
    İlgili video
    Bu yapı hasar görürse tinnitus ortaya çıkabilir
    Ayrıca kulakta aktif amplifikasyon özelliği vardır; hücreler elektrik sinyaliyle titreştirilebilir

  • Yukarıdaki video sonunda çok yüksek frekanslı bir ton ile bitiyor; kulaklık kullanıyorsanız dikkat etmek gerekir

  • Parietal lobdaki işitsel ilişkilendirme korteksinin frekansları ayırt etmesi, kulak ile beyin arasında bir zaman-frekans dönüşümü bulunduğunu gösterir
    Nöronların ateşlenmesi ayrık olduğundan, bu dönüşüm sonlu süre içinde gerçekleşen bir ayrık dönüşümdür
    Sonlu bir sinyali sonsuz bir sinyale genişletmenin basit yolu, onu geçmişe ve geleceğe doğru sonsuz kez tekrar ediyor varsaymaktır