25 puan yazan GN⁺ 2025-04-03 | 5 yorum | WhatsApp'ta paylaş
  • Teknoloji sektöründe birkaç yılda bir yeni bir yapay zeka teknolojisi ortaya çıktığında, “bu kez doğal dil arayüzü her şeyi değiştirecek” yanılsaması yeniden ortaya çıkıyor
  • Siri, Alexa, chatbot'lar, AirPods platformu ve son olarak büyük dil modelleri (LLM) de bu akımın parçası
  • Ancak gerçekte bilgisayarları kullanma biçimimiz neredeyse hiç değişmiyor
  • İnsanlar, doğal dilin "doğal" olduğu için kaçınılmaz olarak nihai biçim olması gerektiğine inanma eğiliminde
  • Bu yazının iddiası, doğal dil arayüzlerinin bir ideal olmadığı ve pratikte verimli bir yöntem de olmadığıdır

Doğal dil yavaş ve kayıplı bir veri aktarım yöntemidir

  • Doğal dil, fikir ve bilgiyi insanlar arasında aktarabilmek için kullanılan bir veri iletim mekanizmasıdır
  • Veri iletiminde önemli iki unsur hız ve kayıp oranı (lossiness)'dır
  • Düşünme hızımız dakikada 1.000~3.000 kelime düzeyinde olabilirken, bunları konuşarak ya da yazarak ifade etme hızımız çok daha düşüktür
  • Örneğin okuma/dinleme (alma) hızlıyken, yazma/konuşma (gönderme) yavaştır → doğal dil bir darboğazdır
  • Bunun yerine insanlar jestleri (başparmak kaldırma, baş sallama vb.) kullanarak daha hızlı ve daha öz iletişim kurar
  • Bu yaklaşım veri sıkıştırma gibidir → kayıplı olsa da hız ve kullanım kolaylığı açısından üstündür
  • En verimli örnek, uzun yıllardır birlikte olan bir çiftin konuşmadan da birbirinin ne istediğini anladığı an gibi görünür

İnsan-bilgisayar etkileşiminin evrimi

  • İlk bilgisayarlar komut tabanlı metin arayüzleri kullanıyordu, ancak GUI'nin gelişiyle görsel öğeler üzerinden işleri çok daha kolay yapmak mümkün hale geldi
  • Bugün GUI ile klavye kısayollarının birleştiği bir üretkenlik dengesi içindeyiz
  • ⌘b, ⌘t, ⌘c/v gibi kısayollar doğal dil değil, bir tür veri sıkıştırmadır; çok daha hızlı ve verimlidir
  • Linear, Raycast, Superhuman gibi araçlar bu sıkıştırılmış girdiyi en üst düzeye çıkarır → alışınca neredeyse düşünceyle aynı anda çalışmak mümkün olur
  • Dokunmatik arayüzler tamamlayıcı bir rol kazandı, ancak ciddi üretkenlik işleri hâlâ masaüstünde yapılıyor
  • Mobilde metin girişi yavaş ve zahmetlidir (ortalama 36WPM) → mobile uygun bir kısayol alternatifi yoktur
  • Bu nedenle mobil üretkenlik araçları masaüstü kadar gelişemedi

Konuşmalı arayüzler giriş hızında dezavantajlıdır

  • Ses, yazmaya göre daha hızlı bir giriş yöntemi olabilir (150WPM vs 60WPM), ancak gerçek kullanımda verimsizdir
  • Örnek: “Hey Google, havayı söyle” demek bir uygulama simgesine dokunmaktan 10 kat daha yavaştır
  • Siri ve Alexa'nın başarısız olmasının nedeni AI çıktısının kalitesi değil, giriş yönteminin zahmetli olmasıdır
  • LLM'ler de giriş yöntemindeki bu verimsizliği çözmez
  • Tek düğmeyle yapılabilecek bir işi cümleyle anlatmak aslında bir geriye gidiştir

Konuşmalı UI tamamlayıcı bir araç olarak kullanılmalıdır

  • LLM'ler mevcut arayüzlerin yerini almak yerine, onları tamamlayan bir biçimde son derece faydalıdır
  • Yazar, bu yazıyı yürüyüş sırasında ChatGPT ile yaptığı sesli bir konuşma üzerinden taslak haline getirdiğini söylüyor → LLM'yi düşünme ortağı olarak kullanıyor
  • Bu, hız odaklı değil düşünce odaklı bir iştir; mevcut iş akışının yerine geçmez, tamamen yeni bir kullanım senaryosu oluşturur
  • En ideal örneklerden biri, StarCraft II'de Alexa'nın yardımcı giriş yöntemi olarak kullanıldığı bir hackathon çalışmasıdır
    • Fare/klavyenin yerine geçmeden, sese ek bir giriş yöntemi olarak yer vererek veri aktarım bant genişliğini artırır
  • Figma, Notion, Excel gibi araçların bir sohbet arayüzüyle yer değiştirmesi beklenmez
  • Bunun yerine LLM'ler, araçlar arasında bağlantı kuran her zaman çalışan bir meta katman haline gelmelidir
    • Örneğin kullanıcı fare veya klavyeyle çalışırken aynı anda sesle basit komutlar verebilmelidir
  • Bunun için yapay zeka tek bir uygulama değil, işletim sistemi seviyesinde çalışan bir yapı olmalıdır
  • Aynı zamanda sesli girdiyi daha hızlı hale getirecek yöntemlere de ihtiyaç vardır (ör. ıslık, duygu tanıma vb.)
  • Konuşmalı arayüzlerde bile sonuçta belirleyici olan şey hız ve kullanım kolaylığıdır

Sonuç: yerine geçme değil, tamamlama perspektifiyle bakılmalı

  • Bu yazının başlığı tıklama çekmek için biraz abartılıdır
  • Asıl sav, "konuşmalı arayüz karşıtlığı" değil, sıfır toplamlı düşünceye karşı çıkmaktır
  • Yapay zeka mevcut arayüzlerin yerini almak için değil, yeni olasılıkların önünü açan tamamlayıcı bir unsur olarak görülmelidir
  • İdeal gelecek, insanların bilgisayarlarla doğal ve bilinçdışı bir etkileşim kurmasıdır
    • Tıpkı sabah kahvaltı masasında hiçbir şey söylemeden tereyağının otomatik olarak uzatılması gibi

5 yorum

 
dbs0829 2025-04-04

Ben de arayüz tarafında benzer kaygılar yaşadım, ama gerçekten uygun yeni bir arayüz aklıma gelmedi.

 
winterjung 2025-04-03

Yazıda tanıtılan https://upsidelab.io/blog/design-voice-user-interface-starcraft bağlantısındaki makale 2018 tarihli olmasına rağmen hâlâ ilgi çekici.

 
girr311 2025-04-03

Gelecekte bunun hangi şekilde seçilip kullanılacağını merak ediyorum :)

 
fantajeon 2025-04-03

İnsanlar konuşurken belirsizlikten hoşlanmadığı için doğru kelimeleri kullanma arzusundan vazgeçmekte zorlanır. Ancak ChatAI ya da LLM'ler özünde belirsizlik barındırır. Olasılıksal bilgi yalnızca bende olduğunda sorun olmayabilir, ama karşı taraf da olasılıklara dayanıyorsa bu stres yaratır. Bazen deterministik bir yöntem iç huzuru açısından daha rahat olabilir.

 
GN⁺ 2025-04-03
Hacker News görüşü
  • Bilgisayarla "konuşma" fikrine ilgi duyan insanlara anlatmaya çalıştığım birçok şeyi net biçimde açıklayan bir içerik

    • Verilen örnek, araba kullanırken her şeyi yalnızca konuşarak kontrol ettiğiniz bir durumu hayal ettiriyor
    • Bu rahatsız edici olur, yolcularla konuşmayı engeller ve bilgisayarla konuşmak da ona istediğinizi yaptırmak anlamına gelir
    • Doğal dilde konuşmaktan daha basit ve daha hızlı yöntemler vardır
  • Yazıdaki hatalı noktalar

    • "Doğal dil bir veri aktarım mekanizmasıdır" iddiası
    • Veri aktarım mekanizmalarında hız ve kayıp önemlidir
    • Doğal dil bu ikisine de sahip değildir
    • Konuşmalı arayüzlerin temel özelliği bilgi aktarımından çok "cehaletin mutluluğu" ve "akıllı yorumlama"dır
    • "Cehaletin mutluluğu", hedefi söyleyip yöntemi bilmek zorunda kalmamayı sağlar
    • "Akıllı yorumlama", komutlardan ziyade niyetin yorumlanmasını mümkün kılar
    • Takım yönetimine benzer şekilde, deneyimli bir ekibe kısa bir yönlendirmeyle bile iyi sonuçlar beklenebilir
  • Star Trek, konuşmalı arayüzlerin uygun kullanımını iyi gösteriyor

    • Sesli arayüz, manuel girdiyi tamamlayıcı ve yardımcı bir kanal olarak kullanılıyor
    • Belirli kontrol girdilerini sesle vermek için değil; delege etme, sorgulama ve konumdan bağımsız kullanım için uygun
    • Sesli etkileşim açıklama biçiminde kullanıldı ve muhtemelen neyin garip kaçtığını iyi kavramışlardı
  • Sesli kullanıcı arayüzü, klavye/fare ile birlikte kullanıldığında en etkili olur

    • Görsel bellek ve işitsel bellek ayrı tamponlara sahiptir ve işitsel tamponda boşluk vardır
    • Hava durumunu sesle sormak, uygulama açmaktan daha hızlıdır
    • Dil kendiliğinden sıkıştırılır ve karmaşık kavramlar için yeni sözcükler üretir
    • Kitap adlarını kısaltarak söylememiz gibi, sesli kullanıcı arayüzü de verimli hale getirilebilir
  • Ses girdisini daha hızlı iletmenin yollarını bulmak gerekiyor

    • Travis Rudd'ın sesiyle Python kodladığı video akla geliyor
    • Sesli arayüz üzerinden öğrenme materyali dinleyip quiz çözme deneyimi etkileyiciydi
  • Yazının başlığı yanlış anlaşılmaya yol açabilir

    • Tıklama almaya yönelik başlıklar iyi değil
  • Dışa dönük ve yönetim odaklı insanlar, sorun çözmek için ortaya laf atmayı tercih ediyor

    • E-posta yazarken çeşitli seçenekleri değerlendirmiş izlenimi vermek önemlidir
    • Asıl işi yapan insanlar, bilgisayara konuşmanın verimsiz olduğunu fark eder
  • 20-30 yıl öncesine kadar insan bilgisayarlaştırılmış değildi

    • Giyilebilir bilişimin gelecek olduğu iddia ediliyordu
    • Ama ekran ve uzaktan kumanda bağımlılığı insani değil
    • İnsanlar uzaktan kumanda kullanmayı daha çok tercih ediyor
  • Text-to-CAD yapay zeka araçları kullanıcının taleplerini iyi anlayamıyor

    • Makine atölyesi bir çizim ister, 300 kelimelik bir şiir değil
  • Bilgisayarla ilişki telepati gibi olmak isteniyor

    • Bilgisayarın her şeyi sizin yerinize yapması daha da kötü
    • İnsana bilgisayar gibi düşünmeyi öğretmek daha kolay
    • JavaScript, işlevlerin %20'siyle sorunların %80'ini çözüyor
    • ChatGPT/Bard/Gemini, JavaScript'i onun yerine yazıyor
    • Mobil arayüzler yazı yazmaya uygun değil