Word2Vec, ICLR2013'te dört kez 'güçlü ret' aldı

(openreview.net)

1 puan yazan GN⁺ 2023-12-19 | 1 yorum | WhatsApp'ta paylaş

Verimli Kelime Gösterimlerinin Vektör Uzayında Tahmini

Araştırmacılar, çok büyük veri kümelerinde kelimelerin sürekli vektör temsillerini hesaplamak için iki yeni model mimarisi öneriyor.
Bu temsillerin kalitesi, kelime benzerliği görevlerinde ölçülüyor ve daha önce en iyi performansı göstermiş çeşitli sinir ağı tabanlı tekniklerle karşılaştırılıyor.
Araştırma ekibi, çok daha düşük hesaplama maliyetiyle doğruluğun belirgin biçimde arttığını gözlemliyor. Yani 1,6 milyar kelimelik bir veri kümesinde, 1 milyon kelimelik sözlük için yüksek kaliteli 300 boyutlu vektörler tek bir CPU ile bir gün içinde elde edilebiliyor.
Ayrıca bu vektörlerin, kelime benzerliğinin farklı türlerini ölçmeye yönelik test kümelerinde son teknoloji performans sunduğu gösteriliyor.
Araştırma topluluğunun kullanımına sunulmak üzere bu test kümesi yayımlanacak.

Görüşler

Değerlendiriciler, önerilen modelin mevcut modellerden nasıl farklılaştığına ve neden daha üstün olduğuna dair açık bir motivasyonun eksik olduğunu belirtiyor.
Modelin açıklaması asgari düzeyde ve önceki çalışmalarla nasıl ayrıştığını belirlemek zor.
Değerlendiriciler, makalenin farklı veri kümeleri ve farklı boyutlarda eğitilmiş modeller arasında tutarsız karşılaştırmalar içerdiğini, oysa bunun makalenin iddialarını ikna edici kılmak için gerekli olduğunu vurguluyor.

GN⁺ Görüşü

Bu çalışma, kelime vektörlerini verimli biçimde tahmin etmeye yönelik yeni bir teknik öneriyor ve bu, doğal dil işleme alanında önemli bir ilerleme niteliğinde.
Önerilen modelin, mevcut karmaşık sinir ağı modellerine göre çok daha hızlı eğitilebilmesi, büyük ölçekli dil verileriyle çalışan araştırmalar için faydalı olabilir.
Makale, kelime vektörlerinin kalitesini değerlendirmek için yeni bir yöntem sunuyor; bu da gelecekteki çalışmalarda kelime benzerliğini ölçmek için bir standart haline gelme potansiyeli taşıyor.

1 yorum

GN⁺ 2023-12-19

Hacker News yorumları

Tomas Mikolov’un (word2vec’in yazarı) yakın tarihli FB paylaşımında daha fazla ayrıntı var: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
İlginç ve acı-tatlı nokta şu: uzmanlar da hata yapar. Geoff Hinton’ın, kelime analojileri için “ben de biliyordum ama sunmayı unuttum” türünden tepkisinden, makaleyi okumadan ya da bizzat denemeden “tamamen hile, çalışması mümkün değil” diyen insanlara kadar örnekler olduğunu söylüyor. Ian Goodfellow’un da Twitter’da öfkelendiği şeklinde anılıyor
- Tomas, encoder-decoder (seq-to-seq) fikrini kendisinin bulduğunu, Facebook’a geçtikten sonra da Ilya ve Quoc’un bunu devraldığını söylüyor
  Ancak Quoc bunun doğru olmadığını söylüyor: https://twitter.com/quocleix/status/1736523075943125029
  Quoc tarafı, Tomas’ın fikri önermediğini; aksine uçtan uca çeviri fikri paylaşıldığında çok kuşkucu davrandığını ve bu kuşkuculuğa rağmen çalışır hâle getirmek için çaba gösterdiklerini hatırlıyor. Birinin yalan söylediğinden çok, taraflardan biri yanlış hatırlıyor gibi; ama geride hoş bir tat bırakmıyor
- Adil bakınca, o dönem makalenin ve çevresindeki teknolojinin oldukça zayıf olduğunu da hatırlıyorum. Yaygın kullanılan implementasyonlar, makalede yazanlardan fiilen farklı çalışıyordu; teknoloji de kelime düzeyi karşılaştırmanın ötesinde pek iyi değildi
  Belirli kelimelere tf-idf ağırlığı vermek biraz işe yarıyordu, ama tf-idf ağırlıklı kelime kümeleri de benzer derecede güçlüydü. Birden çok kelime vektörünün toplamına kosinüs benzerliği uygulamak bugün bakınca gerçekten aptalca geliyor
- Başka bir thread’de Goodfellow’un nasıl öfkelendiği soruldu; bulabildiğim tek şey buydu: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Eğer kastedilen buysa, açıkçası Mikolov’u epey dengesiz göründüren bir izlenim veriyor
- O yazı, açıkçası birçok kişiye iğneleyici sözler yönelttiği için fazlasıyla uzun bir tirat gibi duruyor. Çok daha ağırbaşlı yazılabilirdi
  Yine de araştırmacıların çoğunun da insan olduğu; ortak bilginin ilerlemesini en öncelikli şey olarak görmekten ziyade egodan ve paradan ciddi biçimde etkilendiği fikri inandırıcı. öksürük OpenAI öksürük
- O yazı, “unutulmuş” FB’den çok Twitter’a daha uygun olurdu. Çünkü bahsedilen ya da ima edilen kişi ve kurumların yazıyı görüp kendi bakış açılarını paylaşma fırsatı olurdu
  Aksi hâlde sadece bir şikâyet yazısı gibi geliyor
Bence hakemler oldukça iyi iş çıkarmış. İnceleme metinleri de gayet makul. Hakemlik süreci, makalenin gelecekte ne kadar etkili olacağına değil, makalenin kalitesine bakmalı
Etkili olan her makale gerçekten iyi makale değildir
- Katılıyorum. Benim en etkili makalem de ilk gönderildiğinde güçlü ret almıştı ve geriye dönüp bakınca bunun haklı olduğunu düşünüyorum
  Motivasyon zayıftı, katkı açıkça ortaya konmamıştı, anlatım biçimi de çok karışıktı. Fikrin özü neredeyse hiç değişmedi ama sonunda yayımlanan makale çok daha iyi hâle geldi; bunun nedeni de ilk değerlendirmelerin sert olmasıydı. Değerlendirmelerin kendisi özellikle içgörülü değildi; “karışık, ne yaptığını ve neden yaptığını anlamıyorum” düzeyindeydi. Ama bazen böyle bir dış bakışa gerçekten ihtiyaç oluyor
  Ben de iyi bir fikrin tohumu görünen ama yazıya dökülmüş hâliyle iyi olmayan makaleleri inceleyip reddettiğim oldu. Bu makalelerin daha sonra çok daha iyi bir biçimde yayımlandığını görmek her zaman sevindirici
- Makalelerin pratikte çoğu zaman böyle değerlendirildiğine katılıyorum, ama böyle olması gerektiğine kesinlikle karşıyım. Bu, hakemlerin anahtarı kaybettikleri yerde değil de sokak lambasının altında aramasına benziyor
  “Bu makale kutucukları işaretliyor mu?” değil, “Bu makale alanı ileri taşıdığı için daha fazla görünürlük kazanmalı mı?” diye bakılmalı. İlkinin ikincisine daha iyi yol açmaması sistemin başarısızlığıdır
  Bu, düzgün saçlı ve doğru şifreli sözleri söyleyen adayı işe alıp, gerçek gelire etki eden kişiyi kaçıran işe alım değerlerine benziyor
  Çok titiz ama hiçbir şey doğurmayan “iyi” bir makale gerçekten iyi makale midir? Bilimsel ilerlemeyi, titiz makaleleri başarı olasılığı yüksek zarlar; daha az titiz makaleleri ise düşük olasılıklı zarlar olarak görürsek, yalnızca titiz makaleleri aramamız gerekir. O zaman düşük titizlikteki word2vec’in ilerleme sağlaması “gerçekten şanslı” olduğu ve iyi değerlendirme alması gerekmediği sonucuna varılır
  Ama word2vec aynı zamanda son derece yenilikçiydi ve bu, değerlendirmede olumlu bir unsur olmalıydı. Hatta yenilikçi makalelerin, o alanda titizliğin tanımı henüz yerleşmediği için çok titiz olmasının zor olduğunu düşünüyorum. Uç sınırlarda titizlik ile yenilikçiliğin negatif korelasyona sahip olduğunu iddia etmek isterim
- “Sekiz bacaklı deneme, geçmişte imparatorluk sınavlarına giren adayların devlet görevi için gerekli nitelikleri göstermesi açısından gerekliydi… Yapı ve üslup bakımından sekiz bacaklı deneme sınırlayıcı ve katıydı. Cümle sayısından kelime sayısına, biçim ve yapıdan uyak tekniklerine kadar pek çok kural vardı.”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Öyleyse akran değerlendirme sistemine neden bu kadar odak ve emek harcandığını anlamıyorum
  Araştırmayı finanse edenlere sorarsanız, etkisi olmayan “yüksek kaliteli” makale üretimindense etkili fikirlere yatırım yapmak isteyecekleri olası
- Doğru yorum bu. Birileri bunu “hakemler aptal” noktasına çekmek isteyebilir, ama mesele bu değil
Sonradan bakınca f5bf adlı incelemecinin yorumu ilginç görünüyor. Bu modellerin “river”, “bank”, “bailout” gibi geçişsiz anlamsal benzerliği nasıl ele aldığını açıklamanın iyi olacağını söylemiş; Tversky gibi kişilerin de anlamsal uzay modellerinin bu tür benzerliği uygun biçimde modelleyemediğini eleştirdiğini belirtmiş
Güncel modellerde (GPT, görüntü difüzyon modelleri vb.) göze çarpan şey, çokanlamlılık olduğunda kelimelerle oynayabilme yeteneği. Eskiden bu çok insana özgü bir yetenek gibi görünüyordu, şimdi ise üretken modellerin araç kutusuna girmiş gibi. Çoğunun, istemden gömme vektörü elde etmek için word2vec’e benzer bir şey kullandığını tahmin ediyorum
word2vec’teki belirsizliğin kelime oyunu yeteneğine katkı sağlayıp sağlamadığını bilmiyorum; ama bu tür belirsizliğin yaratıcı amaçlar için bir özellik, anlamsal uzayı katı bir vektör uzayı olarak modellemek istendiğinde ise bir hata olduğu özellik mi hata mı durumunu gösteriyor
Mevcut modellerin kelime/istem gömmelerinin, çok büyük oldukları için yinelenen boyutlarla aşırı yüklenmiş olduğunu ve iyi işleyen bir vektör uzayı gibi herhangi bir matematiksel biçimciliği karşılamayacağını düşünüyorum
- Temel fark, bağlamsız gömmeler ile bağlamsal gömmeler diye adlandırılabilecek şey. word2vec’e benzer yöntemler, yapıları gereği her cümledeki “bank” sözcüğüne tam olarak aynı vektörü atamak zorunda
  Ancak sonraki modeller, örneğin Transformer ailesi, BERT, GPT vb., o “bank” sözcüğünün çevresindeki kelimelerin bağlamına göre tamamen farklı vektörler atar
- Küçük modeller de (ör. gizli boyut 32) attention varsa token belirsizliğini işleyebilmelidir. Bilgi, token’ın kendisinden çok bağlamda bulunur
Makalenin ilk sürümleri reddedilmiş gibi görünüyor; sonrasında incelemeler temelinde güncellemeler ve açıklama takviyeleri yapılmış. Sonuçta faydalı olmuş ve inceleme sürecinin işlemesi gereken biçim gibi görünüyor
Özellikle bu makale çığır açıcı bir çalışma olduğu için, yalnızca iyi benchmark sonuçlarına yaslanmak yerine neden çalıştığını açıklamaya daha fazla emek harcamak makul
Şimdi geriye dönüp bakınca zeki görünen anonim incelemeciler epey aptal hissediyordur
Hakem değerlendirmesi yeni fikirlerde iyi işlemez. Çünkü kimsenin yeni bir şeyi anlamak için saatlerce, üstüne saatlerce zaman ve zihinsel alan ayıracak vakti yoktur
- En iyi bilimin büyük kısmının hakem değerlendirmesi baskın hale gelmeden önce ortaya çıktığını belirtmeye değer
  Önceden okuduğum bir yazı vardı; şimdi kolayca bulmak zor, ama bugünkü hakem değerlendirme sisteminin tarihini kabaca özetliyordu. Bugün bildiğimiz hakem değerlendirmesi esas olarak 1970’lerde ortaya çıktı ve akademideki çeşitli finansman krizlerine bir yanıttı. Araştırmayı daha güvenilir gösterme stratejisi olduğu söyleniyordu
  Hakem değerlendirmesine yönelik en yıkıcı eleştiri ise elbette tekrarlanabilirlik krizini engellemekte tamamen başarısız olması, hatta belki de ona yardımcı olması. Akademi, güvenilirlik imajı üzerinden fon sağlamanın başlıca motivasyon olduğu bir sistem; ilkesel olarak bakıldığında bu, geniş çaplı dolandırıcılık için bir reçete
- Geçen yıl yapay zeka doktoramı tamamladım ve bir incelemeyi düzgün yapmak için gerçekten saatlerini harcayan incelemecilerin var olduğunu söyleyebilirim. Bugünlerde tembel bir incelemeciye denk gelme olasılığınızın yüksek olduğu ve şanssız olabileceğiniz de doğru; ama bu makalede durum öyle görünmüyor
  Örneğin f5bf’nin incelemesi CBOW ve skip-gram’ı özetliyor, model açıklamasının çok minimal olduğunu ve mevcut modellerden ne kadar farklı olduğunu değerlendirmenin zorlaştığını belirtiyordu. Grafiksel gösterim ya da matematiksel ayrıntıların eklenmesinin iyi olacağını, parametre sayısına dair biraz gereksiz bir denkleme çok yer ayrıldığı için yaklaşık bir sayfalık boş alanla bunun rahatça yapılabileceğini düşünüyordu
  Bu tür incelemeler makalede ciddi düzeltmelere yol açtı; yalnız yeterince büyük olmamış gibi: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Oldukça kaliteli bir incelemeydi ve kişisel olarak makalenin bu inceleme sürecinden fayda gördüğünü düşünüyorum
- Geçen yıl boyunca makine öğrenimi konferans parkurlarından büyük hayal kırıklığı yaşadım. Makale çok fazla, incelemeci çok az; bu yüzden doktora öğrencisi incelemecilerin sayısı anormal ölçüde arttı
  Gerçekten akıl almaz incelemeler aldım; bilim ruhuna aykırı günahlar da vardı. Örneğin yeni bir mimari fikri ve en iyi performans sonuçları yoksa yayımlanmaya değmez diye fiilen ısrar eden bir incelemeci vardı. Sanki zaten var olan araçları daha iyi anlamak ve basitleştirmek kesinlikle olmazmış gibi
- Benim çıkardığım sonuç bu değildi. İnceleme sürecinin makaleyi iyileştirdiği ve daha titiz hale getirdiğiydi. Bunun neden kötü bir şey olduğunu bilmiyorum
  Elbette incelemecilerin “bu A, B, C’yi dönüştürecek mi” yerine başka konulara odaklandığı zamanlar da oluyor
- Buradaki sorun, incelemecilerin yeni fikirlerin altından kalkamaması değildi. Kelime gömmelerine ve bunların nasıl üretildiğine hepsi gayet aşinaydı
  word2vec’te çok sayıda yeni kavram yoktu; farkı basit, hızlı ve kaliteli olmasıydı. Yazılımı ve önceden eğitilmiş vektörleri, mevcut yöntemlere göre erişmesi ve kullanması daha kolaydı
Dört tane “strong reject” var ama hepsini aynı incelemecinin aynı anda aynı içerikle yazdığı görünüyor. Bu sadece tek bir ret değil mi?
Ayrıca neden yalnızca o incelemecinin puanının göründüğü de soru işareti
Burada hakem değerlendirmesinin değeri ya da değersizliği hakkında güçlü konuşanların kaçının gerçekten hem yazar hem incelemeci olarak yer aldığını merak ediyorum. Birden çok incelemeyi tek bir tavsiyede birleştirip sentezlemek zorunda kalan editör rolünü üstlenenleri daha da çok merak ediyorum
Biçimsel hakem değerlendirmesi olmadan araştırma ya da fikir paylaşılabilecek pek çok mecra var; arXiv/bioRxiv bunun başlıca örnekleri. Hakem değerlendirmesinin kendisini reddediyorsanız alternatifler yeterince var gibi görünüyor
- İnternet burası; dolayısıyla hangi konu olursa olsun güçlü kanaatlerin önemli bir kısmı, o alanda pek az deneyimi ya da yetkinliği olan kişilerden geliyor
  HN olduğu için ortalamadan biraz daha iyi olabilir, ama aynı zamanda işi erteleyen insanlara doğru da yanlı olacaktır. Bunu bilerek hesaba katmak yeterli
Üniversitedeyken bir ders ödevi olarak, birkaç sezgisel kurala dayanarak metinleri düzelten basit bir sistem yapmıştım.
O dersin hocası, yazın yerel bir konferansa sistemi ve sonuçları anlatan bir makale göndermemi önerdi; yardım alarak yazdım ama grameri kötü gibi bir gerekçeyle doğrudan reddedildi. Konferans Brezilya’da yapılıyordu ama makale İngilizce isteniyordu. Öğrenciydim ve İngilizcemin gerçekten kötü olduğunu düşündüm.
Hocam, hakeme e-posta gönderip geri bildirim almamı, sonra düzeltip yeniden göndermemi söyledi. Bu yüzden hangi paragrafların kafa karıştırıcı olduğunu özellikle sordum; bana açıkça hatalı cümle parçaları gönderdiler. Oysa bunlar, sistemimin düzeltmeden önce/sonra örneklerinde yer alan düzeltme öncesi cümlelerdi.
Gramerin hatalı olması gereken kısım olduğunu açıklamaya çalıştım ama yanıt “İngilizce hatalarını düzeltip yeniden gönderin” oldu. İki üç kez daha denedikten sonra sonunda vazgeçtim.
- Feynman’ın Brezilya’da yaşadığı anekdotları hatırlatıyor. Özellikle “I was invited to give a talk at the Brazilian Academy of Sciences” diye aratabilirsiniz; ama okumadıysanız tamamı okunmaya değer.
  https://southerncrossreview.org/81/feynman-brazil.html
- Tam da böyle olacağını düşündüğüm için gözlerimi devirdim. Yine de yayımlamak istiyorsanız arXiv’e koyup HN kolektif aklından uygun gönderim yerleri için öneri alabilirsiniz.
  arXiv erişiminiz yoksa bir onaylayıcı bulmanız yeterli: <https://info.arxiv.org/help/endorsement.html>. Kısa ve nazik bir e-posta gönderin; nezaketten çok özlülüğe öncelik verin. “yyyy yılında üniversitede otomatik gramer düzeltme üzerine bir makale yazdım ve şekildeki gramer hataları nedeniyle Venue tarafından reddedildi. Hâlâ yayımlamak istiyorum. arXiv hesabımı onaylayabilir misiniz? Ayrıca uygun bir gönderim yeri önerebilir misiniz?” gibi bir metin yeter. Onay isteğinde bulunurken arXiv web sitesindeki yönergeleri izleyin.
- Hakemlik yaptım ve bazen benzer değerlendirmeler yazdığım da oldu.
  Makale, okuyucuya bilgi aktarma alıştırmasıdır. Yazım, okuyucunun bu bilgiyi anlamasını çok zorlaştırıyorsa, içindeki fikrin kalitesinden bağımsız olarak makale pek işe yaramaz ve yayımlanmaya uygun değildir.
  Hakemin işi makaleyi anlaşılır olacak şekilde yeniden yazmak değildir. Buna zamanları da yoktur, işleri de bu değildir.
  Yazmak kolay değildir; teknik makale yazmak öğrenmesi gerçekten zor bir beceridir. Ama araştırmanın faydalı olabilmesi için gereklidir.
  Açıkçası, makale yazmayı öneren hocanın rolünü düzgün yerine getirmeyip zamanınızı boşa harcatmış gibi geliyor. Çalışma yayımlanmaya değerse, onu yayımlanabilir hâle getirmek için zaman ayırmalıydı; ayırmayacaksa en baştan önermemeliydi.
Başlık yanlış anlaşılmaya yol açtığı için işaretledim. Dört strong reject tek bir yazardan gelmiş.
Bilinmeyen bir nedenle dört kez listelenmiş, ama bu muhtemelen OpenReview’ün tuhaf bir davranışı. Sayfanın gösterdiği gerçek durum: uzun metin eklenmiş 2 unknown, 1 weak reject, 1 strong reject.
İnceleme dizisi, alttan başlayıp yukarı doğru okunduğunda olumsuz yöne kayan bir Show HN dizisi gibi görünüyor.
Makale başta sorular ve olumsuz geri bildirim alınca yazarlar güncellemeler yaparak hakemlere hafifçe dokundurdular. “Tartışmayı memnuniyetle karşılarız… Bazı incelemelerde gözden kaçmış gibi görünen temel katkı, çok sığ bir modelle bile iyi kelime vektörü temsillerinin hesaplanabilmesidir” diye yanıt verdiler.
Bu güncellemeye verilen yanıt şuydu: “Düzeltmeler ve itirazlar, hakemlerin gündeme getirdiği sorunları çözmedi. Mevcut hâliyle makalenin kabul edilmemesi gerektiğini düşünüyorum. Kalite değerlendirmesi: Strong reject. Güven düzeyi: Hakem bilgili.”

Word2Vec, ICLR2013'te dört kez 'güçlü ret' aldı

Verimli Kelime Gösterimlerinin Vektör Uzayında Tahmini

Görüşler

GN⁺ Görüşü

İlgili okumalar

1 yorum

Hacker News yorumları