1 puan yazan GN⁺ 2023-12-22 | 1 yorum | WhatsApp'ta paylaş

NLP makale okuma koleksiyonu

  • Doğal dil işleme (NLP) üzerine makale okuma koleksiyonu 22 maddeden oluşuyor.
  • Bu koleksiyon yakın zamanda güncellendi ve NLP alanındaki en güncel araştırma eğilimlerini takip etmek için faydalı.
  • NLP, bilgisayarların insan dilini anlayıp işleyebilmesini sağlayan bir teknoloji olup makine çevirisi, duygu analizi, soru-cevap sistemleri gibi çeşitli uygulama alanlarına sahiptir.

GN⁺ görüşü

  • Bu koleksiyon, NLP alanındaki en güncel araştırmaları bir bakışta görebileceğiniz bir kaynak olarak, NLP ile ilgilenen araştırmacılar ve geliştiriciler için oldukça faydalı olacaktır.
  • NLP, yapay zeka teknolojileri içinde özellikle hızlı gelişen bir alan ve bu koleksiyon sayesinde en yeni trendler ile yenilikçi fikirlerle tanışabilirsiniz.
  • Doğal dil işleme teknolojileri günlük yaşamımıza derinlemesine entegre olmuş durumda; bu koleksiyon aracılığıyla bu teknolojinin gelişim yönünü ve gelecekteki olasılıklarını görebilirsiniz.

1 yorum

 
GN⁺ 2023-12-22
Hacker News görüşleri
  • Bu makaleyi anlamam biraz zaman aldı; çünkü 'Deja Vu' makalesindeki teknikleri temel alıyor ve seyreklikten yararlanan karmaşık yöntemleri ele alıyor:

    • 'Deja Vu' makalesi, düşük ağırlık seyrekliğine sahip modellerin yüksek "bağlamsal seyreklik" gösterdiğini gözlemliyor. Yani matris çarpımı, girdiye bağlı olarak farklı konumlarda çok sayıda 0 içeren vektörler üretiyor.
    • Makale, bu seyrekliğin kullanılarak matrisin bazı satırlarının hiç yüklenmeyebileceğini belirtiyor.
    • Ancak iyi bir performans artışı elde etmek için hangi satırların atlanacağını önceden tahmin edebilmek gerekiyor. Bunun düşük boyutlu bir matrisle mümkün olduğu söyleniyor.
    • Apple'ın makalesi, bu bulgunun yalnızca RAM'den yükleme performansını iyileştirmekle kalmayıp, flash bellekten yüklemeyi de bant genişliğinden ödün vermeden mümkün kıldığını öne sürüyor:
      • Dikkat edilmesi gereken nokta, attention matrislerinin hafif olduğu ve feedforward network'ü (FFN) seyrek şekilde yüklemenin önemli olduğunun makalede belirtilmesi.
      • Makale, ReLU katmanının çıktısını tahmin etmenin, FFN girdisini tahmin etmekten çok daha iyi seyreklik sağladığını belirtiyor. Yani, "matmul sonrasında bu vektör yuvasının ReLU öncesinde negatif bir değere sahip olacağını tahmin edebiliyorsanız, ilgili matris sütununu yüklemeden 0 çıktısı verebilirsiniz" anlamına geliyor.
      • Makale, FFN satırlarının çoğunun hiç yüklenmesine gerek olmadığını ve her FFN için son kullanılan FFN satırlarının bir önbelleğinin tutulup gerektiğinde flash bellekten güncellenebileceğini öne sürüyor.
    • Makalede chunk loading ile projeksiyon katmanları arasındaki korelasyon hakkında da bir şeyler var, ancak ana içgörü yukarıda bahsedilen kısım.
  • Makalenin sonuç bölümünde, bu özelliğin kullanıcıya nasıl sunulacağına dair bir bölüm bulmayı umuyordum; ama belki de bu tartışma kapsam dışıdır.

    • Bunun CoreML API çağrıları ve ayarlarıyla mı kullanıcıya sunulacağı, örneğin bir use_flash bayrağının mı ayarlanması gerekeceği, yoksa kullanıcıya şeffaf bir runtime optimizasyonu mu olacağı merak konusu. Apple'ın CoreML, Metal vb. için geliştirme yol haritalarını anlattığı iyi bir konuşma ya da sunum olup olmadığını bilmek isterdim.
  • Modelin ne kadar büyük bir bölümünü yüklememek gerektiğinde gerçek performans farkının görülmeye başladığını merak ediyorum.

    • Örneğin, RAM'deki performansın %90'ını korumak istiyorsanız, belleğin yalnızca yarısını kullanmak yeterli olur mu, yoksa %90 ya da %95'ini mi kullanmak gerekir?
    • RAM'i azalttıkça, azami performansa kıyasla performans kaybının ne kadar hızlı ortaya çıktığını merak ediyorum. Grafikler daha az RAM kullanıldığında temel algoritmayla karşılaştırma yapıyor, ancak bu farklı (yine de iyi!) bir soru.
    • Eğer 8 GB'lık modelin tamamını telefon belleğine yüklemeden de iyi performans alınabiliyorsa, bu gerçekten çok faydalı olur.
  • Apple cihazlarının, rakiplerinin benzer cihazlarına kıyasla çok daha az RAM'e sahip olması dikkat çekici.

    • Bunun bir nedeni, Apple'ın yazılım ekibinin Objective-C gibi daha verimli diller kullanması olabilir; bir diğer neden de iOS uygulamalarının çok çeşitli ekran çözünürlüklerini hedeflememesi, dolayısıyla yüksek çözünürlüklü dokuları yükleyip sonra aşağı ölçeklendirme ihtiyacının daha az olmasıdır.
    • Ayrıca Apple ölçeğinde RAM satın almak, RAM fiyatını çok dramatik biçimde düşürmüyor; bu yüzden RAM artırmak, başka özellikler eklemeye kıyasla kâr marjını daha fazla etkiliyor.
    • Ama tüm bunlar, doğası gereği çok RAM tüketen büyük dil modelleri (LLM) söz konusu olduğunda sorun haline geliyor. Ve her türlü bellek tasarrufu tekniği, daha fazla RAM'e sahip bir rakibin daha büyük ve daha iyi modeller çalıştırmak için de kullanılabilir.
  • Konuya dair bilgim sınırlı, ancak bu teknolojiyle mobil telefonda LLM'leri çevrimdışı modda çalıştırmanın mümkün olup olmayacağını merak ediyorum.

    • Eğer mümkünse, hassas verileri dışarı göndermeden yapay zeka destekli içerik moderasyonu gibi pek çok ilginç uygulamanın önünü açabilir.
  • Son dönem yazıların "AI" yerine "LLM" demesini takdir ediyorum.

    • Böylece bunun pazarlama abartısından ziyade belirli bir teknolojiyle ilgili olduğu anlaşılıyor.
  • Bu makalenin FlashAttention'dan bahsetmemesi biraz şaşırtıcı.

    • Her iki çalışma da flash belleği kullandığı için, en azından bir atıf yapılması gerekirdi gibi görünüyor.
  • Apple bir İran şirketini mi satın aldı?

  • Örneğin, OPT 6.7B modelinin FFN katmanlarında %97 seyreklik gösterdiği söyleniyor.

    • Burada belirtilen metriğin tam olarak ne anlama geldiğini bilen var mı diye merak ediyorum. Bu, katmanda %97 oranında 0 değer olduğu anlamına mı geliyor, yoksa boyutunun %3'e kadar sıkıştırılabildiği anlamına mı?
  • Umarım bu teknik llama.cpp ve candle'a entegre edilir.

    • Bu tür gelişmeler gerçekten çok etkileyici ve bir gün bu kütüphanelere de gelmesini umuyorum.