5 puan yazan GN⁺ 2024-08-19 | 1 yorum | WhatsApp'ta paylaş

Markov zinciri nedir

  • LLM'ler (büyük dil modelleri) ilk ortaya çıktığında, insanlar bunları çok akıllı bir Markov zinciri olarak açıklıyordu
  • Günümüzde insanlar Markov zincirlerinden çok LLM'lere daha aşina
  • Markov zinciri, çok küçük, çok basit ve çok saf bir LLM olarak düşünülebilir
  • Markov zinciri mevcut bağlama dayanarak bir sonraki kelimeyi tahmin eder, ancak anlambilim, boyutsallık ve diğer karmaşık vektör matematiğini dikkate almaz
  • Markov zinciri ilkel bir istatistiksel modeldir
  • Telefon klavyelerindeki "sonraki kelime önerisi" özelliği genellikle Markov zincirleri kullanır
  • Markov zincirlerinin çalıştırma maliyeti düşüktür ve kullanıcının yazı stiline göre kolayca güncellenebilir
  • LLM'lerin ve Markov zincirlerinin nasıl çalıştığı derinlemesine açıklanabilir, ancak burada yalnızca Markov zincirlerinin görev yerine getirme yeteneğinin LLM'lerden daha zayıf olduğunu bilmek yeterlidir

Eğlence nedir

  • Mizah, ciddi olmayan bir sürprizle ilgilidir
  • En iyi şakalar keyifli ve önemli bir "çarpma etkisi" içerir
  • "Çarpma etkisi", sürprizden gelen sarsıntıyı ifade eder
  • Sürpriz ne kadar azsa, o kadar az komik olur
  • Çok fazla şaka duyunca onların daha az komik gelmesinin nedeni budur
  • "Rastgele" mizah komik değildir, çünkü öngörülemezliğin öngörülebilir olması başlı başına tahmin edilebilirdir
  • Şaka yazımı, kalıpları ihlal etmekle ilgilidir
  • "Sahnenin gerçekleştirilmesi" ile çarpma etkisi güçlendirilebilir
  • Daha özgün veya daha betimleyici bir dil kullanmak, sahnenin daha gerçek görünmesini sağlar
  • Şakalar çeşitlidir ve mizah özneldir

LLM'lerin öngörülebilirliği

  • Bir cümleyi başarıyla tahmin etmek için çok fazla bağlam gerekir
  • LLM'ler çok fazla bağlama sahiptir
  • LLM'ler çok sayıda matematiksel hesaplama yoluyla en olası bir sonraki token'ı bulur
  • "Daha iyi" bir LLM daha öngörülebilirdir
  • LLM'ler yaratıcı yazım için uygun değildir
  • LLM'ler ortalama sonuçlar üretir
  • Şaka üretmek için LLM'in sürpriz yaratması gerekir
  • İyi bir LLM bunu iyi yapmaz
  • LLM'ler sanatsal ifade için uygun değildir
  • LLM'ler ilginç kavramları gözden kaçırabilir
  • Bu çerçeve aracılığıyla yeni bir dil modeli oluşturulabilir

Bunun neden ilginç olduğu

  • Bu, daha derin bir şeye işaret ediyor
  • Bu, ruh ile makine arasındaki tartışma değildir
  • Bu, modelin içkin kusurlarını gösterir
  • ChatGPT'nin mesajları lise kompozisyonları gibi görünür
  • Bu, ortalama çıktının yeniden üretilmesidir
  • Bu, kişiliği çıkarılmış ve akademik titizlikle güçlendirilmiş bir şeydir
  • Bu, düz ve kurumsal bir üsluptur
  • Sahte Amazon yorumlarını kolayca ayırt edebilirsiniz
  • LLM tespit modellerinin yakında kişiliği incelemesi gerekecek

GN⁺ özeti

  • Bu yazı, Markov zincirleri ile LLM'ler arasındaki farkları açıklıyor ve mizahın özünü inceliyor
  • Markov zincirleri basit istatistiksel modellerdir ve tahmin yetenekleri LLM'lerden daha düşüktür
  • Mizah ciddi olmayan sürprize dayanır ve şaka yazımı kalıpları ihlal etmekle ilgilidir
  • LLM'ler yüksek derecede öngörülebilir oldukları için yaratıcı yazım için uygun değildir
  • Bu yazı LLM'lerin sınırlamalarını gösterirken yeni dil modellerinin olasılığına da işaret ediyor

1 yorum

 
GN⁺ 2024-08-19
Hacker News görüşleri
  • Birkaç yıl önce bir yan proje yaparken ben de aynı sonuca vardım

    • AWS blog yazıları üreten bir site yapmıştım
    • Bir Markov zinciri üreticisini AWS duyuru gönderileriyle eğitmiştim
    • HTML ve CSS’i kopyalayıp Python ve JS ile birleştirmiştim
    • Sonuç oldukça eğlenceliydi
    • Bunu GPT kullanarak yükseltmeye çalıştım ama daha az eğlenceliydi
    • Modern LLM’ler fazla gerçekçi olduğu için daha az komik
    • İlk Markov üreticilerinin mizahı absürtlüğünden geliyordu
    • Modern LLM’ler bazen yanlış oluyor ama absürt olmuyor
  • Claude 3.5 Sonnet’ten, Markov zincirlerinin LLM’lerden daha komik olduğu temasıyla 10 kısa şaka yazmasını istedim

    • Markov zinciri yolu neden geçti? Öngörülemezliğin öbür tarafına geçmek için
    • Bir LLM ve bir Markov zinciri bara girdiğinde, LLM istatistiksel olarak olası bir içecek sipariş eder, Markov zinciri ise peynirden yapılmış bir abajur sipariş eder
    • Markov zinciri baba şakası yaptığında buna "Mark-ov Twain" denir
    • LLM bir ampulü değiştirmek için en uygun yöntemi 20 dakika boyunca açıklar
    • Markov zinciri "Markov chain reaction of nonsensical hilarity" der
    • Bir LLM, bir Markov zinciri ve GPT-4 bara girdiğinde, GPT-4 ayrılır, LLM etik sorunları tartışır, Markov zinciri ise spagettiden yapılmış bir bisiklet sipariş eder
    • LLM’nin en sevdiği film "Predictable and Furious 17: The Safest Driving Yet"tir
    • Markov zinciri, "muzdan yapılmış bir şatoda yaşayan prenses ile duyguları olan tost makinesi krallığı" hakkında bir hikâye anlatır
    • Markov zinciri LLM’ye "annen bir abaküs, baban da silikon kokuyor" der
    • Markov zincirinin neden iyi bir terapist olmadığı: "duygularını muzlara dönüştürüp şapka yap" diye tavsiye verir
  • Bunun anlamı Markov zincirlerinin daha iyi olduğu değil

    • Tahmin yapmak için eğitilmiş bir model, bizim içsel tahmin motorumuzdan çok da farklı olmamalı
    • Sorun, metnin uncanny valley’sine yaklaşması
  • Üniversitedeyken arkadaşlarım üniversite gazetesinin "polis raporu" bölümünde bir Markov zinciri üreticisi kullanmıştı

    • Çıktının %10’luk kısmı en komik olanıydı
    • Modern LLM’ler yüksek seviyeli anlamı korumaya çalıştığı için bu tür absürtlüklerden kaçınıyor
  • Bu tür deneylerde İncil’in kullanılmasından rahatsız oluyorum

    • Bu, İsa’nın çarmıha gerilme görsellerini AI görüntü düzenleme modellerinde kullanmak gibi
  • Ampirik kanıt olarak /r/subreddit simulator, Markov tabanlı bir Reddit parodisi

    • /r/SubSimulatorGPT2 bunun LLM tabanlı versiyonu
    • Markov versiyonu daha fazla upvote aldı ve daha komikti
  • Reddit’e birkaç kez "AI tarafından yazılmış sahte XYZ" gönderileri attım

    • En iyi tepkiyi alan model GPT-2 oldu
    • Markov zincirleri bir iki cümleden fazlasında ilginç olmuyor
    • GPT-3 sonrası modeller fazla derli toplu ve sıkıcı
    • GPT-2, dilbilgisini çoğunlukla doğru kurup tutarlı bir fikri korurken belli konularda bilgi eksikliği yaşadığı için daha komik
  • Yaklaşık 10 yıl önce öğrenciyken bir Markov Twitter botu yapmıştım

    • Linus Torvalds’un LKML e-postalarıyla ve Kral James İncil’inden İsa alıntılarıyla eğitmiştim
    • İki eğitim kümesi neredeyse hiç örtüşmediği için histerezis eklemek zorunda kalmıştım
  • AI weirdness blogunun evrimi bu fikri destekliyor

    • Erken dönem LLM’ler, özellikle GPT-3 öncesi sürümler daha komikti
    • Örneğin, GPT’nin Ada sürümünün ürettiği gevrek isimleri, Da Vinci sürümünün ürettiklerinden daha komikti
  • Kişisel Discord sunucumda iki bot var

    • Biri, tüm sohbet geçmişiyle eğitilmiş basit bir Markov zinciri botu
    • Diğeri, düzgün bir LLM botu
    • Markov zinciri botu her zaman daha komik