Markov zinciri nedir
- LLM'ler (büyük dil modelleri) ilk ortaya çıktığında, insanlar bunları çok akıllı bir Markov zinciri olarak açıklıyordu
- Günümüzde insanlar Markov zincirlerinden çok LLM'lere daha aşina
- Markov zinciri, çok küçük, çok basit ve çok saf bir LLM olarak düşünülebilir
- Markov zinciri mevcut bağlama dayanarak bir sonraki kelimeyi tahmin eder, ancak anlambilim, boyutsallık ve diğer karmaşık vektör matematiğini dikkate almaz
- Markov zinciri ilkel bir istatistiksel modeldir
- Telefon klavyelerindeki "sonraki kelime önerisi" özelliği genellikle Markov zincirleri kullanır
- Markov zincirlerinin çalıştırma maliyeti düşüktür ve kullanıcının yazı stiline göre kolayca güncellenebilir
- LLM'lerin ve Markov zincirlerinin nasıl çalıştığı derinlemesine açıklanabilir, ancak burada yalnızca Markov zincirlerinin görev yerine getirme yeteneğinin LLM'lerden daha zayıf olduğunu bilmek yeterlidir
Eğlence nedir
- Mizah, ciddi olmayan bir sürprizle ilgilidir
- En iyi şakalar keyifli ve önemli bir "çarpma etkisi" içerir
- "Çarpma etkisi", sürprizden gelen sarsıntıyı ifade eder
- Sürpriz ne kadar azsa, o kadar az komik olur
- Çok fazla şaka duyunca onların daha az komik gelmesinin nedeni budur
- "Rastgele" mizah komik değildir, çünkü öngörülemezliğin öngörülebilir olması başlı başına tahmin edilebilirdir
- Şaka yazımı, kalıpları ihlal etmekle ilgilidir
- "Sahnenin gerçekleştirilmesi" ile çarpma etkisi güçlendirilebilir
- Daha özgün veya daha betimleyici bir dil kullanmak, sahnenin daha gerçek görünmesini sağlar
- Şakalar çeşitlidir ve mizah özneldir
LLM'lerin öngörülebilirliği
- Bir cümleyi başarıyla tahmin etmek için çok fazla bağlam gerekir
- LLM'ler çok fazla bağlama sahiptir
- LLM'ler çok sayıda matematiksel hesaplama yoluyla en olası bir sonraki token'ı bulur
- "Daha iyi" bir LLM daha öngörülebilirdir
- LLM'ler yaratıcı yazım için uygun değildir
- LLM'ler ortalama sonuçlar üretir
- Şaka üretmek için LLM'in sürpriz yaratması gerekir
- İyi bir LLM bunu iyi yapmaz
- LLM'ler sanatsal ifade için uygun değildir
- LLM'ler ilginç kavramları gözden kaçırabilir
- Bu çerçeve aracılığıyla yeni bir dil modeli oluşturulabilir
Bunun neden ilginç olduğu
- Bu, daha derin bir şeye işaret ediyor
- Bu, ruh ile makine arasındaki tartışma değildir
- Bu, modelin içkin kusurlarını gösterir
- ChatGPT'nin mesajları lise kompozisyonları gibi görünür
- Bu, ortalama çıktının yeniden üretilmesidir
- Bu, kişiliği çıkarılmış ve akademik titizlikle güçlendirilmiş bir şeydir
- Bu, düz ve kurumsal bir üsluptur
- Sahte Amazon yorumlarını kolayca ayırt edebilirsiniz
- LLM tespit modellerinin yakında kişiliği incelemesi gerekecek
GN⁺ özeti
- Bu yazı, Markov zincirleri ile LLM'ler arasındaki farkları açıklıyor ve mizahın özünü inceliyor
- Markov zincirleri basit istatistiksel modellerdir ve tahmin yetenekleri LLM'lerden daha düşüktür
- Mizah ciddi olmayan sürprize dayanır ve şaka yazımı kalıpları ihlal etmekle ilgilidir
- LLM'ler yüksek derecede öngörülebilir oldukları için yaratıcı yazım için uygun değildir
- Bu yazı LLM'lerin sınırlamalarını gösterirken yeni dil modellerinin olasılığına da işaret ediyor
1 yorum
Hacker News görüşleri
Birkaç yıl önce bir yan proje yaparken ben de aynı sonuca vardım
Claude 3.5 Sonnet’ten, Markov zincirlerinin LLM’lerden daha komik olduğu temasıyla 10 kısa şaka yazmasını istedim
Bunun anlamı Markov zincirlerinin daha iyi olduğu değil
Üniversitedeyken arkadaşlarım üniversite gazetesinin "polis raporu" bölümünde bir Markov zinciri üreticisi kullanmıştı
Bu tür deneylerde İncil’in kullanılmasından rahatsız oluyorum
Ampirik kanıt olarak /r/subreddit simulator, Markov tabanlı bir Reddit parodisi
Reddit’e birkaç kez "AI tarafından yazılmış sahte XYZ" gönderileri attım
Yaklaşık 10 yıl önce öğrenciyken bir Markov Twitter botu yapmıştım
AI weirdness blogunun evrimi bu fikri destekliyor
Kişisel Discord sunucumda iki bot var