Olasılıksal Yapay Zeka Teknolojisi

(arxiv.org)

1 puan yazan GN⁺ 2025-03-12 | 1 yorum | WhatsApp'ta paylaş

Olasılıksal yapay zeka, yalnızca tahmin değerleri üreten AI’ın ötesine geçerek belirsizliği çıkarımlayan ve bunu karar verme süreçlerine yansıtan bir yaklaşımı ele alır
Materyalin ilk yarısı olasılıksal makine öğrenmesine odaklanır; veri eksikliğinden kaynaklanan epistemik belirsizlik ile gözlem gürültüsü gibi azaltılması zor aleatorik belirsizliği birbirinden ayırır
Bayesian linear regression, Gaussian process models ve Bayesian neural networks üzerinden olasılıksal modellemeyi ele alır; hesaplaması zor çıkarım ve tahminlerde yaklaşık çıkarım kullanılır
İkinci yarı, active learning, Bayesian optimization ve reinforcement learning gibi ardışık karar verme süreçlerinde belirsizliğin veri toplamayı ve keşfi nasıl yönlendirdiğini açıklar
Bir dönemlik lisansüstü giriş dersine uygun hazırlanmış bir materyaldir; olasılık, kalkülüs, lineer cebir ve temel makine öğrenmesi bilgisi içeriği takip etmeyi kolaylaştırır

Olasılıksal AI’ın ele aldığı temel sorunlar

Yapay zeka, oyun oynama, dil çevirisi ve otomobil kullanma gibi insan zekasının bazı yönlerini gerektirdiği düşünülen görevleri yerine getiren yapay sistemlerin bilimini ve mühendisliğini ifade eder
AI’daki son gelişmeler, öğrenme temelli ve veri temelli yaklaşımlarla iç içedir; makine öğrenmesi ve deep learning, bilgisayar sistemlerinin dünyayı algılama biçimini genişletir
Reinforcement learning, Go gibi karmaşık oyunlarda ve dört ayaklı yürüme gibi robotik görevlerde başarı sağlamıştır
Zeki sistemler için yalnızca tahmin değerleri değil, tahminin belirsizliğini çıkarımlama ve bunu eylem seçimine yansıtma becerisi de gerekir

Olasılıksal makine öğrenmesi

İlk yarı, olasılıksal makine öğrenmesi yaklaşımı etrafında yapılandırılmıştır
Belirsizlik iki türe ayrılır
- Epistemik belirsizlik(epistemic uncertainty): Veri eksikliğinden kaynaklanır ve daha fazla bilgiyle azaltılabilen belirsizliktir
- Aleatorik belirsizlik(aleatoric uncertainty): Gürültülü gözlemler ve sonuçlar gibi doğası gereği azaltılması zor belirsizliktir
Başlıca olasılıksal çıkarım modelleri şunlardır
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
Bu modellerde çıkarım ve tahmin çoğu zaman hesaplama açısından zorlaştığından, modern yaklaşık çıkarım yöntemleri de birlikte ele alınır

Ardışık karar vermede belirsizliğin kullanımı

İkinci yarı, zaman içinde veri toplayıp eylem seçmeyi gerektiren ardışık karar verme görevlerine odaklanır
Active learning ve Bayesian optimization, epistemik belirsizliği azaltmaya yararlı deneyler önererek veri toplamaya yönelik yaklaşımlardır
Reinforcement learning, belirsiz bir ortamda eylem öğrenen ajanları modelleyen bir çerçevedir
Markov Decision Processes’in temel biçiminden geçerek, sinir ağı fonksiyon yaklaşımı kullanan modern deep RL yaklaşımlarına uzanır
Son bölümde, epistemik ve aleatorik belirsizlikten yararlanarak keşfi yönlendiren ve güvenliği de dikkate alan model-based RL yaklaşımları ele alınır

Hedef okur ve ön bilgiler

Olasılıksal makine öğrenmesi ve ardışık karar verme üzerine bir dönemlik lisansüstü giriş dersi materyali olarak kullanılabilir
Farklı arka planlara sahip okurları hedeflese de şu temel bilgileri varsayar
- Olasılığın temel kavramları
- Kalkülüs
- Lineer cebir
- Sinir ağları dahil temel makine öğrenmesi
1. bölüm, sonraki içerikler için olasılıksal çıkarımı yumuşak bir girişle tanıtır ve olasılık teorisinin temel kavramlarını da birlikte tekrar eder
Metnin arka kısmında, ek matematiksel arka planın temel kavramlarını tekrar eden bir bölüm yer alır

Öğrenme yapısı

Tarihsel gelişimden çok temel kavramlara ve fikirlere odaklanır
Daha derin öğrenme ve tarihsel bağlam için kaynakçadan ilerlenebilecek şekilde yapılandırılmıştır
Her bölümün sonunda alıştırmalar bulunur
Metinde soru işaretiyle birlikte vurgulanan öğeler alıştırmalara işaret eder
Tüm alıştırmaların çözümleri metnin arka kısmında bulunabilir

1 yorum

GN⁺ 2025-03-12

Hacker News yorumları

Metindeki açıklayıcı diyagramlar harika; olasılık perspektifinden makine öğrenimini matematiksel olarak iyi tarayan, kaliteli bir genel bakış gibi görünüyor.
Son dönemde Zhao’nun ücretsiz ders kitabı ve YouTube dersi Mathematical Foundation of Reinforcement Learning de etkileyiciydi: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Çok zamanınız yoksa, tüm alan için iyi bir kavram haritası olan Zhao’nun içindekiler genel bakış diyagramına bile bakmak iyi olur: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Mümkünse tanıtım videosunu da öneririm.
- İlk ders gerçekten çok iyi. Sadece içerik değil, Zhao’nun bir öğrenci olarak öğrenmeye nasıl bakılması gerektiğini anlatma biçimi de harika.
Bu materyali birkaç gün önce gördüm; ciddiyetle okumak için bir neden de Andreas Krause’nin Gauss süreçleri ve bandit alanlarında derin ve ilginç araştırmalar yapmış olması.
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause bu alandaki büyük araştırmacılardan biri. Okuduğum diğer çalışmalarına bakılırsa yazısı da iyi, bu yüzden okumaya değer görünüyor.
Aptalca bir soru olabilir ama bir LLM, az önce verdiği yanıtın olasılığını söyleyebilir mi? Yani bulanık mantık gibi değişebilir mi, merak ediyorum.
Daha da ileri gidersek, kendisine ne kadar güvendiğini de söyleyebilir mi? Yukarıdaki olasılığın doğru olma olasılığı, yani güven düzeyi ya da sezgici bulanık mantık gibi bir şeyden bahsediyorum.
Uzun zaman önce üniversitede bunları kısa bir süre öğrenmiştim; her terim için F+IF, yani olasılık ve güven katsayısı taşıyan bir Prolog yorumlayıcısı da yapmıştım.
- Varsayılan haliyle zor olduğunu düşünüyorum. Böyle bir öz değerlendirmeye güvenmezdim.
  Yeterli hesaplama kaynağı varsa beam search yapıp, çıkan yanıtlar arasında fiilen aynı olanların oranını LLM ile değerlendirerek “güven” için vekil bir gösterge oluşturmak mümkün olabilir.
- Benim anladığım kadarıyla LLM yanıtı, her konumda olasılığı en yüksek token’ların zinciri. Daha karmaşık aday üretme ve seçme yöntemleri olabilir, ama basitçe en büyük değeri seçmek gibi de düşünülebilir.
  Basitleştirmek için token’ları sözcük sayarsak, cümle sırasındaki her sözcüğün olasılığını görebilirsiniz. Ancak bunu tüm cümlenin olasılığı ya da doğru olma olasılığı olarak nasıl değerlendireceğimden emin değilim.
- “Bu olayın gerçekleşme olasılığını yüzde kaç görüyorsun ve neden?” derseniz epey bağlam ve düşünme süreci sunuyor.
  Matematikçi değilim ve “olasılık” için daha karmaşık matematiksel anlamlar olduğunu da biliyorum; ama “neden buna bu kadar güçlü inanıyorsun?” açısından bakınca, katılınabilecek ya da itiraz edilebilecek açıklamaları oldukça iyi verdiğini hissettim.
  Bildiğim ek bağlamı eklediğimde tahminini de rafine ediyor. Bu yüzden bugünlerde LLM’i bir bağlam bağlama sistemi gibi ele alıyor, noktaları doğrudan birleştirmeden önce baştan bir bağlantı olasılığı olup olmadığını görmek için kullanıyorum.
- Tam olarak neyi kastettiğinizden %100 emin değilim, ama bazı sağlayıcılar token olasılıkları sunuyor: https://cookbook.openai.com/examples/using_logprobs
- Uygun şekilde değiştirilirse mümkün. Bayesçi sinir ağları belirsizlik nicemlemesi sağlar.
  Zor olan, tahminleri kalibre etmek; model kapasitesini belirsizlik nicemlemesine ayırmanın, daha büyük ama belirsiz bir model oluşturmaktan daha iyi olup olmadığına karar vermektir.
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  Örnek: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
Yorumlanabilirliği yaygınlaştırıp oyuncuların bile modelleri keşfedebilmesini sağlamak için modellere yönelik bir GUI gerekli gibi görünüyor. Temelde başka bir modeli eğiterek LLM’i 3D bir biçime dönüştürmek ve insanların anlayabileceği bir 3D dünyaya yerleştirmek gibi.
Daha basit bir örnek olarak, LLM’in yeşil bir kır ve nesnelerle temsil edildiği, yalnızca insanın eyleyen olduğu bir uzam düşünülebilir.
Bir maymunun yakınında duruyorsunuz; yakında çiğneyen bir ağız görüp o yöne gittiğinizde mevcut prompt “monkey chews” oluyor. Yakınlarda bir muzu gösteren ok var, daha uzakta bir elma, ufkun çok çok ilerisinde de bir lastiği gösteren ok. Çünkü maymunun lastik çiğnemesi nadirdir.
Yakın olanlar olasılığı daha yüksek token’lar, uzak olanlar olasılığı daha düşük token’lardır; sanki bir tepenin üstündeymişsiniz gibi hepsini birden görebilirsiniz. Bu şekilde yalnızca insanın eyleyen olduğu, statik ve mekân benzeri bir AI yapılabileceğini düşünüyorum.
- 18 yaşımdayken yaşadığım Salvia halüsinasyonu aşağı yukarı böyleydi.
  Zihnim sonsuz büyüklükte bir alışveriş merkezine dönüşmüştü; her koridor eşzamanlı ilerleyen bir düşünce dalıydı ve her koridorun üzerindeki ortak malzeme listesi o dalla ilgili sözcükler, duygular ve kavramlarla doluydu.
  Anons sistemi iç monoloğumun yerini almıştı; artık iç monoloğum yoktu ama düşüncelerim başkasının sesi gibi dışarıdan duyuluyordu.
  O koridorlarda yürüyerek beynimin gerçek zamanlı olarak ürettiği devasa, fraktal, karşılıklı bağımlı ve eşzamanlı düşünce ağını hayranlıkla görebiliyordum.
- Görünüşe göre yüksek boyutlu uzayı 4 boyutlu görselleştirmeye iyi şekilde eşlemenin yolunu henüz kimse bulamadı.
  Belki de token’ların ve dilin insanlar için bu kadar kullanışlı olmasının nedeni budur. Elimizdeki en yakın benzetim onlar olabilir.
Benzer ya da en azından kısmen örtüşen bir kaynak olarak, bu konudaki en iyi başvuru kitaplarından sayılabilecek Gareth James ve diğerlerinin Introduction to Statistical Learning kitabı akla geliyor
Bu materyal biraz daha erişilebilir olabilir; ancak ikincisindeki R/Python örnekleri işe yarıyor
[1] https://www.statlearning.com/
- O kadar da değil. ISLR oldukça temel bir kitap; bu materyal ise noktasal tahminden çok olasılık tahmini yayılımı gibi daha ileri teknikleri ele alıyor
  Açıkçası artık ISLR’yi önermiyorum. Fazla eskimiş olduğunu düşünüyorum
Kevin Murphy, kendi Probabilistic Machine Learning serisinin adını değiştirmek için koşarak gelecek gibi
Gürültülü girdi, gürültülü işlem ve gürültülü zincir ayrımını yapma biçimi ilginç
Ontolojik gerçeklik, durumların bir dizilimi değil, potansiyelliklerin dağılımıdır
Potansiyellik vardır; olasılık ise onun dağılımının matematiksel betimidir. Tüm özellikler boyuttur, yani vektördür. Durum, çözülmenin yalnızca geçici bir ölçümüdür
Potansiyellikler yapıcı girişim ve yıkıcı girişim yoluyla etkileşir; yapıcı ve yıkıcı girişim de “şimdi” denen anlık ölçümde durumlara çözülür. Bu, zorunluluğun çöküşünü ifade eden bir önermedir
Ontolojik gerçeklik bir durum dizilimi değil, potansiyelliğin dağıldığı bir süreçtir
Gemini 2.0 Experimental 02-05 bu materyali “ancak” 107K token olarak görüyor
İçeriği parçalara ayırıp anlamak için yardım almak istiyorsanız kullanışlı
https://aistudio.google.com
“Laplace yaklaşımı”, karmaşık bir olasılık dağılımını basit bir Gauss dağılımına, yani çan eğrisine dönüştürmenin hızlı ve kaba bir yoludur
En yüksek nokta olan modu bulup o noktadaki eğriliği eşleştirerek çalışır
Hızlı ve kolaydır; ancak gerçek dağılım çan şeklinde değilse çok hatalı olabilir ve aşırı güven verebilir
- Bunu, log alanında Taylor serisi yaklaşımının yalnızca ilk iki terimini kullanıp geri kalanını atmak olarak da görebilirsiniz
ETH Zurich’te bu dersi aldım ve en sevdiğim derslerden biriydi. Özellikle belirsizliği nicelleştirme yöntemlerini ve pekiştirmeli öğrenmenin başlangıç yapı taşlarını kurma biçimini beğenmiştim
Veri bilimciler ve makine öğrenimi mühendisleri için harika bir okuma olduğunu düşünüyorum. Bu belge o dersin notlarıdır

Olasılıksal Yapay Zeka Teknolojisi

Olasılıksal AI’ın ele aldığı temel sorunlar

Olasılıksal makine öğrenmesi

Ardışık karar vermede belirsizliğin kullanımı

Hedef okur ve ön bilgiler

Öğrenme yapısı

İlgili okumalar

1 yorum

Hacker News yorumları