- OpenAI’nin kurucu ortaklarından Andrej Karpathy’nin genel kullanıcılar için hazırladığı yapay zeka ders serisinde 28 Şubat’ta yayımlanan How I use LLMs videosunun ekran görüntüleriyle birlikte hazırlanmış özeti
- Çeşitli görselleştirme materyalleri ve Karpathy’nin gerçek kullanım örnekleri çok değerli olduğu için, yalnızca yazılı bir özet videonun hissini yeterince veremediğinden hazırlanmış
Birden fazla türde LLM var
ChatGPT en bilineni ve en çok özelliğe sahip olanı. Bunun dışında öne çıkanlar şunlar
- Google’ın Gemini’si
- Meta’nın Meta AI’ı
- Microsoft’un Copilot’u
- Anthropic’in Claude’u
- xAI’nin Grok’u
- Perplexity
- Çin’den DeepSeek
- Fransa merkezli Mistral’in Le Chat’i
ChatGPT nasıl çalışır
LLM, internetteki tüm belgelerin 1 TB’lık kayıplı sıkıştırılmış bir zip dosyasına benzer. Bunun içinde trilyonlarca parametreye sahip bir yapay sinir ağı bulunur ve bu ağ olasılıksal olarak “bir sonraki karakteri” üretir
Bu sıkıştırılmış dosya temelde iki tür eğitimden geçirilerek oluşturulur
Ön eğitim: On milyonlarca dolara ve 3 aydan uzun süreye mal olur. Çok pahalı olduğu için sık yapılamaz; bu yüzden de knowledge cutoff oluşur
Sonraki eğitim: Çok daha düşük maliyetli fine-tuning süreci. Amaç yalnızca internet belgelerini tekrar etmek değil, kullanıcının sorularına yanıt veren bir Assistant gibi davranmasını sağlamaktır
- Örnek cevapların gösterildiği denetimli eğitim (Supervised Fine-Tuning)
- Üretilen cevaplara ilişkin insan tercihleri temel alınarak yapılan pekiştirmeli öğrenme (Reinforcement Learning from Human Feedback)
- İnsan sorularına Assistant’ın ideal cevapları temel alınarak yapılan pekiştirmeli öğrenme (Reinforcement Learning on Conversation)
ChatGPT’de yeni bir oturum açılıp kullanıcı mesaj girdiğinde bu metin tokenize edilerek modelin girdisi olur; LLM de bunun üzerinden bir sonraki token’ı üretir. Bu konuşmanın tamamı da (kullanıcı girdisi ve ChatGPT çıktısı) Context Window içinde saklanır.
Context Window, insanın çalışma belleğine benzer ve insanlar gibi onun da sınırları vardır. Context Window uzadıkça hatalı bilgi verme olasılığı biraz artar, ayrıca bir sonraki yanıtı üretmenin maliyeti de biraz yükselir (= yavaşlar).
Bu nedenle gerçekten gerekmedikçe tek bir oturumu çok uzun süre sürdürmek pek iyi bir tercih değildir
“Thinking” modeli ne zaman kullanılmalı
Mevcut ön eğitim/sonraki eğitimden geçmiş LLM’lere, karmaşık STEM (bilim, teknoloji, mühendislik, matematik) problemlerini uzun düşünme süreçleriyle çözebilmeleri için ek olarak pekiştirmeli öğrenme uygulanmış model türü
Birden çok token üreterek “düşündüğü” için maliyet ve süre artar; buna karşılık karmaşık problemlerde yanıt doğruluğu belirgin şekilde yükselir
Yine de “düşünen” modelin bir problemi mutlaka doğru çözeceği ya da tersine “düşünmeyen” modelin doğru çözemeyeceği sanılmamalı (Karpathy’nin verdiği karmaşık bir debug probleminde tüm thinking modeller başarılı olurken ChatGPT-4o başarısız oldu; ancak Sonnet 3.5, Gemini 2.0 Pro ve Grok 3 thinking olmadan da başarılı oldu)
Karpathy önce hızlı dönen non-thinking modeliyle dener, cevap şüpheli görünürse ardından Thinking kullanır
LLM’e yardımcı olan araçlar
İnternet araması
İnternette arama yapabilen modeller de var, yapamayanlar da. (Mutlaka arama olmak zorunda değil ama) bu modelin neler yapabildiğini bilerek kullanmak gerekir
Arama en temel düzeyde, Knowledge Cutoff nedeniyle güncel verilerle ilgili yanıt verememesi yüzünden gereklidir. İlk dönem ChatGPT’de bu yoktu; Perplexity bunu açarak çok sayıda kullanıcı topladı
Model, kullanıcı sorgusuna göre “bunda arama yapmalıyım” diye karar verir; internet araması sonuçlarını tokenize edip Context Window içine koyarak cevap üretir. (Bazı durumlarda açıkça arama yapmasını istemek gerekebilir)
Karpathy son zamanlarda klasik Google araması yerine sık sık Perplexity’ye soruyor. “Bunu Perplexity’ye sormalıyım” şeklinde bir alışkanlık oluşmuş
- Google’da aratıp ilk birkaç bağlantıya tıklayarak öğrenebileceğim türdeyse (bugün borsa açık mı, White Lotus 3. sezon ne zaman çekildi gibi)
- Bilgi sürekli değişiyorsa ve güncel bilgi gerekiyorsa (Vercel PostgreSQL destekliyor mu, Single’s Inferno 4. sezondaki oyuncular şimdi ne yapıyor gibi)
Deep Research
Kısaca internet araması + Thinking denebilir. Uzun sürerse onlarca dakika arama yapar, ardından bulduğu bilgiyi Thinking ile düzenleyip rapor haline getirir.
ChatGPT Deep Research’ün özelliği, daha iyi bir rapor üretmek için işe başlamadan önce soru sahibinin niyetinin ne olduğunu ve hangi noktaya odaklanması gerektiğini sormasıdır. Benzer özellik Perplexity’de de Deep Research olarak, Grok 3’te ise “Deep Search” olarak bulunuyor. Her birinin hızı ve kalitesi farklı.
İnternet aramasında olduğu gibi burada da yanıtların hatalı olabileceği unutulmamalı. Kaynakları doğrudan kontrol etmek gerekir; yine de “çok faydalı bir taslak”tır
Karpathy yaklaşık 20 kadar Deep Research denemiş ve en iyisinin, en anlamlı bilgiyle en uzun yanıtları verdiği için ChatGPT olduğunu düşünmüş. Denediği başlıklardan bazıları şunlar
- Gıda takviyelerindeki belirli bileşenleri anlama
- Brave Browser ile Arc Browser arasında güvenlik ve gizlilik açısından hangisinin daha iyi olduğu
- Farelerin ömrünü uzatan en yeni teknikler neler? Hangi müdahale yöntemleri denendi? Ben ML tarafındayım ve değerlendirme metriği tanımlayıp artırmaya alışığım; fare ömrü de bu şekilde mi değerlendiriliyor?
- ABD içindeki tüm büyük LLM araştırma laboratuvarlarını tablo halinde çıkar. Ne zaman kuruldular, kaç kişi çalışıyor, fon bulma durumları nasıl?
Code Interpreter
LLM’in kod yazıp çalıştırdıktan sonra, kodun çıktısını tekrar bağlama ekleyerek yanıt vermesi. Python da var JavaScript de. İyi kullanılırsa çok güçlü. Adeta zeki bir junior ekip arkadaşı edinmiş gibi
- ChatGPT 4o ile veri analizi yapmak
- Claude ile bir kitabın içeriğini özetleyen flashcard uygulaması yapmak
- Claude ile kitap içeriğini görselleştiren Mermaid diyagramı üretmek
- Cursor ile tic-tac-toe oyunu yapıp sadece sohbet ederek kazanan efektini ekleyecek şekilde geliştirmek
Modalite
LLM ile yalnızca metin değil; ses, görsel ve video üzerinden de etkileşim kurulabilir
Ses girdi/çıktısı
Ses girdisi için Karpathy, SuperWhisper, WisprFlow, MacWhisper gibi Mac dikte uygulamalarını kullanıyor. Eskiden yazacağı şeylerin yaklaşık yarısını artık konuşarak yaptığını söylüyor.
Ses çıktısı ise genellikle uygulama içinde özellik olarak sunuluyor. Ekran üzerindeki metinleri seslendirmek de mümkün
Ama bunlar hâlâ temelde metin üzerinden çalışıyor. Önce Speech-to-Text sonra da Text-to-Speech gerektiği için yavaş kalıyor.
Gerçekten yalnızca sesle LLM’le iletişim kurmak da mümkün. Yani ses bilgisinin token’lara dönüştürülmesi. Karpathy buna True Audio diyor; ChatGPT ise Advanced Voice Mode adını kullanıyor.
- Farklı tonlama ve hızlarda konuşmasını sağladığı, hatta hayvan sesi taklidi yaptırdığı konuşma demo videosu
Grok 3 de mobil uygulamada Advanced Voice Mode sunuyor. Seksi mod, küfür modu gibi filtresiz modellere sahip olduğu için bazı açılardan daha eğlenceli ve ilgi çekici olabiliyor
- Karpathy’nin Grok 3 ile yaptığı konuşma demo videosu
NotebookLM’de dosya yükleyip analiz ettirerek, bu içeriğe dayalı şekilde birden fazla sunucunun doğal seslerle podcast yapmasını sağlamak da mümkün. Araya girip serbestçe soru sormak da yapılabiliyor (Interactive Mode).
- Karpathy, uzmanlığının çok güçlü olmadığı ama merak ettiği alanlarda sık sık podcast ürettirip dinlediğini söylüyor. Bu şekilde ürettiği podcast’leri Histories of Mysteris adıyla Spotify’a da yüklemiş
Görsel girdi/çıktısı
Karpathy OCR kullanırken, içeriği sormadan önce her zaman doğru okuyup okumadığını kontrol etme alışkanlığına sahip. Çünkü her zaman yanlış okumuş olma ihtimali var.
Gerçek kullanım örnekleri: gıda takviyesi besin değerlerini kontrol etmek, kan tahlili sonuçlarını yorumlamak, formüllerin LaTeX sürümünü almak, meme’leri yorumlamak gibi
Görsel çıktısı DALL·E, Ideogram gibi araçlarla alınıyor. Görsel üretimi LLM’in içine gömülü bir özellik değil; ayrı bir modele prompt gönderip ardından çıkan görseli geri getiren bir yapı.
Video girdi/çıktısı
Seste olduğu gibi Advanced Voice + Video girdisiyle yanıt alınabiliyor. Bu mobil uygulamada mümkün. LLM büyük olasılıkla videoyu doğrudan girdi olarak almak yerine, videoyu belirli karelere bölüp bunları görsel girdisine dönüştürüyor
Karpathy’nin kendisi bunu sık kullanmıyor ama özellikle ebeveyn kuşağı gibi teknik geçmişi zayıf kişilerin anında soru sorup yanıt alabilmesi açısından iyi buluyor
Video çıktısı için Sora başta olmak üzere çeşitli modeller var. Karpathy’ye göre şu anda en gerçekçi olan Google Veo 2
Ek özellikler
Memory
- Kullanıcıyla konuşurken “bunu hatırlarsam daha iyi yanıt veririm” denilen şeyler ya da kullanıcının açıkça hatırlanmasını istediği bilgiler,
Memory Updatedifadesiyle kaydedilir
= Bunlar her yeni sohbet açıldığında Context Window içine dahil ediliyor gibi düşünülebilir. Tam listeyi görüp yönetmek de mümkün
Customize
- Kullanıcıya nasıl hitap edileceği, ne iş yaptığı, nasıl yanıt istediği gibi bilgiler girildiğinde bunlar da Context Window içinde yer alarak yanıta yansır
- Karpathy bu aralar Korece öğrendiği için bununla ilgili bilgileri ekleyerek denemeler yapıyor
Custom GPTs
Karpathy, Korece çalışmak için birden fazla GPT hazırlayıp kullanıyor. Basit prompt’larla Few-Shot yaklaşımı kullanıyor.
Korean Vocabulary Extractor: Korece cümleleri parçalayıp terimleri çıkarıyor
Korean Detailed Translator: Benzer ama kelime kelime eşleyerek çeviri yapıyor
KoreanCap: Görsel ekran görüntüsü verildiğinde OCR yapıyor, çeviriyor ve telaffuzu da ekleyerek kelimelere ayırıyor
3 yorum
> Olasılıksal olarak "bir sonraki harfi" üretir
Bundan daha yerinde bir açıklama olabileceğini sanmıyorum.
Korece çalışıyor olmanız ilginç.
https://youtube.com/watch/… Altyazıyla izleyin