OpenAI kurucusunun günlük yaşamda ve işte yapay zekayı kullanma biçimi

(stdy.blog)

46 puan yazan spilist2 2025-03-04 | 3 yorum | WhatsApp'ta paylaş

OpenAI’nin kurucu ortaklarından Andrej Karpathy’nin genel kullanıcılar için hazırladığı yapay zeka ders serisinde 28 Şubat’ta yayımlanan How I use LLMs videosunun ekran görüntüleriyle birlikte hazırlanmış özeti
Çeşitli görselleştirme materyalleri ve Karpathy’nin gerçek kullanım örnekleri çok değerli olduğu için, yalnızca yazılı bir özet videonun hissini yeterince veremediğinden hazırlanmış

Birden fazla türde LLM var

ChatGPT en bilineni ve en çok özelliğe sahip olanı. Bunun dışında öne çıkanlar şunlar

Google’ın Gemini’si
Meta’nın Meta AI’ı
Microsoft’un Copilot’u
Anthropic’in Claude’u
xAI’nin Grok’u
Perplexity
Çin’den DeepSeek
Fransa merkezli Mistral’in Le Chat’i

ChatGPT nasıl çalışır

LLM, internetteki tüm belgelerin 1 TB’lık kayıplı sıkıştırılmış bir zip dosyasına benzer. Bunun içinde trilyonlarca parametreye sahip bir yapay sinir ağı bulunur ve bu ağ olasılıksal olarak “bir sonraki karakteri” üretir

Bu sıkıştırılmış dosya temelde iki tür eğitimden geçirilerek oluşturulur

Ön eğitim: On milyonlarca dolara ve 3 aydan uzun süreye mal olur. Çok pahalı olduğu için sık yapılamaz; bu yüzden de knowledge cutoff oluşur

Sonraki eğitim: Çok daha düşük maliyetli fine-tuning süreci. Amaç yalnızca internet belgelerini tekrar etmek değil, kullanıcının sorularına yanıt veren bir Assistant gibi davranmasını sağlamaktır

Örnek cevapların gösterildiği denetimli eğitim (Supervised Fine-Tuning)
Üretilen cevaplara ilişkin insan tercihleri temel alınarak yapılan pekiştirmeli öğrenme (Reinforcement Learning from Human Feedback)
İnsan sorularına Assistant’ın ideal cevapları temel alınarak yapılan pekiştirmeli öğrenme (Reinforcement Learning on Conversation)

ChatGPT’de yeni bir oturum açılıp kullanıcı mesaj girdiğinde bu metin tokenize edilerek modelin girdisi olur; LLM de bunun üzerinden bir sonraki token’ı üretir. Bu konuşmanın tamamı da (kullanıcı girdisi ve ChatGPT çıktısı) Context Window içinde saklanır.

Context Window, insanın çalışma belleğine benzer ve insanlar gibi onun da sınırları vardır. Context Window uzadıkça hatalı bilgi verme olasılığı biraz artar, ayrıca bir sonraki yanıtı üretmenin maliyeti de biraz yükselir (= yavaşlar).

Bu nedenle gerçekten gerekmedikçe tek bir oturumu çok uzun süre sürdürmek pek iyi bir tercih değildir

“Thinking” modeli ne zaman kullanılmalı

Mevcut ön eğitim/sonraki eğitimden geçmiş LLM’lere, karmaşık STEM (bilim, teknoloji, mühendislik, matematik) problemlerini uzun düşünme süreçleriyle çözebilmeleri için ek olarak pekiştirmeli öğrenme uygulanmış model türü

Birden çok token üreterek “düşündüğü” için maliyet ve süre artar; buna karşılık karmaşık problemlerde yanıt doğruluğu belirgin şekilde yükselir

Yine de “düşünen” modelin bir problemi mutlaka doğru çözeceği ya da tersine “düşünmeyen” modelin doğru çözemeyeceği sanılmamalı (Karpathy’nin verdiği karmaşık bir debug probleminde tüm thinking modeller başarılı olurken ChatGPT-4o başarısız oldu; ancak Sonnet 3.5, Gemini 2.0 Pro ve Grok 3 thinking olmadan da başarılı oldu)

Karpathy önce hızlı dönen non-thinking modeliyle dener, cevap şüpheli görünürse ardından Thinking kullanır

LLM’e yardımcı olan araçlar

İnternet araması

İnternette arama yapabilen modeller de var, yapamayanlar da. (Mutlaka arama olmak zorunda değil ama) bu modelin neler yapabildiğini bilerek kullanmak gerekir

Arama en temel düzeyde, Knowledge Cutoff nedeniyle güncel verilerle ilgili yanıt verememesi yüzünden gereklidir. İlk dönem ChatGPT’de bu yoktu; Perplexity bunu açarak çok sayıda kullanıcı topladı

Model, kullanıcı sorgusuna göre “bunda arama yapmalıyım” diye karar verir; internet araması sonuçlarını tokenize edip Context Window içine koyarak cevap üretir. (Bazı durumlarda açıkça arama yapmasını istemek gerekebilir)

Karpathy son zamanlarda klasik Google araması yerine sık sık Perplexity’ye soruyor. “Bunu Perplexity’ye sormalıyım” şeklinde bir alışkanlık oluşmuş

Google’da aratıp ilk birkaç bağlantıya tıklayarak öğrenebileceğim türdeyse (bugün borsa açık mı, White Lotus 3. sezon ne zaman çekildi gibi)
Bilgi sürekli değişiyorsa ve güncel bilgi gerekiyorsa (Vercel PostgreSQL destekliyor mu, Single’s Inferno 4. sezondaki oyuncular şimdi ne yapıyor gibi)

Deep Research

Kısaca internet araması + Thinking denebilir. Uzun sürerse onlarca dakika arama yapar, ardından bulduğu bilgiyi Thinking ile düzenleyip rapor haline getirir.

ChatGPT Deep Research’ün özelliği, daha iyi bir rapor üretmek için işe başlamadan önce soru sahibinin niyetinin ne olduğunu ve hangi noktaya odaklanması gerektiğini sormasıdır. Benzer özellik Perplexity’de de Deep Research olarak, Grok 3’te ise “Deep Search” olarak bulunuyor. Her birinin hızı ve kalitesi farklı.

İnternet aramasında olduğu gibi burada da yanıtların hatalı olabileceği unutulmamalı. Kaynakları doğrudan kontrol etmek gerekir; yine de “çok faydalı bir taslak”tır

Karpathy yaklaşık 20 kadar Deep Research denemiş ve en iyisinin, en anlamlı bilgiyle en uzun yanıtları verdiği için ChatGPT olduğunu düşünmüş. Denediği başlıklardan bazıları şunlar

Gıda takviyelerindeki belirli bileşenleri anlama
Brave Browser ile Arc Browser arasında güvenlik ve gizlilik açısından hangisinin daha iyi olduğu
Farelerin ömrünü uzatan en yeni teknikler neler? Hangi müdahale yöntemleri denendi? Ben ML tarafındayım ve değerlendirme metriği tanımlayıp artırmaya alışığım; fare ömrü de bu şekilde mi değerlendiriliyor?
ABD içindeki tüm büyük LLM araştırma laboratuvarlarını tablo halinde çıkar. Ne zaman kuruldular, kaç kişi çalışıyor, fon bulma durumları nasıl?

Code Interpreter

LLM’in kod yazıp çalıştırdıktan sonra, kodun çıktısını tekrar bağlama ekleyerek yanıt vermesi. Python da var JavaScript de. İyi kullanılırsa çok güçlü. Adeta zeki bir junior ekip arkadaşı edinmiş gibi

ChatGPT 4o ile veri analizi yapmak
Claude ile bir kitabın içeriğini özetleyen flashcard uygulaması yapmak
Claude ile kitap içeriğini görselleştiren Mermaid diyagramı üretmek
Cursor ile tic-tac-toe oyunu yapıp sadece sohbet ederek kazanan efektini ekleyecek şekilde geliştirmek

Modalite

LLM ile yalnızca metin değil; ses, görsel ve video üzerinden de etkileşim kurulabilir

Ses girdi/çıktısı

Ses girdisi için Karpathy, SuperWhisper, WisprFlow, MacWhisper gibi Mac dikte uygulamalarını kullanıyor. Eskiden yazacağı şeylerin yaklaşık yarısını artık konuşarak yaptığını söylüyor.

Ses çıktısı ise genellikle uygulama içinde özellik olarak sunuluyor. Ekran üzerindeki metinleri seslendirmek de mümkün

Ama bunlar hâlâ temelde metin üzerinden çalışıyor. Önce Speech-to-Text sonra da Text-to-Speech gerektiği için yavaş kalıyor.

Gerçekten yalnızca sesle LLM’le iletişim kurmak da mümkün. Yani ses bilgisinin token’lara dönüştürülmesi. Karpathy buna True Audio diyor; ChatGPT ise Advanced Voice Mode adını kullanıyor.

Farklı tonlama ve hızlarda konuşmasını sağladığı, hatta hayvan sesi taklidi yaptırdığı konuşma demo videosu

Grok 3 de mobil uygulamada Advanced Voice Mode sunuyor. Seksi mod, küfür modu gibi filtresiz modellere sahip olduğu için bazı açılardan daha eğlenceli ve ilgi çekici olabiliyor

Karpathy’nin Grok 3 ile yaptığı konuşma demo videosu

NotebookLM’de dosya yükleyip analiz ettirerek, bu içeriğe dayalı şekilde birden fazla sunucunun doğal seslerle podcast yapmasını sağlamak da mümkün. Araya girip serbestçe soru sormak da yapılabiliyor (Interactive Mode).

Karpathy, uzmanlığının çok güçlü olmadığı ama merak ettiği alanlarda sık sık podcast ürettirip dinlediğini söylüyor. Bu şekilde ürettiği podcast’leri Histories of Mysteris adıyla Spotify’a da yüklemiş

Görsel girdi/çıktısı

Karpathy OCR kullanırken, içeriği sormadan önce her zaman doğru okuyup okumadığını kontrol etme alışkanlığına sahip. Çünkü her zaman yanlış okumuş olma ihtimali var.

Gerçek kullanım örnekleri: gıda takviyesi besin değerlerini kontrol etmek, kan tahlili sonuçlarını yorumlamak, formüllerin LaTeX sürümünü almak, meme’leri yorumlamak gibi

Görsel çıktısı DALL·E, Ideogram gibi araçlarla alınıyor. Görsel üretimi LLM’in içine gömülü bir özellik değil; ayrı bir modele prompt gönderip ardından çıkan görseli geri getiren bir yapı.

Video girdi/çıktısı

Seste olduğu gibi Advanced Voice + Video girdisiyle yanıt alınabiliyor. Bu mobil uygulamada mümkün. LLM büyük olasılıkla videoyu doğrudan girdi olarak almak yerine, videoyu belirli karelere bölüp bunları görsel girdisine dönüştürüyor

Karpathy’nin kendisi bunu sık kullanmıyor ama özellikle ebeveyn kuşağı gibi teknik geçmişi zayıf kişilerin anında soru sorup yanıt alabilmesi açısından iyi buluyor

Demo videosu

Video çıktısı için Sora başta olmak üzere çeşitli modeller var. Karpathy’ye göre şu anda en gerçekçi olan Google Veo 2

9 video modelinin karşılaştırması

Ek özellikler

Memory

Kullanıcıyla konuşurken “bunu hatırlarsam daha iyi yanıt veririm” denilen şeyler ya da kullanıcının açıkça hatırlanmasını istediği bilgiler, Memory Updated ifadesiyle kaydedilir
= Bunlar her yeni sohbet açıldığında Context Window içine dahil ediliyor gibi düşünülebilir. Tam listeyi görüp yönetmek de mümkün

Customize

Kullanıcıya nasıl hitap edileceği, ne iş yaptığı, nasıl yanıt istediği gibi bilgiler girildiğinde bunlar da Context Window içinde yer alarak yanıta yansır
Karpathy bu aralar Korece öğrendiği için bununla ilgili bilgileri ekleyerek denemeler yapıyor

Custom GPTs

Karpathy, Korece çalışmak için birden fazla GPT hazırlayıp kullanıyor. Basit prompt’larla Few-Shot yaklaşımı kullanıyor.

Korean Vocabulary Extractor: Korece cümleleri parçalayıp terimleri çıkarıyor

Korean Detailed Translator: Benzer ama kelime kelime eşleyerek çeviri yapıyor

KoreanCap: Görsel ekran görüntüsü verildiğinde OCR yapıyor, çeviriyor ve telaffuzu da ekleyerek kelimelere ayırıyor

3 yorum

halfenif 2025-03-06

> Olasılıksal olarak "bir sonraki harfi" üretir

Bundan daha yerinde bir açıklama olabileceğini sanmıyorum.

ned0909 2025-03-05

Korece çalışıyor olmanız ilginç.

stadia 2025-03-04

https://youtube.com/watch/… Altyazıyla izleyin