Terence Tao’nun O1 analizi

(mathstodon.xyz)

2 puan yazan GN⁺ 2024-09-15 | 1 yorum | WhatsApp'ta paylaş

Matematikçi Terence Tao, OpenAI’ın yeni GPT ailesi modeli o1’i araştırma matematiği görevlerinde test etti ve önceki modellere göre daha yetenekli olsa da en ileri düzey araştırma problemleri için hâlâ yetersiz olduğu değerlendirmesini yaptı
Belirsiz bir matematik sorgusunda ilgili teorem olan Cramer’s theorem’i bulup tatmin edici bir yanıt verdi; bu, önceki GPT’nin halüsinasyonlu yanıtlarına göre belirgin bir ilerleme
Zor bir karmaşık analiz probleminde ancak çok sayıda ipucu ve yönlendirme verildiğinde doğru çözüme ulaşabildi; temel fikri üretme konusunda hâlâ zayıf olduğu ortaya çıktı
Lean biçimselleştirme deneyinde problemin parçalanması makuldü, ancak Lean ve Mathlib bilgisi eski kaldığı için kod hataları ve kütüphane çağrılarının güvenilirliğiyle ilgili sorunlar devam ediyor
Tao, yapay zekanın önce sıkıcı ve doğrulanabilir alt görevleri doldurduğunda ve biçimsel kanıt yardımcılarıyla birleştirildiğinde matematik araştırmalarında üretkenliği büyük ölçüde artırabileceğini düşünüyor

GPT-o1 hakkında genel değerlendirme

OpenAI’ın yeni GPT ailesi modeli GPT-o1, LLM çalıştırılmadan önce başlangıç niteliğinde bir akıl yürütme aşaması gerçekleştiriyor
Tao’nun eriştiği sürüm bir prototipti; sonraki yanıtlarında ağırlıklı olarak şu anda preview version olarak adlandırılan modeli denediğini belirtti
Genel olarak önceki yinelemelerden daha yetenekli, ancak en ileri araştırma matematiği görevlerinde hâlâ zorlanıyor

Deney 1: Belirsiz matematik sorgusu ve Cramer’s theorem

İlk deney, geçmişte yaptığı bir deneyi tekrarlıyordu
Sorgu, literatürdeki uygun teorem olan Cramer’s theorem bulunmadan çözülemeyen, belirsiz ifade edilmiş bir matematik sorusuydu
Önceki GPT ilgili kavramların bir kısmından söz etmişti, ancak ayrıntılar halüsinasyona yakın anlamsız bir yanıttı
Yeni model Cramer’s theorem’i tespit etti ve Tao’ya göre tamamen tatmin edici bir yanıt sundu

Deney 2: Zor karmaşık analiz problemi

İkinci deneyde, daha önce GPT-4’ten kanıt yazımında yardım istediği zor bir karmaşık analiz problemi yeni modele verildi
Sonuç önceki modelden daha iyiydi, ancak beklentilerin gerisinde kaldı
- Çok sayıda ipucu ve yönlendirme sağlandığında doğru ve iyi yazılmış bir çözüme ulaşabildi
- Temel kavramsal fikri kendi başına üretemedi
- Önemsiz olmayan hatalar da yaptı
Tao, bu deneyimi “tamamen beceriksiz olmayan sıradan bir lisansüstü öğrencinin statik simülasyonuna” rehberlik etmeye benzetti
Önceki model “gerçekten beceriksiz bir lisansüstü öğrencinin statik simülasyonuna” daha yakın olduğu için, bu model gelişmiş bir seviye olarak değerlendirildi
Bir iki performans iyileştirmesi daha yapılır ve bilgisayar cebiri paketleri ile kanıt yardımcıları gibi araçlarla entegre edilirse “yetenekli bir lisansüstü öğrencinin statik simülasyonu” seviyesine ulaşabileceğini düşünüyor
Bu seviyeye gelindiğinde araştırma düzeyindeki görevlerde de oldukça yararlı olabilir

Deney 3: Lean biçimselleştirme görevi

Üçüncü deneyde, yeni modelden Lean içinde asal sayı teoreminin bir biçimini başka bir biçiminden türetme işine başlaması istendi
İstenen şey kanıtın kendisi değil, problemi alt yardımcı lemmalara bölmek ve bu önermeleri biçimselleştirmekti
Sonuç umut vericiydi
- Model görevi iyi anladı
- Problemi makul biçimde başlangıç parçalarına ayırdı
Kısıtlar da belirgindi
- Eğitim verilerinde güncel Lean ve matematik kütüphanesi bilgisi eksikti
- Kodda çeşitli hatalar vardı
Tao, bu düzeyde yetenekli bir modelin Lean ve Mathlib için özel olarak ince ayarlanıp IDE’ye entegre edilmesi hâlinde biçimselleştirme projelerinde çok yararlı olabileceğini düşünüyor

Anlamsal arama ve yaratıcı strateji üretme deneyi

Tao, 2010’da “multiplicative integral” için doğru terimi bulamadığı için MathOverflow’da soru sormuş ve insan uzmanlardan tatmin edici bir yanıt almıştı
Aynı soruyu o1’e yönelttiğinde kusursuz bir yanıt döndürdü
Ancak ilgili MathOverflow gönderisinin modelin eğitim verilerine dahil edilmiş olma ihtimali bulunduğundan, bu anlamsal arama yeteneğinin kesin bir değerlendirmesi olmayabilir
Yine de bazı anlamsal arama sorgularında, kaliteli yanıtlar açısından soru-cevap siteleriyle aynı seviyede görünüyor
Başka bir deneyde Tao, yakın tarihli bir blog yazısının baş kısmını vererek Erdos probleminin mevcut kısmi ilerlemesini tam çözüme dönüştürecek eksik unsuru bulmasını istedi
Bu sonuç bir ölçüde hayal kırıklığı yarattı
- Model, blog yazısında zaten yeniden yazılmış olan güncel araştırmadaki stratejiyle aynı stratejiyi önerdi
- Bu stratejinin yaratıcı bir varyasyonunu ortaya koyamadı
Tao, LLM araçlarının rastgele yaratıcı stratejiler üretme konusunda az da olsa yeteneği olduğunu, ancak bu yönün hâlâ zayıf kaldığını düşünüyor

Lisansüstü öğrenci benzetmesine dair düzeltme

Tao, yapay zeka araçlarının yeteneklerini değerlendirirken insan lisansüstü öğrencilerin statik ve tek boyutlu bir “yetenek” düzeyiyle sınıflandırılabileceği yönünde yanlış ve zararlı olabilecek bir izlenim verdiğini belirterek düzeltme yaptı
Mevcut araştırma projelerine katkıda bulunma becerisinin lisansüstü eğitimin birçok yönünden yalnızca biri ve nispeten küçük bir kısmı olduğunu düşünüyor
Yaratıcılık, bağımsızlık, merak, açıklama becerisi, sezgi, uzmanlık, çalışma etiği, organizasyon gücü, sosyal beceriler gibi alanlarda öne çıkan öğrenciler, kendilerine verilen teknik görevlerde becerikli olan öğrencilerden daha başarılı ve etkili matematikçiler olabilir
İnsan öğrenciler öğrenimleri sırasında öğrenir ve gelişir; başta zorlandıkları alanlarda birkaç yıl sonra yetkin hâle gelebilirler
Buna karşılık modern yapay zeka araçları yanıtlara verilen geri bildirimi bir ölçüde yansıtabilse de, tekil modeller gerçekte uzun vadeli büyüme gösteremez; bu yüzden onları statik performans ölçütleriyle değerlendirmek daha yerindedir
Tao, insan öğrencileri sabit bir zihniyet çerçevesiyle yargılayan yaklaşımın uygun olmadığını söyleyerek özür diledi

Araştırma yardımcısı olarak fayda ve maliyet oranı

Tao’nun karşılaştırma ölçütü, uzman bir matematikçinin yönettiği karmaşık matematik araştırma projelerinde alt görevlere ne ölçüde yardımcı olunabildiği
Yetenekli bir lisansüstü öğrenci, projeye uyum sağlaması ve denetlenmesi için gereken net çabadan daha değerli katkılar sunabilir
Güncel araçlarda, yararlı çıktı elde etmek için uygun şekilde prompt yazma ve doğrulama çabası hâlâ elde edilen faydadan daha büyük
- Tao mevcut oranı yaklaşık 2x~5x olarak ifade ediyor
Birkaç yıl içinde bu oranın 1x’in altına düşme ihtimalini dışlamak için bir neden olmadığını düşünüyor
Oran 1x’in altına indiğinde, bu alanda araçların daha geniş çaplı benimsenmesini tetikleyebilir
Bazı belirli alt görevlerde oranın şimdiden 1’in altında olduğunu düşünüyor
- Anlamsal arama
  - Veri biçimi dönüştürme
  - Matematik araştırmalarını keşfetmeye yardımcı olacak sayısal hesaplama kodu üretme

Lean ve Mathlib’deki eksikler

Tao’nun deneyinde, biçimselleştirme aracı olarak yararlı hâle gelmek için en çok eksik olan şey, çıktıyı güncel Lean ve Mathlib’e dayandırma yöntemi
Lean ve Mathlib her ay gelişmeye devam ediyor
Modelin bir yıldan eski çeşitli Lean ve Mathlib sürümleri üzerinde eğitilmiş gibi göründüğünü, bu sürümlerin de birbirleriyle %100 uyumlu olmadığını düşünüyor
Bunun sonucunda modelin ürettiği sözdizimi ve kütüphane çağrıları güvenilir olmaktan uzak
Ancak güncel Lean ve Mathlib durumunu bilen biri için, küçük hataların çoğunu elle düzeltebilecek kadar yakın

Doğrulanabilir otomasyon ve biçimsel kanıt yardımcıları

Tao’nun aklındaki başlıca kullanım örneği, bir matematikçinin ilke olarak çok sayıda elle çalışma ile çözebileceği problemleri daha hızlı çözmek
Yapay zekanın önce sıkıcı adımları doldurduğu, uzman insanın da çıktıyı gözden geçirdiği bir yaklaşım
Bu durumda yapay zeka gerçek anlamda özgün düşünce göstermese bile üretkenliği büyük ölçüde artırabilir
Şu anda mümkün olandan daha büyük ölçekli araştırma projelerini de mümkün kılabileceğini düşünüyor
Bu araçlar biçimsel kanıt yardımcıları ile entegre edilirse, matematiksel önermelerin kanıtını sunması gereken görevlerin tutarlılığı yüksek güvenle otomatik olarak değerlendirilebilir
Tao, bu tür görevlerin araştırma düzeyindeki görevlerin önemli bir bölümünü kapsadığını düşünüyor

Matematik araştırmaları için yapay zeka araç ekosistemi beklentisi

Tao, çeşitli araştırma görevlerini ele alan bir yapay zeka araç ekosisteminin ortaya çıkmasını bekliyor
Buna literatür arama, kanıt biçimselleştirme, kısa alt problemleri çözme gibi işler dahil
Şu anda en çok dikkati çok büyük, genel amaçlı ve kapalı kaynak LLM’ler çekiyor; ancak bir gün ek iyileştirmeler veya belirli uygulamalar için ince ayar yapmak amacıyla gereken veri ve hesaplamanın marjinal maliyeti aşırı pahalı hâle gelebilir
Araştırma topluluğunun özel ihtiyaçlara göre geliştirdiği daha hafif ve açık kaynak modeller ile veri kümeleri de önemli rol oynayabilir
Genel amaçlı modellerin, daha dar kapsamlı araçları koordine eden kullanıcı dostu bir arayüz rolü görebileceğini düşünüyor

1 yorum

GN⁺ 2024-09-15

Hacker News yorumları

GPT, Python gibi Lean ispat yardımcısına daha fazla göre ince ayarlanırsa, araştırma düzeyi matematikte daha kullanışlı hale geleceğini düşünüyorum
OR ile ilgili bir alanda çalışıyorum ve ChatGPT 4o, OR literatürünü yeterince özümsemiş durumda; çeşitli “problem biçimleri” için epey işe yarar karma tamsayılı programlama (MIP) formülasyonları üretebiliyor
Örneğin “puanlara göre i öğeyi n kovaya yerleştir ama her kovayı sırasıyla doldurmak istiyorum” gibi mantıksal bir problem verirseniz, gerçekten kullanılabilir matematiksel bir formülasyon çıkarıyor ve genelde sadece biraz düzeltmek yetiyor
Mantığın bozulabileceği zayıf formülasyonlar konusunda da uyarıyor; bu da tuzaklardan kaçınmada inanılmaz faydalı
Elbette MIP optimizasyonunu anlamıyorsanız bunu bu amaçla iyi kullanmak zor ve GPT’nin adım adım akıl yürütebilmesi için problemi küçük parçalara bölmeniz gerekiyor, ama bunu bilen biri için ayda 20 dolar fazlasıyla karşılığını veriyor
HN’de ücretli/iyi LLM’lerin, yani Sonnet 3.5 ve GPT-4o’nun işe yaramadığından şikâyet edenler çoğunlukla ya LLM’lerin güçlü yanlarını kullanmayı bilmiyor, ya abartılı tanıtımlar yüzünden tek seferde sihir bekliyor ya da gerçekten kendi alanlarıyla uyuşmuyor gibi görünüyor
LLM’lerin güçlü yanlarından yararlanmayı ve hatalarını doğrulamayı bilenler için işte ciddi bir kaldıraç sağlıyor
- Fayda konusunda tamamen katılıyorum
  HN ve genel olarak internet, LLM’lerin “işe yaramaz” olduğuna dair refleksif küçümseme ve gevezeliğin denizine dönüştü, ama gerçekte birkaç haftadır doğrudan tek satır kod yazmadım
  İstediklerimi paragraflarla tarif ediyor, tuzakların etrafında yönlendirme alıyor ve basit yineleme döngüleriyle çalışan kod elde ediyorum
  Bu tamamen öğrenilmiş bir beceri ve modelle özellikle etrafındaki araçlar gereken taban seviyeye ulaştı
  Sadece sabırla öğrenip onunla çalışma biçimini edinirseniz, çok daha üretken bir dünyaya geçiyorsunuz
  Düzenleme: https://aider.chat/ + ücretli 3.5 Sonnet
- Ben de OR’a yakın bir alanda çalışıyorum ama 4o’dan MIP formülasyonu alma konusunda çok daha az şanslıydım
  Makul görünen cevaplar ve ele avuca gelmez matematiksel açıklamalar üretiyor ama denklemler çalışmıyor ve akıl yürütme birbirine oturmuyor
  Sanki ispatı tuhaf bir matematik dersinde ben aptal mıyım diye düşünüyorsunuz, sonra hocanın kaçmış bir demans hastası olduğunu ve baştan beri saçmaladığını fark ediyorsunuz gibi
  Daha dün o1’e, maksimum akış kullanarak s’den t’ye v’den geçen basit bir yol olup olmadığına bakmasını istedim; çok ikna edici görünen algoritma temelden bozuk çıktı
  Benim çözümüm o başarısız denemedeki bazı teknikleri aldı ama ona defalarca ipucu vermeme rağmen çalışan bir cevap bulamadı; sürekli sadece s→t akışı aramaya çalıştı ve asıl kilit noktanın v→{s,t} olduğunu fark edemedi
  O akıl yürütmeyi doğrulamak da zihinsel olarak fazla yorucu
  İnce şekilde yanlış cevapları tespit edip cezalandırmak, bariz şekilde yanlış cevaplara göre daha zor; öyle ki RLHF’nin akıl yürütmeyi bulanıklaştıracak yönde seçim yapmış olabileceğinden şüpheleniyorum
- Şu anda MIP dersi veriyorum; öğrencilere sorduğum birkaç soruyu 4o’ya da sordum
  x!=y nasıl yapılır, knapsack problemi nasıl kurulur gibi temel yapı taşlarını verebildi ama ders kitabı ezberinin ötesine geçen, azıcık bile ilginç bir soru sorunca hiçbir model doğru çıkmadı gibi görünüyor
  Nasıl daha iyi cevaplar aldığınızı merak ediyorum
  Belki de ben, cevabın yanlış olduğunu görür görmez bırakıp kendim yazdığım için öyledir
  Hatta az önce x ve y, {1..9} aralığında tamsayı değişkenleriyken x!=y’yi formüle edip açıklamasını istedim; kısıtlar doğruydu ama açıklama yanlıştı
- Ben de OR işi yapıyorum ve MILP optimizasyonunda tam tersi bir deneyim yaşadım
  Araştırma sonuçları da benzer; bu yılın başında çıkan büyük bir anket makalesi, LLM’lerin ders kitabı sorularında genel olarak doğru olduğunu ama karmaşıklık ve yenilik arttıkça giderek işe yaramaz hale geldiğini söylüyordu
  Sonuçlar en iyi ihtimalle klişe kalıyor ve ayrıntılı işe girildiğinde ise yanlış anlamaya yol açan sinsi tuzaklara dönüşüyor
  LLM’ye belirli bir kısıtın ne yaptığını sorun ya da daha kötüsü, özel CPLEX sözdizimi şekerindeki matematiksel modeli açıklamasını isteyin; matematiği, sözdizimini ve açıklamayı birden halüsinasyonla dolduruyor
- Refleksif LLM küçümsemesine verilebilecek güzel bir karşılık şu: “Bunu söylemek tam da bir stokastik papağanın yapacağı şey değil mi?”
  HN’nin bir kısmı, konuşan bir köpek C kodu yazsa ama içinde buffer overflow hatası var diye onu görmezden gelecek insanlar olurdu
2019’a geri dönüp, Alexa gibi bir şeyle etkileşim deneyiminin “ortalama ama tamamen beceriksiz olmayan bir lisansüstü öğrenciye danışmaya kabaca benzerdi” dendiğini okuduğunuzu hayal edin
5 yıldaki fark için bu şaşırtıcı bir seviye
- AI’nin ilk büyük ölçüde azaltacağı meslek programcılık gibi görünüyor
  Özellikle çok yetenekli ama uzaktan çalışan bireysel katkıcılar risk altında gibi ve bu forumda bariz bir çıkar çatışması var
- Önemli nokta, insanların çoğunun “ortalama ama tamamen beceriksiz olmayan bir lisansüstü öğrenci” düzeyindeki zekânın bile gerisinde olması gibi görünüyor
  Ortalama bir fen bilimleri lisansüstü öğrencisi, özellikle de bırakmayıp mezun olan türden biri, çoğumuzla kıyaslandığında çok etkileyici bir insandır
  “Bizim” için böyle bir zekâyı bütün gün yardımcı olarak kullanabilmek, token maliyetini karşılayabiliyorsanız, hayat kalitesinde muazzam bir sıçrama demek
- 1950’ye geri dönüp geleceğin botlarla sohbet edip matematik ödevi çözmek olduğunu okuma sahnesini de düşünebilirsiniz
- Bu yüzden yapay zeka çağının bir abartı değil, oldukça gerçek olduğunu düşünüyorum
  Jensen, AI’nin iPhone çağına ulaştığını söylemişti
  Önümüzdeki 5-10 yıl içinde insanlar buna hangi tanımı yapıştırırsa yapıştırsın AGI ya da ASI gelmeyecek, ama AI’ye yardımcı zekâ ya da artırılmış zekâ demeyi çoğu zaman daha uygun buluyorum
  En az 5-10 yıl, yani 3-4 yenileme döngüsü boyunca mevcut bilgisayar ve akıllı telefon satışlarını itecek kadar değer sağlayacak
- Terry, LLM’lerden bu değeri çıkarabilen bir dâhi
  Ortalama bir insan henüz bunu yapamıyor
  Hem modellere iyi prompt veremiyorlar hem de hayatlarındaki sorunlar baştan sona metin tabanlı değil
o1 modeli gerçekten şaşırtıcı
Hızlı vektör benzerliği projesinde zaten oldukça optimize edilmiş Rust kodunda ciddi bir hız artışı elde etti ve bunu titiz benchmark’lar ile doğruluk doğrulamasıyla teyit etti
Bununla da kalmayıp Jensen-Shannon ayrışımına dayalı yeni bir istatistiksel bağımlılık ölçüsünü yeniden tasarlayıp kavramsallaştırmama yardımcı oldu ve bu da çok iyi çalıştı
Ayrıca normalize karşılıklı bilginin ultra hızlı bir implementasyonunu da oluşturdu; bunu aslında kütüphaneye eklemek istiyordum ama 15.000 boyut ve üstü gibi büyük vektörlerde yeterince hızlı bir yöntem bulamamıştım
İlk seferde derlenen kusursuz Rust kodu veremedi ama VS Code derleyici uyarılarını yapıştırınca bir kez daha denedi ve tüm hataları düzeltti
Buna karşılık GPT-4o ile Rust tip hataları, lifetime/borrow hataları vb. düzeltmek çoğu zaman onlarca deneme sürüyordu ve Claude 3.5 Sonnet ise nedense Rust konusunda düpedüz aptalcaydı
Sadece performans optimizasyonu ve nispeten hatasız kod değil, yaratıcı problem çözme, geniş temel matematik/algoritma bilgisi ile güncel araştırma sonuçlarını sentezleme ve benim başarmaya çalıştığım şeyi anlayıp gerçekten yapabilme yeteneği birleşince gerçekten bir oyun değiştirici gibi hissettiriyor
Kod dosyası değişiklik diff’i burada: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- İnsanlara yılda 500 bin dolar verip işe almanın önemli bir kısmı, LLM’lerin hâlâ anlayamadığı devasa mevcut sistemlerle çalışmaları içindir
  Yine de küçük bir kütüphaneyi optimize etmek ve hızlı fonksiyonlar yazmak herhangi bir programcının araç kutusunda büyük bir iyileşme demek
- Artık ilişkilendirip referans verebileceğimiz bir para miktarı var
o1 ile benim deneyimim çok farklıydı ve benim ölçütlerime göre “iyi bir lisans öğrencisi” seviyesinde bile değildi
Örneğin burada oldukça basit bir soru sordum ama tamamen kafası karıştı
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
Tüm konuşma burada olmalı: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- Anekdotsal olacak ama bana göre O1, 4o ve Claude 3.5 Sonnet’ten daha kötüydü
  Üstelik daha yavaş ve daha geveze
- LLM’leri geometriyle eğitmeyi düşününce, kaynak materyaldeki bilginin büyük kısmı metnin yanındaki şekillerin içindedir
  Bu model multimodal olmadığı için ekli şekiller üzerinden hiç eğitilmemiş olabilir
  İnsanların geometri problem setleriyle analiz problem setlerini kontrol edip farkı karşılaştırması iyi olurdu
- Neden bunu müşteri destek temsilcisi gibi konuşacak şekilde yaptıklarını bilmiyorum
  Buradaki ideal deneyim kısa ve öz bir yanıt; uzun, yağcı bir yanıt değil
- kesik ikosidodekahedron hacmi hesabındaki hatanın ne olduğunu bulup bulmadığını merak ediyorum
Benim için yeni olan şey, “deneyimi vasat ama tamamen beceriksiz olmayan bir lisansüstü öğrenciye tavsiye vermeye benziyordu” ifadesinin bu kadar çok alanda geçerli olmasıydı
LLM ile toparlama ve anlama konusunda büyük değer elde ettim
Çok iyi bildiğim alanlarda bana çok sayıda küçük angarya işi hallederek yardımcı oluyor
Terence’in üçüncü deneyde işaret ettiği gibi, problemi parçalara bölersen küçük boşlukları doldurma işini oldukça sağlam yapıyor
Yine de kavramsal anlayış gerekiyor ve biraz da prompt becerisi işin içinde
Bilmediğin alanlara girerken prompt’ları katman katman inşa etmen gerekiyor
Cevap biliniyorsa küçük ve somut şeylerden başlayıp dışarı doğru genişlemek iyi oluyor; dışarıdan içeri giderken de somut ve odaklı başlamak daha iyi
Hiç bilmediğim çok karmaşık bir konunun kavramsal katmanlarını delip geçmek, ardından kavramları YouTube uzmanları, araştırma makaleleri ve güvenilir kaynaklarla doğrulamak için kullandım ve bu inanılmaz bir araç
- Benim deneyimim de aynı
  LLM’lere, benim bizzat yapmaya vakit ayıramadığım ayak işlerini yapan bir stajyer veya junior gibi davranıyorum
  Gözetmek, yardım etmek ve hatalarını kontrol etmek gerekiyor ama sonunda yine de faydalı sonuçlar alıyorum
  Tutum açısından, stajyer yönetmiş ya da junior mentorluğu yapmış kişilerin LLM’lerden, özellikle ücretli modellerden, değer çıkarmakta daha iyi olacağını düşünüyorum
  Tersine, kariyerimin başında benim de olduğum gibi, insanlardan nasıl değer çıkaracağını bilmeyen tecrübeli yalnız kurt bireysel katkıcılar bunu daha kötü kullanabilir
“Terence Tao gibi yaratıcı matematiksel sıçramalar yapabilmeli” demek, yapay zeka için epey yüksek bir çıta gibi görünüyor
Programlama mülakatında, görüşmecinin kendi ekibinin çözmesi aylar süren bir problemi anlattıktan sonra, Google kullanmadan 40 dakika içinde çözümü beyaz tahtaya yazamazsan hayal kırıklığına uğramasına benziyor
- Terence Tao gibi insanlarla çalışma deneyimime göre, ben o seviyeye hiç yaklaşmıyorum ama onlar her tür yaratıcılığı arıyor
  Ne gelirse kabul ediyorlar; ille de “onların seviyesi” olmak zorunda değil
  Yazdıklarını okuyup kendi deneyimimle karşılaştırınca, böyle bir tasvirin isabetsiz olduğunu düşünüyorum
  Bu yılın başında IMO’daki konuşmasında da vardım; bazı etkileşimlerden etkilendi ama hâlâ bir tür yaratıcı kıvılcımın eksik olduğunu hissetti
- Bu kadar yüksek bir standardı çıkarsamaya gerek yok
  Gerçekte söylediği şey daha somuttu: “Buradaki sonuç biraz hayal kırıklığı yarattı... model özünde, problemin güncel çalışmalarında zaten belirlenmiş stratejileri ve benim blog yazısında yeniden yazdığım stratejileri önerdi, ama bu stratejilerin yaratıcı varyasyonlarını sunmadı”
  Kilit nokta, o blog yazısının kendisinin ChatGPT girdisinin bir parçası olması
  Bunun dışında, ileride daha kullanışlı olacağı bir gelecek öngörse de, şu anda AI/ChatGPT’yi yalnızca referans biçimlendirme ve basit “Hello World” tarzı kod yazımı için kullandığını da açıkça söylemişti
  İnternette araştırmalarında ChatGPT’yi sürekli kullandığına dair birçok iddia var ama kodlama kullanımının ötesi pek doğru görünmüyor
  Yine de “Terence Tao’nun araştırmasına yardımcı olabilir” ifadesi gerçekten yüksek bir çıta
- Bunu gözlemleyen yalnızca Terence Tao değil
  ChatGPT ile öğretici düzeydeki kodlardan daha karmaşık bir program yazmayı ya da temel bir blog yazısı oluşturmayı denerseniz, yaratıcılığının eksik olduğunu ve kod tasarımının da zayıf kaldığını görürsünüz
- Benim aklıma ilk gelen şey de tam olarak buydu
  Hâlen yaşayan insanlar arasında IQ’su en yüksek sayılabilecek biri, bilgisayar Nobel düzeyinde matematiksel akıl yürütme üretemiyor diye etkilenmiş olsa da tam tatmin olmuyorsa, bu başlı başına dev bir gösterge bence
  O zaman matematik doktorasının ilk yılındaki biri ne düşünmeli?
  Tao, önceki yazısında aslında “o1 neredeyse bir lisansüstü öğrenci gibi” diyerek buna dolaylı biçimde değinmiş gibiydi
İnsanların da düşünce zinciri tarzı akıl yürütmeden fayda sağlayabilmesi ilginç
Aslında matematik çalışan her öğrencinin, ilgili tanım ve bilgileri kullanmadan önce önce hepsini hatırlamaya zorlanması durumunda yetkinliğinin ciddi biçimde artacağını düşünüyorum
Gerçekte bunu öğretmenler, hatta matematikçiler bile yapmıyor; çünkü hatırlama çaba gerektiriyor ve problemi çözmek için gerekenden fazla çaba harcamak istemiyoruz
Hatırlama başarısız olursa bilgiyi açıp bakmak gerekiyor, bu da daha fazla çaba demek; bu yüzden pratikte sadece “sezgisel olarak ittirip geçmeye” güçlü bir teşvik oluşuyor
Yapay zekanın boşa çaba harcamaya karşı duygusal bir bariyeri olmadığı için, doğuştan gelen kapasitesinin ötesinde daha iyi bir akıl yürütücü oluyor
- Sınavlarda çözüm adımlarını göstermek bir tür “düşünce zinciri” akıl yürütmesine benziyor ama biraz farklı
  İkisi de süreci adım adım parçalamayı sağlıyor; böylece mantık korunuyor ve önemli adımlar atlanmıyor
  Ama çözüm adımlarını göstermek daha çok doğru prosedürü kanıtlamaya yakınken, “düşünce zinciri” akıl yürütmesi ilerlerken ilgili tanım ve kavramları hatırlatıp daha derin bir anlayışı güvence altına alıyor
  İkisinin de amacı sezgiyle ittirip geçmekten kaçınmak; ama “düşünce zinciri”, insanların kolayca kaçındığı hatırlama boyutuna daha derinden giriyor
- Bu bakış açısını gerçekten çok beğendim
  Düşünce zincirinin LLM’lere yardımcı olduğuna dair bu kadar çok kanıt görmeme rağmen, bunu kendimde daha fazla kullanmayı hiç düşünmemiştim
  Elbette bir ölçüde zaten yapıyorum ama genelde bir LLM kadar değil
  Belki de bu yüzden yazmak sık sık mükemmel bir düşünme yöntemi olarak övülüyor
  Yazmak, daha az çabayla daha uzun düşünce zincirlerini mümkün kılıyor
- Takıldığım bir matematik problemini çözerken herkesin zaten böyle yaptığını sanıyordum
  Okul matematiğinden değil, üniversite düzeyi matematikten söz ediyorum
  Ders verirken de hep tanımlara dönmeye zorlardım
  Matematik araştırmasında olağanüstü değildim; doktora ve postdoc yaptıktan sonra bıraktım ama deneyimime göre araştırma, problem üzerine derinlemesine düşünüp neler olduğunu kavramaya ve onu bir şekilde parçalara ayırmaya çalışmak olduğu kadar, o problemle ilgili bildiğin her şeyi taramak ve benzer problemler bulup oradan fikir çalınabilir mi diye bakmak demekti
Bağımsız bir merak hobisi olarak yakında yeniden matematik çalışmaya dönmeyi düşündüğüm için çok heyecanlıyım
Bu kez çalışırken LLM’lere dayanabilmek çok eğlenceli olacak gibi geliyor
Tesadüfen, Terence Tao gibi ben de ders kitaplarına bakarken daha iyi anlamak için LLM’lere kompleks analiz soruları soruyordum
Açık uçlu matematik sorularını yorumlama, yardımcı ve ilgili uzak kavramsal bağlantıları hızla bulma becerisi şaşırtıcı
Fields Madalyası sahibi Profesör Tao, doğal olarak mevcut matematik LLM’lerine “tamamen beceriksiz olmayan lisansüstü öğrenciler” gibi yukarıdan bakıyor; ama bu benim şu anki yetenek seviyemde, benim için bakıp yetişmeye çalışılacak bir seviye demek
6 ay önce etkileyici bulduğum bir örnek olarak, Klein şişesi gibi yönlendirilemeyen manifoldlarda da kompleks analizin mümkün olabilmesi için hangi tanımın gevşetilebileceğini sormuştum; uzun zamandır düşündüğüm bir soruydu ve LLM anında Cauchy-Riemann denklemlerinin küresel olarak tutarsız hâle geldiğini fark etti
Bir bakıma, CR’nin keyfi işaret konvansiyonu manifold üzerindeki yönü tanımlıyor ve manifold yönünü ters çevirmek, i’yi -i ile değiştirmekle aynı şey
Bunu, LLM bana böyle bakmayı önerdiği için artık anlıyorum
Elbette bu, LLM’nin özgün düşüncesi değil; muhtemelen bir yerde son derece uzmanlaşmış bir lisansüstü ders kitabında yazan bir matematik
Ama bu benim için önemli değil
Nereden başlayacağını neredeyse hiç bilmediğin böyle soruları, LLM ya da doktora düzeyinde bir alan uzmanı olmadan yanıtlamak kesinlikle mümkün değil
Bu tür anlamsal düzeyde aramayı erişilebilir kılan başka bir araç yok ve bu çok güçlü ama alışılmadık aracın en iyi nasıl kullanılacağını dikkatle düşünmeye çalışıyorum
- Dünyadaki neredeyse tüm ders kitapları üzerinde bir tür anlamsal tam metin arama motoru kullanıyor gibi hissettiriyor; bu cevapları bulduğu tam ders kitabı referansını da gösterebilse daha da iyi olurdu
- O cevabın doğru olup olmadığını nasıl anlıyorsunuz?
- Bunun gibi bir performansın nasıl ölçüleceğini de merak ediyorum
  Benchmark’lar ya çözülüp ezberleniyor ya da eğitime karışıyor; ayrıca bu tür sorgular için Chatbot Arena’da yeterli sinyal olması da pek mümkün görünmüyor
  Birkaç ay içinde ortalama kullanıcının başlıca modeller arasındaki performans farklarını ayırt edemeyeceğini düşünüyorum
Terence Tao'ya tamamen katılıyorum
Bu gerçek bir ilerleme
LLM'lerin akıl yürütmeyi taklit edecek şekilde eğitilebilmesi için uygun veri varsa performansın iyileştirilebileceğine hep inandım
Ama bu hâlâ örüntü eşleme ve bu yaklaşımın gerçek genelleme üretmede pek etkili olmayabileceğinden şüpheleniyorum
Bu yüzden o1 genel kullanıma açıldığında, takviyeli öğrenme aşamasında modelin öğrendiği “akıl yürütme programları” veya “akıl yürütme kalıpları”nın ötesine geçen yeterince yeni ya da karmaşık problemlerde sürekli halüsinasyonlar ve hatalı akıl yürütmeler görmemiz çok olası
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Bana göre o1 modeli iyi olduğu zamanlarla kötü olduğu zamanlar arasında gidip geliyor
Bir yandan denediğim her gün NYT Connections oyununu[0] çözdü[1]; Claude Sonnet 3.5 dahil diğer modeller bunu yapamadı
Öte yandan GPT-4o gibi önemli ayrıntıları kaçırıyor ve halüsinasyon görüyor
Doğru cevaba ulaşması için çoğu zaman elimden tutup düzeltmem gerekiyor; bu yüzden bazen keşke doğrudan kendim yapsaydım diye düşünüyorum
Bu kez de cevabı beklemek 20-60 saniye sürdüğü için daha da kötü
Belki de o1'in çok iyi olduğu alanlar benim gerçekten ihtiyaç duymadığım şeylerdir
Ben geleneksel STEM'den değil, yazılım mühendisliği tarafındayım ve o1 henüz gecikme süresini haklı çıkaracak kadar çok daha iyi değil
Henüz keşfetmediğim alan, onu uygulama planları ya da mimari değişiklik planları yazmak için kullanmak
Bu konuda daha iyi olabilir, ama ona doğru problemi vermek gerekiyor
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Terence Tao’nun O1 analizi

GPT-o1 hakkında genel değerlendirme

Deney 1: Belirsiz matematik sorgusu ve Cramer’s theorem

Deney 2: Zor karmaşık analiz problemi

Deney 3: Lean biçimselleştirme görevi

Anlamsal arama ve yaratıcı strateji üretme deneyi

Lisansüstü öğrenci benzetmesine dair düzeltme

Araştırma yardımcısı olarak fayda ve maliyet oranı

Anlamsal arama

Lean ve Mathlib’deki eksikler

Doğrulanabilir otomasyon ve biçimsel kanıt yardımcıları

Matematik araştırmaları için yapay zeka araç ekosistemi beklentisi

İlgili okumalar

1 yorum

Hacker News yorumları