2 puan yazan GN⁺ 2024-09-15 | 1 yorum | WhatsApp'ta paylaş

mathstodon.xyz tanıtımı

  • mathstodon.xyz, Mastodon tabanlı merkeziyetsiz sosyal ağın bir parçası olan, matematikle ilgili kullanıcılar için bir instance.
  • Web arayüzünde LaTeX render etmeyi destekliyor.
  • Yönetici: Christian Lawson-Perfect (@christianp)
  • Sunucu istatistikleri: 3K aktif kullanıcı

Terence Tao'nun GPT-o1 deneyi

  • GPT-o1: OpenAI'nin yeni GPT sürümü; LLM çalıştırılmadan önce ilk akıl yürütme aşamasını gerçekleştiriyor.
  • Deney 1: Belirsiz bir matematik sorusuna verdiği yanıtta Cramer's theorem'ı doğru şekilde tanımladı ve tatmin edici bir cevap sundu.
    • Önceki sürüm ilgili kavramlardan söz etmişti ancak ayrıntılar yanlıştı.
  • Deney 2: Karmaşık bir analiz problemi karşısında çok sayıda ipucu ve yönlendirmeyle doğru çözüme ulaştı, ancak temel kavramsal fikri kendi başına üretemedi ve birkaç hata yaptı.
    • Önceki modellere göre gelişmiş olsa da hâlâ yetersiz.
    • Gelecekte birkaç iyileştirmeyle araştırma düzeyindeki işlerde faydalı olabilir.
  • Deney 3: Sonucu Lean'de formelleştirme görevinde problemi iyi anladı ve başlangıç ayrıştırmasını iyi yaptı, ancak güncel Lean bilgisi eksik olduğundan kodda çeşitli hatalar vardı.
    • Lean ve Mathlib'e özelleşmiş bir model, entegre bir IDE içinde çok faydalı olabilir.

Ek tartışma

  • Yapay zeka araçlarının gelişimi: Çeşitli araştırma işlerini ele alabilen bir yapay zeka araçları ekosisteminin ortaya çıkması bekleniyor.
    • Şu anda büyük, genel amaçlı LLM'ler ilgi görüyor; ancak belirli uygulamalara uyarlanmış hafif açık kaynak modellerin de önemli bir rol oynaması bekleniyor.
  • Yapay zeka ve lisansüstü öğrenci karşılaştırması: Yapay zeka araçlarının lisansüstü öğrenci düzeyinde katkı sağlayıp sağlayamayacağına dair tartışma.
    • Şu anda bir lisansüstü öğrenciden daha fazla emek gerektiriyor, ancak önümüzdeki birkaç yıl içinde bu oranın 1'in altına düşmesi mümkün olabilir.

# GN⁺ özeti

  • Terence Tao, matematiksel problem çözme yeteneğini değerlendirmek için OpenAI'nin yeni GPT-o1 modelini test etti.
  • GPT-o1, önceki sürümlere göre gelişmiş olsa da hâlâ bazı sınırlamalara sahip.
  • Gelecekte birkaç iyileştirmeyle araştırma düzeyindeki işlerde faydalı olabilir.
  • Çeşitli yapay zeka araçlarının araştırma çalışmalarını destekleyebileceği bir ekosistemin ortaya çıkması bekleniyor.
  • Şu anda büyük, genel amaçlı LLM'ler öne çıkıyor; ancak belirli uygulamalara uyarlanmış hafif açık kaynak modellerin de önemli bir rol oynaması bekleniyor.

1 yorum

 
GN⁺ 2024-09-15
Hacker News görüşleri
  • GPT, Python gibi Lean (ispat yardımcısı) için de iyi ayarlanırsa araştırma düzeyindeki matematikte daha faydalı olabilir beklentisi var

    • Yöneylem araştırması (OR) ile ilgili alanlarda ChatGPT 4o, OR literatürünü yeterince öğrenmiş görünüyor ve faydalı karma tamsayılı programlama (MIP) formülleri sağlıyor
    • Mantık problemleri verildiğinde kullanışlı matematiksel formüller üretiyor ve yalnızca küçük düzeltmeler gerekiyor
    • Mantığın başarısız olabileceği zayıf formüller konusunda uyararak sorunlardan kaçınmaya yardımcı oluyor
    • Eskiden bütün hafta sonunu kafa patlatarak uğraştıran problemleri GPT çözerek büyük zaman tasarrufu sağlıyor
    • MIP optimizasyonunu anlayan ve problemleri küçük parçalara ayırabilen biri için ChatGPT'nin aylık 20 dolarlık aboneliği fazlasıyla değerli
    • Birçok kişi LLM'leri iyi kullanamıyor ya da aşırı beklentiye giriyor, bu yüzden memnuniyetsizlik yaşıyor
    • LLM'lerin güçlü yanlarını bilen ve hatalarını kontrol edebilen kişiler işlerinde büyük fayda görüyor
  • 2019'a dönüp Alexa ile etkileşim deneyiminin "vasat ama tamamen beceriksiz olmayan bir yüksek lisans öğrencisine akıl vermeye benzemesi" şeklinde anlatıldığını okuduğunuzu hayal edin

    • 5 yıl içinde muazzam bir fark oluştu
  • o1 modeli oldukça şaşırtıcı

    • Bir Rust kodu optimizasyon projesinde büyük hız artışı sağladı ve doğruluğu da doğruladı
    • Jensen-Shannon ayrışımına dayalı yeni bir istatistiksel bağımlılık ölçüsü tasarlayıp uyguladı
    • Büyük vektörlerle (ör. 15.000 boyut ve üzeri) çalışırken hızlı uygulama bulmanın zor olduğu normalize karşılıklı bilgiyi hızlı biçimde uyguladı
    • Başta kusursuz Rust kodu veremedi ama tek bir denemede tüm hataları düzeltti
    • GPT-4o'nun Rust tür hatalarını düzeltmek için birden fazla denemeye ihtiyacı oldu
    • Claude3.5 sonnet, Rust konusunda çok yetersiz
    • Çok zorlayıcı görevlerde büyük yardım sağlıyor
    • Performans optimizasyonu ve görece hatasız kodun yanı sıra yaratıcı problem çözmeyi, geniş matematiksel ve algoritmik bilgiyi birleştirerek hedefi anlayıp gerçekleştiriyor
  • O1 modeliyle ilgili deneyimler çok farklı

    • Basit sorularda bile kafa karışıklığı yaşayabiliyor
  • LLM'lerin çeşitli konularda "vasat ama tamamen beceriksiz olmayan bir yüksek lisans öğrencisine akıl vermeye benzemesi" yeni olan şey

    • Deneyimli olunan alanlarda küçük işleri halletmede çok yardımcı oluyor
    • Problemi küçük parçalara ayırırsanız sağlam işler çıkarıyor
    • Kavramsal anlayış gerekiyor ve prompt becerisi önemli
    • Karmaşık konuları anlamak için LLM kullanıp kavramları uzman doğrulamasıyla teyit ediyorlar
  • İnsanlar da "düşünce zinciri" türü akıl yürütmeden fayda görebilir

    • Matematik çalışan tüm öğrenciler ilgili tanımları ve bilgileri hatırlayabilseydi yetenekleri büyük ölçüde artardı
    • AI'nın duygusal engelleri olmadığı için daha iyi akıl yürütebildiği söyleniyor
  • Terence Tao'nun görüşüne katılıyorlar

    • LLM'ler örüntü eşleme yoluyla performanslarını artırabilir ama gerçek genelleme üretmekte etkili olmayabilir
    • Yeni ya da karmaşık problemlerde halüsinasyonlar ve hatalı akıl yürütme hâlâ görülebilir
  • Matematiği bağımsız bir hobi olarak yeniden çalışmak heyecan verici geliyor

    • LLM'ler sayesinde karmaşık analiz sorularını çözmede büyük yardım alıyorlar
    • LLM'lerin kavramsal bağlantıları hızla bulma yeteneği şaşırtıcı bulunuyor
    • Belirli bir tanımı gevşetip yönlendirilemeyen manifoldlarda karmaşık analiz yapılıp yapılamayacağını sorduklarında, LLM hemen Cauchy-Riemann denklemlerinin küresel olarak tutarlı olmadığını fark etti
    • LLM olmasa bu soruya cevap veremeyeceklerini düşünüyorlar
  • Terence Tao'nun görüşü şaşırtıcı bulunuyor

  • Daniel Litt, o1-preview'dan etkilendi ama ilginç matematik problemlerini çözmede henüz şanslı değil

    • Basit görevlerde daha güvenilir ve matematik dışı işlerde zaman kazandırabilir