[2026/06/08 ~ 14] Bu Hafta Göz Atmaya Değer AI/ML Makaleleri Derlemesi
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
Bu hafta seçilen 10 makaleye baktığımızda, yapay zeka araştırmalarının yalnızca model performansını artırmanın ötesine geçerek otonomi, güvenilirlik ve verimlilik sınırlarını aşmaya çalışan üç belirgin eğilim sergilediğini görebiliyoruz.
1️⃣ Otonom öz-iyileştirme ve çok etmenli sistemlerin evrimi: Bu haftaki makalelerde, etmenlerin insanlardan gelen açık talimatların ya da sabit yörüngelerin ötesine geçip kendi yapılarını kuran ve zayıflıklarını iyileştiren otonom sistemlere dönüşmesi öne çıkıyor. Economy of Minds ve AutoScientists, merkezi kontrol olmadan etmenlerin ekonomik etkileşimler (açık artırma, sermaye birikimi) ya da ortak forumlar üzerinden kendiliğinden rol paylaşımı yapıp uzun vadeli keşiflerini sürdürdüğü dağıtık iş birliği sistemleri önerdi. Ayrıca Self-Harness, etmenlerin geçmiş başarısızlık örüntülerini analiz ederek sistem prompt'unu ve işletim politikalarını (Harness) yinelemeli biçimde değiştirmesiyle kendi performansını artırdığı bir çerçeve sundu. Bu, yapay zekanın tekil görevleri yerine getiren pasif bir araç olmanın ötesine geçip uzun vadeli planlama ve iş birliği yürüten etkin bir evrim öznesine dönüştüğünü gösteriyor.
2️⃣ Yapay zeka yeteneklerinin titiz doğrulanması ve tamamlayıcı kullanım (hibrit): Yapay zekanın yüzeysel performansının arkasındaki gerçek sınırlamaları ortaya koyan ve bunları insanlarla ya da klasik algoritmalarla birleştirerek aşmaya çalışan sorgulayıcı araştırmalar da önemli bir eğilim oluşturuyor. LiveBrowseComp, arama etmenlerinin gerçekte yeni bilgi keşfetmekten çok modelin içindeki önbilgiyi doğrulamakla yetindiği kör noktaya dikkat çekti; AI reviewer araştırması ise yapay zekanın ince hata tespitinde güçlü olmasına rağmen uzun vadeli bağlamı kavramakta zayıf kaldığını ve insan hakemlerin yerini tamamen alamayan bir “tamamlayıcı” olduğunu ampirik olarak gösterdi. Buna ek olarak hiperparametre optimizasyonu (HPO) araştırması, LLM'lerin durum takibinde klasik algoritmaların gerisinde kaldığını doğruladı ve klasik yöntemlerin (CMA-ES) iç durumunu LLM ile paylaşan hibrit bir yaklaşımla en iyi performansı elde etti. Bu yaklaşım, şişirilmiş benchmark'lara karşı dikkatli olmayı ve yapay zekanın zayıf yönlerini net biçimde kavrayarak en etkili iş birliği yapısını tasarlamayı hedefleyen gerçekçi bir çaba niteliğinde.
3️⃣ Veri, ortam ve hesaplama kaynaklarının akıllı optimizasyonu: Yalnızca model ölçeğini büyütmek yerine, eğitim ortamını, veriyi ve donanım hesaplamasını azami verimle kullanarak maliyet/performans yoğunluğunu artırmaya dönük altyapısal yaklaşımlar hız kazanıyor. AutoForge, yüksek zorluktaki etmen pekiştirmeli öğrenmesi için karmaşık simülasyon ortamlarını otomatik olarak sentezleyerek eğitimin ölçeklenebilirliği sorununu çözdü; APEX ise verinin zorluk düzeyini dinamik olarak sınıflandırıp prompt optimizasyonu hesaplamasını yalnızca en fazla bilgi taşıyan verilere yoğunlaştırarak üst düzey veri verimliliği gösterdi. Bunun yanında FP8 is All You Need, 8 bit düşük hassasiyetli tensör hesaplamalarını kullanarak yüksek maliyetli çift duyarlıklı (FP64) yüksek başarımlı hesaplama (HPC) sınırlarını aştı; DySIB ise yüksek boyutlu gözlem verilerinden yalnızca dinamik açıdan temel bilgiyi çıkaran matematiksel verimliliği kanıtladı. Bu çalışmalar, sınırlı kaynakları en akıllı biçimde kullanarak yapay zeka sistemlerinin gerçek endüstriyel ve bilimsel uygulanabilirliğini genişletmeye yönelik yoğun çabayı yansıtıyor.
Makale bazında temel özetler
-
Economy of Minds, merkezi bir kontrol olmadan etmenlerin açık artırmalar yoluyla eylem hakları kazandığı ve çevre ödülleriyle servet biriktirdiği ekonomik etkileşim kurallarına dayanarak, kendiliğinden evrilip çok adımlı akıl yürütme gibi üst düzey kolektif zekalar oluşturan dağıtık bir sistem öneriyor.
-
AutoForge, büyük dil etmenlerinin etkili pekiştirmeli öğrenimi için doğrulanabilir, yüksek zorluklu simülasyon ortamlarını otomatik ve büyük ölçekte sentezleyen; kullanıcı kararsızlığı ile ortamlar arası heterojenliği aşarak eğitim kararlılığını artıran ortam düzeyinde bütünleşik bir işlem hattı sunuyor.
-
APEX, büyük dil modellerinin prompt optimizasyonunda tüm değerlendirme veri kümesini israf eden mevcut verimsizliği gidermek amacıyla, doğru ve yanlış yanıtların karıştığı bölgeleri dinamik olarak seçerek sınırlı hesaplama bütçesi içinde veri verimliliğini en üst düzeye çıkaran bir yöntem geliştirdi.
-
Self-Harness, insan uzman müdahalesi ya da daha güçlü bir dış model yardımı olmadan, etmenin geçmiş yürütme izlerinde bulunan başarısızlık örüntülerini analiz edip regresyon testlerinden geçerek kendisiyle çevre arasındaki etkileşimi aracılık eden işletim politikasını otonom biçimde güncellediği bir çerçeve sunuyor.
-
autoresearch araştırması, büyük dil modellerinin hiperparametre optimizasyonu ortamında açık durum takibindeki zorluklar nedeniyle klasik algoritmaları tamamen aşamadığını gösteriyor ve kovaryans matrisi uyarlamalı evrim stratejisinin iç durumunu dil modeliyle paylaşan hibrit bir yöntem önererek en yüksek performansa ulaşıyor.
-
FP8 is All You Need, yüksek başarımlı hesaplamada yerel çift duyarlıklı kayan nokta donanımının zorunlu olduğu yönündeki yaygın kanıyı çürütüyor ve Çin kalan teoremi ile 8 bit düşük hassasiyetli tensör hesaplamalarını birleştirerek tensör throughput'unu en üst düzeye çıkarıp doğruluk kaybı olmadan çalışma performansını geri kazanmanın mümkün olduğunu gösteriyor.
-
AI reviewer araştırması, 45 alan uzmanının Nature ailesinden makaleleri büyük ölçekte açıklamalı olarak inceleyip doğruladığı sonuçlar üzerinden, yapay zekanın insanların kaçırdığı özgün sorunları yakalayabilen güçlü bir tamamlayıcı rol oynadığını; ancak uzun bağlam yönetimi ya da belirli alanlardaki örtük bilgi eksikliği gibi yapısal sınırlamalara da sahip olduğunu çok katmanlı biçimde analiz ediyor.
-
LiveBrowseComp, mevcut arama etmenlerinin dış web'den yeni gerçekleri araştırmaktan çok zaten içselleştirilmiş önbilgiyi yeniden doğrulamaya dayandığını teşhis ediyor ve modelin bilgi sınırlarının ötesindeki yakın dönem olaylara ilişkin gerçek deep search yeteneğini titizlikle değerlendiren yeni bir benchmark sunuyor.
-
DySIB, yüksek boyutlu zaman serisi gözlem verilerinde geçmiş ve gelecek gözlem pencereleri arasındaki kestirimsel karşılıklı bilgi miktarını en üst düzeye çıkararak, ham görüntüyü doğrudan yeniden kurmadan bile sistem dinamiklerini yöneten düşük boyutlu faz uzayının geometrik koordinatlarını doğru ve yorumlanabilir biçimde öğrenen bir yöntem öneriyor.
-
AutoScientists, uzun vadeli hesaplamalı bilim deneylerinde gereken hipotez kurma, deney yürütme, sonuç analizi ve düzeltme döngülerini dağıtık bir etmen ekibinin kendi içinde tartışıp organize ederek yürütmesini sağlayıp, başarısız keşif bilgisini koruyan ve umut vadeden yönlerde iş birliği yapan otonom bir araştırma sistemi kurdu.
Zihinlerin Ekonomisi: Ekonomik Etkileşimlerle Ortaya Çıkan Çok Etmenli Zeka / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
Makale tanıtımı
Merkezi kontrol olmadan çok sayıdaki etmenin nasıl daha güçlü bir kolektif zekaya kendiliğinden evrilebileceğini ele alan bu çalışma, Friedrich Hayek'in dağıtık piyasa koordinasyonu teorisini çok etmenli yapay zekaya taşıma girişimi olması bakımından dikkat çekiyor. Yazarlar bunun için etmen ekonomisi (agent economy) adını verdikleri bir çerçeve öneriyor; bu çerçevede her etmen yalnızca iş birliği yapmakla kalmıyor, açık artırma (auction) yoluyla eylem hakkı kazanıyor, birbirlerine ödeme yapıyor ve çevreden elde ettiği ödüllerle servet biriktiriyor. Bu ekonomik sinyaller, ayrı bir küresel orkestrasyon ya da açık iletişim protokolü olmadan da etmenler arasında dağıtık katkı payı atamasını (decentralized credit assignment) mümkün kılıyor ve her eylemin değerinin doğal biçimde ortaya çıkmasını sağlıyor. Sonuç olarak planlama dışarıdan dayatılan bir şey olmaktan çıkıyor; her etmen kendi ekonomik teşviklerini izlerken içeriden şekilleniyor. Başka bir deyişle, karmaşık iş birliği mekanizmalarını ayrıntılı biçimde tasarlamak yerine, etkileşim kurallarını doğru kurarak kolektif düşüncenin büyümesini sağlayan bir yaklaşım söz konusu.
Makalede öne çıkan bir diğer nokta, sistemin sabit bir yapıda kalmayıp ekonomik seçilim (economic selection) yoluyla sürekli evrilmesi. Verimli etmenler daha fazla servet biriktirerek kullanım (exploitation) odaklı iyileştirme fırsatları elde ederken, performansı düşük etmenler kaynak kaybedip yeni etmenlerle değiştirilerek keşif (exploration) için yeni yollar açıyor. Serveti bir durum değişkeni olarak kullanan bu tasarım, basit parametre optimizasyonunun ötesine geçerek bireysel etmenlerin yerel teşviklerini (local incentives) uzun vadeli kolektif performansa (long-term global performance) bağlayan dağıtık bir evrim mekanizması oluşturuyor. Özellikle, başlangıçta zayıf etmenlerle yola çıkılsa bile bu ekonomik dinamikler sayesinde daha gelişmiş davranış stratejilerinin zaman içinde birikip birleşebilmesi önemli. Yazarlar, bu süreçte çok adımlı akıl yürütme (multi-step reasoning) gibi üst düzey davranışların kendiliğinden ortaya çıkabildiğini göstererek, etmenlerin basit tepkisel politikalardan planlama ve doğrulamayı içeren stratejilere evrildiğini savunuyor.
Deneysel olarak bu ekonomik sistemin etkisi, matematiksel akıl yürütme, finans araştırması, bilimsel araştırma, hızlandırıcı tasarımı (accelerator design) ve dağıtık sistem optimizasyonu (distributed-system optimization) olmak üzere beş ajan tipi görevde doğrulanıyor. Sonuçlar, önerilen yöntemin daha güçlü tekil dev model (monolithic baseline) yaklaşımından daha iyi performans gösterdiğini bildiriyor; bu da çok ajanlı zekanın ölçeklenmesinin mutlaka merkezi koordinasyona dayanmak zorunda olmadığını gösteriyor. Bu çalışmanın verdiği temel mesaj, koordinasyonu doğrudan tasarlamak yerine, koordinasyonun doğal olarak ortaya çıktığı teşvik yapılarının tasarlanması gerektiğidir. Açık artırma, ödeme, servet, iflas ve ikame gibi basit ekonomik mekanizmaların rekabeti ve iş birliğini aynı anda organize edebileceği ve bu süreçte daha iyi akıl yürütme ile problem çözme stratejilerini emergent biçimde ortaya çıkarabileceği savunuluyor. Dahası yazarlar, ekonomik dinamiklerin ajan davranışlarını nasıl şekillendirdiğine dair kuramsal içgörüler de sunarak, bu olgunun rastlantısal bir ampirik sonuç değil, ilkelere dayalı bir tasarım alanı olduğunu gösteriyor. Sonuç olarak bu makale, dağıtık teşvik yapılarının kolektif zekanın büyümesini nasıl yönlendirebileceğini açıklıyor ve gelecekte çok ajanlı yapay zeka tasarımı için yeni bir paradigma öneriyor.
Özet(Abstract)
Merkezi kontrol olmadan bir ajan topluluğu kendini nasıl koordine edip uyarlayarak daha güçlü bir kolektif zekaya dönüşebilir? Friedrich Hayek'in piyasalardaki dağıtık koordinasyona ilişkin ekonomi teorisinden ilham alarak, bu soruyu ajanların eylem hakkı için açık artırmalar yoluyla rekabet ettiği, ödemeleri değiş tokuş ettiği ve çevresel ödüllerden servet biriktirdiği bir ajan ekonomisi üzerinden inceliyoruz. Bu basit ekonomik sinyaller, dağıtık kredi atamasını tetikleyerek küresel orkestrasyon veya açık iletişim protokolleri olmadan planlamayı yönlendiriyor. Topluluk ekonomik seçilim yoluyla evrimleşiyor. Etkili ajanlar servet biriktirip exploitation yoluyla mutasyona uğrarken, etkisiz ajanlar iflas ediyor ve exploration yoluyla yer değiştiriyor. Zayıf ajanlarla başlatıldığında bile bu ekonominin ortaya çıkan çok adımlı akıl yürütme stratejileri ürettiğini ve matematiksel akıl yürütme, finans araştırması, bilimsel araştırma, hızlandırıcı tasarımı ve dağıtık sistem optimizasyonunu içeren beş ajan tipi görevde daha güçlü tekil temel modelleri geride bıraktığını gösteriyoruz. Ayrıca ekonomik dinamiklerin ajan davranışlarını nasıl şekillendirdiğine dair kuramsal içgörüler sunuyor, yerel teşviklerin uzun vadeli küresel performansla nasıl bağlandığını açıklıyoruz. Sonuçlarımız, çok ajanlı zeka için yeni bir yol öneriyor: koordinasyonu mühendislikle kurmak yerine, koordinasyonun kendiliğinden ortaya çıktığı dağıtık teşvik yapıları tasarlayabiliriz.
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.
Makale bağlantısı
https://arxiv.org/abs/2606.02859
Daha fazla okuma
https://zhentingqi.github.io/internal/projects/EoM/
https://github.com/zhentingqi/EoM
AutoForge: Ajanik pekiştirmeli öğrenme için otomatik ortam sentezi / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning
Makale tanıtımı
Büyük dil tabanlı ajanları gerçeğe yakın biçimde eğitmek için, hem düşük maliyetli ama yeterince karmaşık simülasyon ortamlarını istikrarlı şekilde büyük ölçekte üretmenin bir yoluna hem de bu ortamlarda ortaya çıkan etkileşim gürültüsüne dayanabilen bir eğitim prosedürüne ihtiyaç vardır. AutoForge, bu sorunu çözmek için doğrulanabilir yüksek zorluklu görevlerle (high-difficulty but easily verifiable tasks) bağlantılı simülasyon ortamlarını otomatik olarak sentezleyen birleşik bir pipeline ve bu ortamların özelliklerine göre tasarlanmış ortam düzeyinde pekiştirmeli öğrenme (reinforcement learning, RL) algoritması öneriyor. Temel fikir, ortamı basit bir prompt kümesi olarak değil, durum yapısı ile işlem fonksiyonları kümesinden oluşan çalıştırılabilir bir sistem olarak görmek ve araç açıklama belgelerine dayanarak bu ortamları büyük ölçekte üretmektir. Özellikle durum yapısı üretiminde özellik adları ile gerçek değerleri ayırarak, fonksiyon kümesi üretiminde ise durum yapısına bağlı Python kodunu otomatik sentezleyerek, farklı görevlerin yeniden kullanılabilir ortam şemaları üzerine tutarlı biçimde yerleştirilebilmesini sağlayacak şekilde tasarlanmıştır.
Ardından araç dizisi oluşturma aşamasında, basit bir araç listesi yerine grafik tabanlı random walk, dizi birleştirme, akıl yürütme düğümü ekleme ve akıl yürütme kenarı ekleme yoluyla araç çağrıları ile üst düzey akıl yürütmenin iç içe geçtiği yönlendirilmiş çevrimsiz bir grafik (directed acyclic graph, DAG) oluşturulur. Bu prosedür, tekil sorgu tipi görevlerden çok daha karmaşık bağımlılıklar gerektiren işler üretmek içindir ve gerçek bir ajanın araç çağırdıktan sonra sonucu yorumlayıp sonraki eyleme karar verme sürecine daha yakın bir zorluk düzeyi sunar. Üretilen grafik daha sonra görev oluşturma aşamasına aktarılır ve başlangıç durumu ile nihai durumu birlikte içeren, doğrulanabilir eğitim örnekleri hâline yeniden rafine edilir; doğruluk ise belirli bir araç yolunun eşleşmesine göre değil, nihai durumun eşleşip eşleşmediğine göre değerlendirilir. Bu nokta, aynı hedefe birden fazla yolla ulaşılabilen ajan ortamlarının doğasını yansıtır ve veri üretimi ile değerlendirme ölçütlerini durum merkezli olarak hizalamış olması bakımından önem taşır.
Öğrenme algoritması ERPO, mevcut GRPO’yu genişleterek simüle edilmiş kullanıcının (simulated user) kararsızlığını ve ortamlar arası heterojenliği aynı anda ele alacak şekilde tasarlanmıştır. Ajan, araç çağrıları ile kullanıcıdan bilgi istemeyi dönüşümlü olarak gerçekleştirerek rollout yapar; bu süreçte interleaved thinking sayesinde önceki akıl yürütme içeriğini koruyarak uzun vadeli planlama ve yeniden planlamayı sürdürür. Ayrıca, hatalı kullanıcı davranışlarını önceden tespit edip bunları öğrenme sinyalinden çıkaran masking erroneous user behaviors (MEU) stratejisi uygulanarak, sentetik kullanıcı hatalarının ödül tahminini ve politika güncellemelerini bozması sorunu azaltılır. En önemli katkı ise ortam düzeyi advantage estimation yaklaşımıdır; burada advantage, aynı soru kümesi içinde değil aynı ortam içinde ödüller normalize edilerek hesaplandığı için, farklı ortamların zorluk farklarına ve aykırı değerlere karşı daha az hassastır ve öğrenme kararlılığı daha yüksektir.
Bu tasarım, sonuç olarak ortam üretimi, etkileşim prosedürü ve ödül tahmini olmak üzere üç katmanı tek bir tutarlı çerçevede birleştirerek, ajan tabanlı pekiştirmeli öğrenmenin gerektirdiği ölçeklenebilirlik, kararlılık ve genelleme kapasitesini aynı anda sağlamaya yönelik bir girişim olarak görülebilir. tau-bench, tau2-Bench ve VitaBench üzerindeki doğrulamalar ile alan dışı genelleme analizleri, AutoForge’un basit bir sentetik veri üretim tekniğinin ötesine geçerek gerçek ajan eğitimi için temel bir altyapı işlevi görebileceğini göstermektedir.
Özet(Abstract)
Simüle edilmiş ortamlarda pekiştirmeli öğrenme (RL) yürütmek, dil tabanlı ajanları geliştirmek için maliyet etkin ve son derece ölçeklenebilir bir yol sunar. Ancak önceki çalışmalar, yarı otomatik ortam sentezi ya da yeterli zorluk düzeyine sahip olmayan görevlerle sınırlı kaldığından hem kapsam hem de derinlik açısından yetersiz kalmıştır. Ayrıca, bu ortamlara entegre edilen simüle kullanıcıların kararsızlığı ile simüle ortamlar arasındaki heterojenlik, ajan tabanlı RL için ek zorluklar doğurmaktadır. Bu çalışmada, (1) yüksek zorluk düzeyine sahip ancak kolayca doğrulanabilir görevlerle ilişkili simüle ortamların otomatik ve ölçeklenebilir biçimde sentezlenmesi için birleşik bir pipeline ve (2) yalnızca kullanıcı kararsızlığını etkili biçimde azaltmakla kalmayıp aynı zamanda ortam düzeyinde advantage estimation gerçekleştirerek eğitim verimliliğini ve kararlılığını artıran bir ortam düzeyi RL algoritması öneriyoruz. tau-bench, tau2-Bench ve VitaBench’i içeren ajan tabanlı benchmark’lar üzerindeki kapsamlı değerlendirmeler, önerdiğimiz yöntemin etkililiğini doğrulamaktadır. Ek derinlemesine analizler ise alan dışı genelleme yeteneğinin güçlü olduğunu göstermektedir.
Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.
Makale bağlantısı
https://arxiv.org/abs/2512.22857
APEX: Dinamik veri seçimini kullanan otomatik prompt engineering uzmanı / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
Makale tanıtımı
Büyük dil modelleri (Large Language Models, LLMs), prompt’un ifade ediliş biçimine son derece duyarlı olduğundan, potansiyellerini tam olarak ortaya çıkarmak için automatic prompt optimization temel bir mesele hâline gelir. Mevcut evolutionary algorithms tabanlı yaklaşımlar, prompt’ları kademeli olarak dönüştürmede güçlü olsa da geliştirme veri kümesini sabit bir değerlendirme kaynağı gibi tekrar tekrar kullanarak hesaplama bütçesini verimsiz tüketme sınırlılığı göstermiştir. APEX (Automatic Prompt Engineering eXpert), bu darboğazı çözmek için prompt keşfini ve veri kullanımını aynı anda optimize eden yeni bir çerçeve önerir. Yöntemin merkezinde, optimization lineage boyunca veri kümesini Easy, Hard ve Mixed olmak üzere üç katmanda dinamik olarak yeniden yapılandıran bir strateji yer alır; özellikle modelin doğru ve yanlış yanıtlarının birlikte görüldüğü Mixed katmanı, en yüksek bilgi içeriğine sahip bölüm olarak kabul edilir. Bu bakış açısı, yalnızca çok sayıda örnek görmenin değil, hangi örneklerin prompt iyileştirmesi için gerçekten anlamlı sinyal sağladığını belirlemenin daha önemli olduğunu açıkça ortaya koyar.
APEX, Mixed katmanından yüksek değerli iki frontier çıkarır. Biri, bilgi taşıyan varyasyonlar üretmeye elverişli addressable frontier, diğeri ise aday prompt’ların üstünlük farklarını ayırt etmede hassas olan rank-sensitive frontier’dır. İlki, prompt değişikliklerinin yönünü belirlerken; ikincisi, hangi varyasyonun gerçekten daha iyi performansa yol açtığını saptamayı sağlar, böylece iki frontier keşif ve değerlendirme rollerini birbirini tamamlayacak şekilde üstlenir. Özellikle bu yapı, veri kümesinin tamamını topluca ele alan mevcut yöntemlerden farklı olarak, hesaplamayı mevcut optimizasyon aşamasında en anlamlı örneklere yoğunlaştırması bakımından veri verimliliğini büyük ölçüde artırır. Başka bir deyişle APEX, prompt’ları rastgele çok sayıda değiştirmek yerine, model davranışının en kararsız olduğu ve dolayısıyla en fazla bilgiyi taşıyan noktaları stratejik biçimde hedef alır. Bu tasarım, prompt optimizasyonunu basit bir üretim problemi olmaktan çıkarıp, veri seçimi ile aday karşılaştırmasının birleştiği uyarlamalı bir keşif problemi olarak yeniden tanımlar.
Deneysel olarak APEX, IFBench, SimpleQA Verified ve FACTS Grounding gibi karakterleri birbirinden farklı üç benchmark üzerinde doğrulanmış ve 5.000 değerlendirme çağrısından oluşan sabit bütçe koşulunda da istikrarlı iyileşme göstermiştir. Sonuç olarak başlangıç prompt’una kıyasla Gemini 2.5 Flash’ta ortalama %11,2, Gemma 3 27B’de ise ortalama %6,8 performans artışı elde ederek, veri merkezli yaklaşımın verimli ve güçlü prompt optimizasyonu açısından ne kadar önemli olduğunu kanıtlamıştır. Bu sonuçlar, APEX’in yalnızca keşif algoritmasını iyileştirmekle kalmayıp, prompt engineering’de başarının hangi verinin ne zaman ve nasıl seçildiğine bağlı olduğunu ampirik olarak göstermesi açısından anlamlıdır. Nihayetinde bu çalışma, otomatik prompt optimizasyonunun odağını “daha fazla değerlendirme”den “daha akıllı veri kullanımı”na kaydırmış ve sınırlı hesaplama kaynakları içinde daha yüksek performans elde etmeye imkân veren pratik ve genellenebilir bir metodoloji sunmuştur.
Özet(Abstract)
Büyük dil modelleri (LLM), prompt kurgusuna son derece duyarlıdır; bu nedenle tam potansiyellerini ortaya çıkarmak için otomatik prompt optimizasyonu gerekir. Evrimsel algoritmalar baskın paradigma olarak öne çıkmış olsa da, kritik bir darboğaz olan veri verimliliği sorununu taşırlar. Mevcut yöntemler geliştirme veri kümesini statik bir benchmark olarak ele alarak, bilgi değeri düşük veriler üzerinde önemli ölçüde hesaplama bütçesi harcar. Bu çalışmada, prompt aramasıyla birlikte veri kullanımını da optimize eden yeni bir çerçeve olan APEX'i (Automatic Prompt Engineering eXpert) tanıtıyoruz. APEX, optimizasyon soyağacına dayanarak veri kümesini dinamik biçimde Easy, Hard ve Mixed katmanlarına ayırır. LLM'nin karışık performans gösterdiği verileri belirleyen Mixed katmanına öncelik vererek, yüksek etkili iki alt küme tanımlıyoruz. Bunlardan biri, bilgilendirici mutasyonlar üretmek için kullanılan addressable frontier, diğeri ise adayların kalitesini ayırt etmek için kullanılan rank-sensitive frontier'dır. APEX'i IFBench, SimpleQA Verified ve FACTS Grounding olmak üzere üç farklı benchmark üzerinde değerlendiriyoruz. 5.000 değerlendirme çağrısından oluşan sabit bir bütçe altında APEX, veri verimliliği sayesinde Gemini 2.5 Flash'ta başlangıç promptuna göre ortalama %11,2, Gemma 3 27B'de ise %6,8 daha iyi performans göstererek, veri merkezli yaklaşımın verimli ve etkili prompt optimizasyonunun anahtarı olduğunu ortaya koyuyor.
Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
Makale bağlantısı
https://arxiv.org/abs/2606.11459
Self-Harness: Kendi Kendini Geliştiren Harness / Self-Harness: Harnesses That Improve Themselves
Makale tanıtımı
Büyük dil modeli (Large Language Model, LLM) tabanlı ajanların performansı yalnızca temel modelin akıl yürütme yeteneğiyle belirlenmez; çevreyle etkileşimi aracılık eden harness tasarımı tarafından da büyük ölçüde şekillenir. Harness; sistem promptunu, araç kullanım biçimini, doğrulama prosedürlerini ve hata kurtarma politikalarını kapsayan bir operasyon katmanı olarak, aynı modelin bile hangi harness'in uygulandığına bağlı olarak tamamen farklı davranış kalıpları göstermesine yol açar. Yazarlar tam da bu noktaya odaklanarak, harness'in artık insan uzmanlar tarafından yalnızca manuel olarak tasarlanan sabit bir varlık olmaması, modelin gerçek hata örüntülerine dayanarak kendi kendini geliştirebilmesi gerektiği sorununu ortaya koyuyor. Bu bakış açısından önerilen Self-Harness, dışarıdan daha güçlü bir ajana ya da insan mühendislere dayanmak yerine, LLM tabanlı bir ajanın kendi operasyonel harness'ini yinelemeli olarak iyileştirdiği yeni bir paradigmayı gösteriyor.
Self-Harness'in temel metodolojisi; zayıflık keşfi (Weakness Mining), harness önerisi (Harness Proposal) ve öneri doğrulamasından (Proposal Validation) oluşan yinelemeli bir döngüye dayanır. Önce yürütme izlerinden (execution traces) modele özgü hata örüntüleri bulunarak, hangi davranışların performansı tekrar tekrar düşürdüğü yapısal olarak teşhis edilir. Ardından bu zayıflıklarla doğrudan bağlantılı, asgari düzeyde harness değişikliği önerileri çeşitli biçimlerde üretilir; ancak aşırı büyük değişiklikler yerine, gerçek operasyon politikalarını ince ayarla iyileştiren yerel düzenlemeler hedeflenir. Son olarak regresyon testi (regression testing) ile aday değişikliklerin mevcut performansı bozup bozmadığı doğrulanır ve yalnızca bu koşul sağlandığında benimsenir; böylece basit prompt ayarlamasından ziyade güvenli ve birikimli bir iyileştirme sistemi oluşturulur. Bu tasarım, harness'in modelin davranışını yönlendirirken aynı zamanda modelin hatalarından yeniden öğrenebilmesini teknik olarak hayata geçirir.
Makale, bu çerçeveyi Terminal-Bench-2.0 ortamında doğruladı; başlangıçta yalnızca çok basit bir harness kullanılırken bunu MiniMax M2.5, Qwen3.5-35B-A3B ve GLM-5 olmak üzere farklı ailelerden üç temel modele uyguladı. Deney sonuçlarına göre holdout geçiş oranı sırasıyla %40,5'ten %61,9'a, %23,8'den %38,1'e ve %42,9'dan %57,1'e yükseldi; bu da Self-Harness'in model türünden bağımsız olarak tutarlı bir iyileştirme etkisi sağlayabildiğini gösterdi. Özellikle nitel analiz, iyileştirmenin yalnızca genel geçer yönergeler eklemekten ibaret olmadığını; her modelin zayıflıklarını somut ve uygulanabilir harness değişikliklerine dönüştürme süreci olduğunu ortaya koydu. Bu, ajan performansını artırmadaki darboğazın yalnızca model parametrelerinin içinde bulunmadığını ve operasyon politikalarını daha incelikli biçimde öğrenmenin tek başına da anlamlı performans iyileştirmeleri sağlayabileceğini güçlü biçimde düşündürüyor. Sonuç olarak Self-Harness, LLM tabanlı ajanların yalnızca harness tarafından şekillendirilmekle kalmayıp, harness'i yeniden şekillendirebildiği yeni bir araştırma yönü sunuyor.
Özet (Abstract)
LLM tabanlı ajanların performansı, temel modelleri ve çevreyle etkileşimlerini aracılık eden harness tarafından birlikte şekillendirilir. Farklı modeller farklı davranışlar sergilediği için, etkili harness tasarımı doğası gereği modele özeldir. Ancak ajan harness’leri hâlâ büyük ölçüde insan uzmanlar tarafından tasarlanmaktadır ve modern LLM’ler giderek daha çeşitli ve hızla gelişen yapılara dönüştükçe bu yaklaşımın ölçeklenebilirliği düşmektedir. Bu makalede, insan mühendislere veya daha güçlü harici ajanlara dayanmeden, LLM tabanlı bir ajanın kendi çalışma harness’ini kendisinin iyileştirdiği yeni bir paradigma olan Self-Harness tanıtılıyor. Self-Harness’ı üç aşamalı yinelemeli bir döngü olarak uyguluyoruz. Weakness Mining, yürütme izlerinden modele özgü başarısızlık örüntülerini belirler; Harness Proposal, bu başarısızlıklarla bağlantılı çeşitli ama asgari düzeyde harness değişiklikleri üretir; Proposal Validation ise aday düzenlemeleri yalnızca regresyon testlerini geçtikten sonra kabul eder. Self-Harness’ı, asgari bir başlangıç harness’i ve farklı ailelerden üç temel model olan MiniMax M2.5, Qwen3.5-35B-A3B ve GLM-5 ile birlikte Terminal-Bench-2.0 üzerinde uyguladık. Üç modelin tamamında Self-Harness performansı tutarlı biçimde artırdı; held-out geçiş oranları sırasıyla %40.5’ten %61.9’a, %23.8’den %38.1’e ve %42.9’dan %57.1’e yükseldi. Nitel analizler ayrıca Self-Harness’ın yalnızca genel talimatlar eklemekle kalmadığını, modele özgü zayıflıkları somut ve uygulanabilir harness değişikliklerine etkili biçimde dönüştürdüğünü gösteriyor. Bu sonuçlar, LLM tabanlı ajanların yalnızca harness tarafından şekillendirilmekle kalmayıp, harness’in yeniden şekillendirilmesine de katılabileceği bir yönü işaret ediyor.
LLM tabanlı ajanların performansı, temel modelleri ve çevreyle etkileşimlerini aracılık eden harness tarafından birlikte şekillendirilir. Farklı modeller farklı davranışlar sergilediği için, etkili harness tasarımı doğası gereği modele özeldir. Ancak ajan harness’leri hâlâ büyük ölçüde insan uzmanlar tarafından tasarlanmaktadır ve modern LLM’ler giderek daha çeşitli ve hızla gelişen yapılara dönüştükçe bu yaklaşımın ölçeklenebilirliği düşmektedir. Bu makalede, insan mühendislere veya daha güçlü harici ajanlara dayanmeden, LLM tabanlı bir ajanın kendi çalışma harness’ini kendisinin iyileştirdiği yeni bir paradigma olan Self-Harness tanıtılıyor. Self-Harness’ı üç aşamalı yinelemeli bir döngü olarak uyguluyoruz: Weakness Mining, yürütme izlerinden modele özgü başarısızlık örüntülerini belirler; Harness Proposal, bu başarısızlıklarla bağlantılı çeşitli ama asgari düzeyde harness değişiklikleri üretir; Proposal Validation ise aday düzenlemeleri yalnızca regresyon testlerinden sonra kabul eder. Self-Harness’ı, asgari bir başlangıç harness’i ve farklı ailelerden üç temel model olan MiniMax M2.5, Qwen3.5-35B-A3B ve GLM-5 ile birlikte Terminal-Bench-2.0 üzerinde uyguladık. Üç modelin tamamında Self-Harness performansı tutarlı biçimde artırdı; held-out geçiş oranları sırasıyla %40.5’ten %61.9’a, %23.8’den %38.1’e ve %42.9’dan %57.1’e yükseldi. Nitel analizler ayrıca Self-Harness’ın yalnızca genel talimatlar eklemediğini, modele özgü zayıflıkları somut, yürütülebilir harness değişikliklerine etkili biçimde dönüştürdüğünü gösteriyor. Bu sonuçlar, LLM tabanlı ajanların yalnızca harness tarafından şekillendirilen yapılar olmakla kalmayıp, bu harness’leri yeniden şekillendirmeye de katılabildiği bir yola işaret ediyor.
Makale bağlantısı
https://arxiv.org/abs/2606.09498
Büyük dil modelleri (LLM), klasik hiperparametre optimizasyon algoritmalarını geride bırakabilir mi? autoresearch üzerine bir çalışma / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch
Makale tanıtımı
Büyük dil modeli (LLM) ajanlarının gerçek hiperparametre optimizasyonu (HPO) ortamlarında klasik algoritmaların ötesine geçip geçemeyeceğini doğrulayan bu çalışma, autoresearch deposunu bir deney alanı olarak kullanarak kod düzenleme tabanlı optimizasyonun olanaklarını ve sınırlarını doğrudan inceliyor. Burada ajan, yalnızca sayısal hiperparametreleri seçmenin ötesine geçerek eğitim kodunun kendisini doğrudan düzenleyip küçük bir dil modelinin performansını iyileştirmek zorunda ve amaç, sabit bir hesaplama bütçesi içinde doğrulama byte başına bit değerini (validation bits-per-byte, val_bpb) en aza indirmek. Özellikle bu problem; mimari, optimizer, eğitim döngüsü ve model boyutu da dahil olmak üzere geniş bir kod alanını kapsadığı için, dil anlama yeteneği ile optimizasyon durumunu izleme yeteneğini aynı anda gerektiriyor; bu yönüyle sıradan kara kutu optimizasyonundan çok daha zorlu. Yazarlar bu ortamda Covariance Matrix Adaptation Evolution Strategy (CMA-ES) ve Tree-structured Parzen Estimator (TPE) gibi klasik teknikleri LLM tabanlı yaklaşımlarla doğrudan karşılaştırıyor ve gerçek performansı hangi etkenlerin belirlediğini sistematik olarak analiz ediyor. Sonuçta, sabit arama uzaylarında klasik yöntemler tutarlı biçimde daha iyi performans gösterdi ve özellikle üretilen adayların çeşitliliğinden çok yürütme hatalarını azaltan kararlılığın daha önemli olduğu ortaya çıktı.
İlginç olan, LLM’nin kaynak kodu doğrudan düzenlemesine izin verildiğinde farkın bir miktar azalması; ancak dönemin en ileri modelleri olan Claude Opus 4.6 ve Gemini 3.1 Pro Preview dahil edildiğinde bile klasik yöntemlerin tamamen yakalanamamasıydı. Bu da, LLM’ler tek tek denemelerde faydalı değişiklikler önerebilse de, tekrarlanan deneylerin tamamı boyunca optimizasyon durumunu tutarlı biçimde korumakta hâlâ zayıf oldukları gözlemine yol açıyor. Buna karşılık klasik algoritmalar, alan bilgisi bakımından zayıf olsalar da ortalama vektör, adım boyutu ve kovaryans matrisi gibi açık durumları kararlı şekilde güncelleyebilme avantajına sahip. Yazarlar bu tamamlayıcılıktan hareketle Centaur adlı hibrit bir yöntem öneriyor; bu yaklaşım, CMA-ES’in yorumlanabilir iç durumunu LLM ile paylaşarak dil modelinin arama bağlamını daha iyi yansıtmasını hedefliyor. Centaur, deneylerin genelinde en iyi performansı gösterdi ve şaşırtıcı biçimde yalnızca 0.8B ölçeğindeki küçük bir LLM ile hem saf klasik yöntemleri hem de saf LLM yöntemlerini geride bırakabildi. Buna karşılık kısıtsız kod düzenleme yaklaşımı daha büyük modeller gerektirdi; bu da performans üzerinde yalnızca model ölçeğinden ziyade optimizasyon arayüzü ve durum gösteriminin daha etkili olduğuna işaret ediyor. Ayrıca yazarlar, arama çeşitliliğini, model ölçeklendirmesini ve Centaur içinde LLM’nin önerdiği deneme oranını ayrıntılı biçimde analiz ederek, LLM’nin ne zaman güçlü ne zaman zayıf olduğuna dair incelikli bir tablo ortaya koyuyor. Genel olarak bu çalışma, LLM’lerin klasik optimize edicilerin yerini alan yapılar olmaktan çok, açık arama durumunu tamamlayan işbirlikçi bileşenler olarak kullanıldıklarında en büyük etkiyi yaratabileceğini ikna edici biçimde gösteriyor.
Özet (Abstract)
Autoresearch deposu, bir LLM ajanının eğitim kodunu doğrudan düzenleyerek hiperparametreleri optimize etmesini sağlıyor. Bunu bir test ortamı olarak kullanarak, sabit bir hesaplama bütçesi altında küçük bir dil modelinin hiperparametrelerini ayarlama probleminde klasik HPO algoritmalarını LLM tabanlı yöntemlerle karşılaştırdık. Autoresearch genelinde sabit bir arama uzayı tanımlandığında, CMA-ES ve TPE gibi klasik yöntemler LLM tabanlı ajanlardan sürekli olarak daha iyi performans gösterdi; burada arama çeşitliliğinden çok bellek yetersizliği (OOM) hatalarını önlemek daha önemliydi. LLM'in kaynak kodunu doğrudan düzenlemesine izin vermek klasik yöntemlerle arasındaki farkı azaltıyor, ancak yazının hazırlandığı sırada mevcut en gelişmiş modeller olan Claude Opus 4.6 ve Gemini 3.1 Pro Preview kullanıldığında bile bu fark tamamen kapanmıyor. LLM'lerin birden fazla deneme boyunca optimizasyon durumunu takip etmekte zorlandığını gözlemledik. Buna karşılık klasik yöntemlerde LLM'lerin alan bilgisi yok. İki yaklaşımın güçlü yanlarını birleştirmek için, CMA-ES'in ortalama vektör, adım boyutu ve kovaryans matrisi dahil olmak üzere yorumlanabilir iç durumunu LLM ile paylaşan hibrit bir yöntem olan Centaur'u öneriyoruz. Centaur deneylerimizde en iyi sonucu elde etti ve yalnızca 0.8B bir LLM bile tüm klasik yöntemleri ve saf LLM yöntemlerini geride bırakmak için yeterli oldu. Kısıtsız kod düzenleme, klasik yöntemlerle rekabet edebilmek için daha büyük modeller gerektiriyor. Ayrıca arama çeşitliliğini, 0.8B'den en gelişmiş modellere model ölçeklemeyi ve Centaur'da LLM tarafından önerilen denemelerin oranına ilişkin ablasyon deneylerini de ek olarak analiz ettik. Genel olarak sonuçlarımız, LLM'lerin klasik optimize edicilerin yerine geçmekten çok onları tamamlamada en etkili olduğunu gösteriyor. Koda https://github.com/ferreirafabio/autoresearch-automl adresinden, etkileşimli demoya ise https://ferreirafabio.github.io/autoresearch-automl adresinden ulaşabilirsiniz.
Autoresearch deposu, bir LLM ajanının eğitim kodunu doğrudan düzenleyerek hiperparametreleri optimize etmesini sağlar. Bunu, sabit bir hesaplama bütçesi altında küçük bir dil modelinin hiperparametrelerini ayarlama görevinde klasik HPO algoritmalarını LLM tabanlı yöntemlerle karşılaştırmak için bir test ortamı olarak kullanıyoruz. Autoresearch üzerinde sabit bir arama uzayı tanımlandığında, CMA-ES ve TPE gibi klasik yöntemler LLM tabanlı ajanları istikrarlı biçimde geride bırakıyor; burada bellek taşması hatalarından kaçınmak, arama çeşitliliğinden daha önemli. LLM'in kaynak kodunu doğrudan düzenlemesine izin vermek klasik yöntemlerle arasındaki farkı daraltıyor, ancak Claude Opus 4.6 ve Gemini 3.1 Pro Preview gibi, yazının yazıldığı tarihte mevcut en gelişmiş modellerle bile bu fark kapanmıyor. LLM'lerin denemeler arasında optimizasyon durumunu izlemekte zorlandığını gözlemliyoruz. Buna karşılık klasik yöntemler, LLM'lerin alan bilgisine sahip değil. Her iki tarafın güçlü yanlarını birleştirmek için, ortalama vektör, adım boyutu ve kovaryans matrisi dahil olmak üzere CMA-ES'in yorumlanabilir iç durumunu bir LLM ile paylaşan hibrit bir yöntem olan Centaur'u tanıtıyoruz. Centaur deneylerimizde en iyi sonucu elde ediyor ve 0.8B bir LLM bile tüm klasik ve saf LLM yöntemlerini geride bırakmaya yetiyor. Kısıtsız kod düzenleme, klasik yöntemlerle rekabetçi olabilmek için daha büyük modeller gerektiriyor. Ayrıca arama çeşitliliğini, 0.8B'den en gelişmiş modellere model ölçeklemeyi ve Centaur'da LLM tarafından önerilen denemelerin oranına yönelik ablasyonları da inceliyoruz. Sonuç olarak bulgularımız, LLM'lerin klasik optimize edicilerin yerine geçmektense onları tamamladığında en etkili olduğunu gösteriyor. Kod https://github.com/ferreirafabio/autoresearch-automl adresinde, etkileşimli demo ise https://ferreirafabio.github.io/autoresearch-automl adresinde mevcut.
Makale bağlantısı
https://arxiv.org/abs/2603.24647
Daha fazlası
https://github.com/ferreirafabio/autoresearch-automl
https://ferreirafabio.github.io/autoresearch-automl
FP8 yeterlidir (1. Bölüm): HPC'nin kutsal kâsesi sayılan donanımsal FP64'ü çürütmek / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
Makale tanıtımı
Yüksek performanslı hesaplama (HPC, high-performance computing) alanında, donanımın doğrudan sunduğu çift duyarlıklı kayan nokta (FP64, double-precision floating point) işlemleri uzun süredir bilimsel hesaplama için vazgeçilmez bir gereklilik gibi görülüyordu; ancak bu makale, yapay zeka için optimize edilmiş en yeni GPU nesillerinde bu varsayımın artık geçerli olmayabileceğini savunuyor. Özellikle NVIDIA Blackwell Ultra (B300) üzerinde yerel FP64 işlem hacminin ciddi biçimde düşmesini çıkış noktası alarak, bunun yerine bol miktardaki FP8 (8-bit floating point) tensor işlem hacminden yararlanıp FP64 doğruluğunu yeniden elde etmenin daha pratik bir yol olabileceğini gösteriyor. Bunun için yazarlar, Chinese Remainder Theorem (CRT) ile Ozaki Scheme II'yi birleştirerek değerleri birden fazla kalıntı modüler kanala ayırıp ardından tam olarak yeniden oluşturan bir yaklaşım benimsiyor; bu süreç de FP64 düzeyinde sayısal doğruluğu korurken düşük duyarlıklı tensor işlemlerinin yüksek işlem hacminden aynı şekilde yararlanacak biçimde tasarlanıyor. Temel metodoloji, basit bir yaklaşık hızlandırma değil; hesaplama yolunun kendisini düşük duyarlıklı tensor çekirdeklerine taşıyıp sonucu tamsayı tabanlı yeniden kurulumla katı biçimde geri getirmek üzerine kurulu ve bu yönüyle mevcut çift duyarlık merkezli yaklaşımlardan açıkça ayrışıyor.
Bu makalenin bir diğer önemli katkısı, geleneksel Roofline modelini genişleten Tensor-Memory Equilibrium (TME) modelidir. TME, yalnızca işlem performansı ile bellek bant genişliği arasındaki dengeye bakmakla kalmıyor; FP8 tabanlı emülasyonun FP64 iş yüklerine dönüştürülmesi sırasında ortaya çıkan hesaplama çarpanı, bant genişliği çarpanı ve yeniden kurulum gecikmesini de birlikte hesaba katarak gerçek yürütme performansını yorumluyor. Yazarlar bu çerçeve üzerinden register-level fusion'ın ara sonuçların sık sık belleğe yazılmasını önleyerek bandwidth multiplier'ı fiilen 1'e yakınsayabildiğini açıklıyor ve böylece yeniden kurulum ek yükünün bellek duvarının arkasına gizlenebildiği bir yapı ortaya koyuyor. Başka bir deyişle, ek dönüşüm ve yeniden kurulum adımları bulunsa bile, genel performans bellek taşınımının baskın olduğu bölümlerde neredeyse kayıpsız korunabiliyor.
Uygulama açısından sunulan Ozaki Scheme II çekirdeği, bu fikirlerin pratikte nasıl çalıştığını çok iyi gösteriyor. Girdi matrisi ve vektörünü birden fazla residue kanalına ayırıp her kanalda wmma tabanlı tensör işlemleriyle biriktirmek ve sonunda Garner yeniden yapılandırmasıyla tek bir double değere geri dönmek şeklindeki yapı, doğruluk ve hızı birbirinden ayırarak her biri için en uygun donanım yolunu tahsis eden bir tasarım felsefesini ortaya koyuyor. Bu noktada SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication), stencil gibi tipik HPC çekirdeklerinin aynı mantıkla işlenebilmesi, bu yaklaşımın yalnızca belirli bir işe özgü bir optimizasyon olmadığını gösteriyor. Performans sonuçları da bu iddiayı destekliyor; yazarlar, B300'ün native FP64 yeteneği ciddi ölçüde zayıflatılmışken Ozaki II yolunun çok daha yüksek etkin işlem hacmiyle bellek sınırına ulaşabildiğini ve H100 ile karşılaştırıldığında da aynı ya da daha iyi performans sunduğunu açıklıyor.
Sonuç olarak bu çalışmanın verdiği temel mesaj, çift duyarlıklı doğruluğu korumak için mutlaka native FP64 donanımına bağımlı olunması gerektiği yönündeki yerleşik kanının artık mutlak olmadığıdır. FP8 tensör işlem hacmi, CRT tabanlı yeniden yapılandırma ve register düzeyinde füzyon birleştirildiğinde, üretim ortamındaki HPC'de hem FP64 doğruluğu hem de bellek bant genişliği verimliliği aynı anda sağlanabilir; hatta eski nesil FP64 merkezli tasarımlardan daha yüksek performans potansiyeli elde edilebilir. Bu iddia, donanım tasarımındaki önceliklerin yeniden düşünülmesine yol açıyor ve gelecekteki bilimsel hesaplamanın artık tek bir duyarlıkta çalışan işlem birimlerine bağımlı olmak zorunda olmadığını güçlü biçimde ima ediyor.
Özet(Abstract)
Geleneksel HPC anlayışı, native donanım FP64 silikonunu bilimsel hesaplamanın indirgenemez temeli, yani çift duyarlıklı simülasyonun “kutsal kâsesi” olarak görür. Ancak bu makale, bu anlayışın yanlış olduğunu savunuyor. B300 nesli ve sonrasındaki yapay zeka için optimize edilmiş GPU'larda, bol miktardaki FP8 tensör işlem hacmi ile Çin Kalan Teoremi (Chinese Remainder Theorem) tabanlı Ozaki Scheme II birleştirilerek, kanonik HPC çekirdekleri genelinde tam FP64 doğruluğuyla bellek tavanı seviyesinde yürütme yeniden elde edilebilir. NVIDIA'nın Blackwell Ultra'sı (B300), native FP64'ü yaklaşık 1.3 TFLOPS seviyesine düşürerek B200'e kıyasla 31 katlık bir gerilemeye yol açıyor; bu da bellek darboğazlı çekirdekleri bile (SpMV, GEMV, stencil'ler) hesaplama darboğazlı hâle getiriyor. Dört katkı sunuyoruz. Birincisi, Roofline modelini işlem çarpanı α, bant genişliği çarpanı β ve yeniden yapılandırma gecikmesi γ ile genişleten birleşik bir analitik model olan Tensor-Memory Equilibrium (TME) modelini öneriyoruz. İkincisi, register düzeyinde füzyonun β → 1'i sağlayan mekanizma olduğunu ortaya koyuyoruz; böylece emülasyon bellek duvarının arkasında fiilen ücretsiz hâle geliyor. Üçüncüsü, Ozaki II'nin emüle edilmiş FP64'ü yaklaşık 1 TFLOPS'luk native tabandan B300'de yaklaşık 500 TFLOPS'a ve Rubin R200'de yaklaşık 400 TFLOPS'a çıkardığını; hesaplama darboğazlı bölgede B200'ün native FP64 tavanını bir büyüklük mertebesinden fazla aştığını ve bant genişliği darboğazlı bölgede bellek tavanıyla eşleştiğini öngörüyoruz. Dördüncüsü, H100 temel alınarak yapılan karşılaştırmada Ozaki II, incelenen tüm iş yüklerinde H100'e eşit ya da daha iyi performans gösterirken, B300'ün native FP64'ü en fazla 50 kata varan bir gerileme dayatıyor. Eşlik eden Part(2) makalesinde raporlanan FFT analizi (hayatta kalan INT32 hattı üzerinde Kulisch sabit noktalı yeniden yapılandırma) ve FP32+Kahan azaltmalarıyla birleştirildiğinde, B300 üzerinde incelenen tüm çekirdek sınıfları tam FP64 ile bellek tavanına ulaşıyor. Bu kanıtlar, başlıktaki iddiayı destekliyor: Ozaki II ve Kulisch kaçış yollarıyla birlikte FP8, üretim amaçlı HPC için ihtiyaç duyulan tek şeydir; native FP64 silikonu artık sanıldığı gibi kutsal kâse değildir.
Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
Makale bağlantısı
https://arxiv.org/abs/2606.06510
AI değerlendiricilerinin sınırları ve fırsatları: 45 uzman bilim insanının Nature ailesi makalelerinin değerlendirmelerini incelediği araştırma / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
Makale tanıtımı
Yapay zeka (AI) hakemleri bilimsel makale değerlendirme sürecine giderek daha fazla dahil edilirken, performanslarını yalnızca nihai kararların örtüşmesine bakarak değerlendirme yaklaşımının sınırları da netleşiyor. Gerçekte bir hakemin yaptığı tekil eleştirilerin ne kadar doğru olduğu, ne kadar önemli sorunlara işaret ettiği ve iddialarını destekleyen kanıtların ne kadar yeterli olduğu, değerlendirmenin kalitesini büyük ölçüde değiştirir. Bu nedenle yazarlar, bu tür mikro düzeyde bir değerlendirme üzerinden AI hakemlerinin gerçek yetkinliklerini ve sınırlılıklarını hassas biçimde ortaya koymayı amaçladı. Bunun için fizik, biyoloji ve sağlık bilimleri alanlarından 45 uzman bilim insanının katıldığı büyük ölçekli bir anotasyon çalışması tasarlandı ve Nature ailesinden 82 makaleye ilişkin insan ve AI tarafından yazılmış 2.960 ayrı eleştirinin her biri değerlendirildi. Her eleştiri correctness (doğruluk), significance (önem) ve sufficiency of evidence (kanıt yeterliliği) olmak üzere üç eksende puanlandı; toplam 469 saatlik inceleme sayesinde AI hakemlerinin gerçekte neyi iyi yaptığı ve nerede başarısız olduğu çok katmanlı biçimde analiz edilebildi. Bu metodoloji, yalnızca “AI insanlarla benzer sonuçlara varıyor mu?” sorusunu sormanın ötesine geçerek, hangi tür sorunları daha iyi yakaladığını ve hangi bağlamlarda tersine aşırı ya da hatalı yargılara vardığını somut biçimde göstermesi bakımından büyük önem taşıyor. Nicel sonuçlar, bugünün AI hakemlerinin kesinlikle yüzeysel yardımcı araçlar olmaktan ibaret olmadığını gösteriyor. Örneğin GPT-5.2 tabanlı değerlendirme ajanı, üç değerlendirme eksenini birleştiren ölçütte her makaledeki en yüksek puanlı insan hakemden daha yüksek skor aldı; Gemini 3.0 Pro ve Claude Opus 4.5 dahil diğer AI hakemleri de tüm eksenlerde en düşük puanlı insan hakemi aştı. Dahası, AI hakemlerinin ortaya koyduğu doğru eleştiriler daha sık önemli ve yeterli kanıta dayalı olarak değerlendirildi; ayrıca insanların işaret etmediği sorunların %26’sını yeni olarak tespit etmeleri, kapsama alanlarının genişleyebildiğini de gösterdi. Ancak aynı zamanda AI hakemleri birbirine çok benzeyen eleştirileri tekrarlama eğilimindeydi ve insanlara kıyasla çok daha yüksek tekrar oranı gösterdi; belirli alt alanlara özgü örtük bilgi eksikliği, uzun bağlamı yönetme sınırları ve önemsiz sorunlara karşı aşırı eleştirellik gibi yinelenen zayıflıklar da ortaya çıktı. Eklerdeki nitel örnekler, bu zayıflıkların basit yanlış cevaplardan ibaret olmadığını; alanlara özgü teamüllerin yanlış okunması, zamansal bağlam hataları, düzeltilebilirlik dikkate alınmadan ileri sürülen aşırı talepler ve kod ile ana metin arasındaki uyumsuzluğun gözden kaçırılması gibi yapısal sorunlarla bağlantılı olduğunu gösteriyor. Sonuç olarak bu çalışma, AI hakemlerinin insan değerlendiricilerin yerini alan varlıklar olmaktan çok, daha geniş bir sorun yelpazesini hızla tespit eden ve ayrıntılı kontrol yapan tamamlayıcılar olarak umut vadettiğini ikna edici biçimde ortaya koyuyor ve gelecekte bilimsel değerlendirmede insan ile AI arasındaki iş bölümünü yeniden tanımlamak için önemli bir dayanak sunuyor.
Özet(Abstract)
AI’ın performansı arttıkça, AI hakemleri bilimsel akran değerlendirmesine dahil edilmeye başlandı; ancak yetkinlikleri ve güvenilirlikleri hâlâ soru işareti olmaya devam ediyor. Birçok bilim insanı bunları araştırmayı değerlendirecek uzmanlığa sahip olmayan olasılıksal sistemler olarak görürken, başka araştırmacılar somut kanıt olmaksızın hazır oldukları konusunda daha iyimser bir değerlendirme yapıyor. AI hakemlerinin neyi iyi yaptığı, nerede yetersiz kaldığı ve hangi zorlukların sürdüğünü anlamak kritik önem taşıyor. Ancak mevcut AI hakemi değerlendirmeleri çoğunlukla verdikleri kararların insan kararlarıyla örtüşüp örtüşmediğine (ör. puan uyumu, kabul tahmini) odaklandı; bu ise onların yeteneklerini ve sınırlarını tanımlamak için yeterli değil. Bu makalede, bu boşluğu büyük ölçekli bir uzman anotasyon çalışmasıyla kapatıyoruz. Fizik bilimleri, yaşam bilimleri ve sağlık bilimleri alanlarından 45 alan uzmanı bilim insanı, 469 saat harcayarak Nature ailesinden 82 makaleye yönelik insan yazımı ve AI üretimi değerlendirmelerde yer alan, her biri makalenin belirli tek bir yönünü hedefleyen 2.960 eleştiriyi doğruluk, önem ve kanıtın yeterliliği açısından puanladı. Üç boyutun birleşik ölçütünde, GPT-5.2 ile çalışan bir değerlendirme ajanı her makaledeki en yüksek puanlı insan hakemi geride bırakıyor (%60,0’a karşı %48,2, p = 0.009); Gemini 3.0 Pro ve Claude Opus 4.5 dahil tüm AI hakemleri ise her boyutta en düşük puanlı insan hakemden daha yüksek performans gösteriyor. Ayrıca AI hakemlerinin doğru eleştirileri daha sık önemli ve yeterince kanıtlanmış olarak değerlendirildi ve insanların gündeme getirmediği özgün sorunların %26’sını ek olarak ortaya çıkardı. Ancak AI hakemleri arasındaki örtüşme insanlara kıyasla çok daha yüksekti (hakem çiftleri bazında %21’e karşı %3) ve çoklu dosyalara yayılan uzun bağlamı yönetme becerisindeki sınırlılıklar, alt alan bilgisi eksikliği ve küçük sorunlara karşı aşırı eleştirel tutum gibi insanların paylaşmadığı 16 tekrarlayan zayıflık da sergilediler. Genel olarak sonuçlarımız, mevcut AI hakemlerinin insan hakemlerin yerine geçen değil, onları tamamlayan unsurlar olduğunu gösteriyor.
With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
Makale bağlantısı
https://arxiv.org/abs/2605.20668
Daha fazla bilgi
https://prometheus-eval.github.io/cmu-paper-reviewer/
https://github.com/prometheus-eval/cmu-paper-reviewer
https://huggingface.co/datasets/prometheus-eval/peerreview-bench
LiveBrowseComp: arama ajanları gerçekten arama mı yapıyor, yoksa zaten bildiklerini mi doğruluyor? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
Makale tanıtımı
Büyük dil modeli (Large Language Model, LLM) tabanlı arama ajanları, dış web’i tarayarak güncel olguları bulabilme yetenekleriyle dikkat çekiyor; ancak bu çalışma, pratikte bu ajanların yeni bilgi keşfetmekten çok zaten içsel olarak barındırdıkları bilgiyi (intrinsic knowledge) web üzerinden doğrulamakla yetinmesi sorunundan yola çıkıyor. Yazarlar bu olguyu İçsel Bilgi Bağımlılığı (Intrinsic Knowledge Dependence, IKD) olarak tanımlıyor ve arama araçlarının ajanın muhakemesini gerçekte ne kadar genişlettiğini hassas biçimde teşhis etmek için üç bakış açısından bir analiz tasarlıyor. İlk olarak, aracın tamamen kaldırıldığı closed-book ayarında modelin ne kadar yanıt verebildiğini ölçerek mevcut benchmark’ların en baştan ne ölçüde modelin iç bilgisinin kapsamına girdiğini incelediler. İkinci olarak, aramaya izin verip doğru yanıtı destekleyen kanıt belgelerini kaldırarak ajanın gerçekten dış kanıtı kullanıp kullanmadığını, yoksa yalnızca zaten aklına getirdiği hipotezi doğrulamaya mı dayandığını gözlemlediler. Üçüncü olarak ise arama izlerini takip edip sorguların model içinde üretilen hipotezlerden mi, yoksa arama sonuçlarından elde edilen ipuçlarından mı başladığını sınıflandırarak aramanın bir keşif (discovery) süreci mi yoksa bir doğrulama (verification) süreci mi olduğunu ayırt etmeye çalıştılar. Bu metodoloji, yalnızca doğru yanıt oranlarını karşılaştırmanın ötesine geçip arama ajanlarının gerçek çalışma mekanizmasını ayrıştırması bakımından önem taşıyor.
Analiz sonuçları, mevcut arama benchmark’larının arama yeteneği ile belleğe dayalı yeniden doğrulamayı birbirine karıştırabildiğini açıkça gösteriyor. Bazı modeller araç olmadan da BrowseComp sorularının %44,5’ine kadarını çözebildi; arama sorgularının yarısından fazlası arama sonuçlarından değil, modelin içinde oluşturulan hipotezlerden başladı; ayrıca doğru yanıtı destekleyen kanıtlar kaldırıldığında performans, closed-book ölçütünün bile altına düştü. Bu, arama ajanlarının web’den yeni olgular bulmaktan çok, zaten bildikleri içeriği aramayla doğrulama eğiliminin güçlü olduğuna işaret ediyor. Bu sorunu çözmek için yazarlar LiveBrowseComp adlı yeni bir deep-search benchmark’ı öneriyor. LiveBrowseComp, benchmark oluşturulma tarihinden önceki son 90 gün içinde yayımlanmış olgulara dayanan, insanlar tarafından yazılmış 335 sorudan oluşuyor ve GDELT, TMDB, RAWG, CVE/NVD, SportsDB, USGS olmak üzere sürekli güncellenen altı kaynağa dayanarak mevcut modellerin önbilgisiyle kolayca çözülemeyecek şekilde tasarlanmış. Ayrıca dünya çapında geniş ölçekte bilinen olaylar dışlanarak yalnızca basit hatırlama ya da sağduyuya dayalı tahminle doğruya ulaşma olasılığı azaltıldı. Sonuç olarak değerlendirilen tüm ajanlar %2’nin altında closed-book doğrulukta kaldı; arama eklenmiş puanlar da BrowseComp’a kıyasla 25 ila 40 puan düştü ve önceki model sıralamaları artık performansı istikrarlı biçimde öngöremez hale geldi. Nihayetinde bu çalışma, arama ajanlarının performansını değerlendirirken “zaten bildiğini ne kadar iyi doğruladığına” değil, “mevcut bilgi sınırlarının ötesine geçip bilmediği olguları gerçekte ne kadar bulabildiğine” bakılması gerektiğini ikna edici biçimde ortaya koyuyor.
Özet(Abstract)
LLM tabanlı arama ajanları gerçekten arama mı yapıyor, yoksa web’i kullanarak zaten bildiklerini mi doğruluyor? Bu soruyu BrowseComp üzerinde üç tanısal ölçütle inceliyoruz. Analizimiz İçsel Bilgi Bağımlılığı’nı (Intrinsic Knowledge Dependence, IKD) ortaya çıkarıyor. Yani ajanlar, araçlara erişimi olsa bile, arama yoluyla elde edilen dış kanıtlardan ziyade, modelde aramadan önce kodlanmış içsel bilgiye sıklıkla dayanıyor. Ajanlar araç kullanmadan BrowseComp sorularının %44,5’ine kadarını yanıtlıyor, arama sorgularının yarısından fazlasını aramadan elde edilen ipuçlarından değil içsel olarak üretilen hipotezlerden oluşturuyor ve yanıtı destekleyen kanıt kaldırıldığında closed-book baseline’larından daha kötü performans gösteriyor. Bu sonuçlar, statik arama benchmark’larının kanıta dayalı keşiften çok belleğe dayalı doğrulamayı ödüllendirebildiğini ve ajanların zaten bildikleriyle gerçekten bulabileceklerini birbirine karıştırabildiğini gösteriyor.
Ardından, ajanları içsel bilgi kapsamının ötesinde değerlendirmek üzere tasarlanmış deep-search benchmark’ı LiveBrowseComp’i tanıtıyoruz. Bu benchmark, yanıtları benchmark oluşturulmadan önceki 90 gün içinde yayımlanmış olgulara dayanan, insan tarafından yazılmış 335 sorudan oluşuyor. Sorular güncellenen 6 kaynaktan çekildi ve dünya çapında geniş ölçüde bilinen olayları dışlayacak şekilde filtrelendi. LiveBrowseComp üzerinde değerlendirilen tüm ajanların closed-book doğruluğu %2’nin altında kalırken, arama destekli puanlar BrowseComp’a göre 25-40 puan düşüyor ve önceki model sıralamaları artık performansı güvenilir biçimde öngörmüyor. LiveBrowseComp’e https://huggingface.co/datasets/Forival/LiveBrowseComp adresinden erişilebilir.
LLM tabanlı arama ajanları gerçekten arama mı yapıyor, yoksa web’i kullanarak zaten bildiklerini mi doğruluyor? Bu soruyu BrowseComp üzerinde üç tanısal yöntemle inceliyoruz. Analizimiz İçsel Bilgi Bağımlılığı’nı (Intrinsic Knowledge Dependence, IKD) ortaya koyuyor: araç erişimi olsa bile ajanlar, getirimden önce modelde kodlanmış bilgi olan içsel bilgiye, dış kanıtlardan daha sık dayanıyor. Ajanlar BrowseComp sorularının %44,5’ine kadarını araç kullanmadan yanıtlıyor, arama sorgularının yarısından fazlasını getirilen ipuçlarından değil içsel olarak üretilmiş hipotezlerden oluşturuyor ve yanıtı destekleyen kanıt kaldırıldığında closed-book baseline’larından daha kötü performans gösteriyor. Bu sonuçlar, statik arama benchmark’larının kanıta dayalı keşif yerine belleğe dayalı doğrulamayı ödüllendirebildiğini ve ajanların zaten bildikleriyle gerçekten bulabileceklerini birbirine karıştırabildiğini gösteriyor. Ardından, ajanları içsel kapsamın ötesinde değerlendirmek için tasarlanmış bir deep-search benchmark’ı olan LiveBrowseComp’i tanıtıyoruz. Bu benchmark, yanıtları benchmark oluşturulmadan önceki 90 gün içinde yayımlanmış olgulara dayanan, insan tarafından yazılmış 335 sorudan oluşuyor; sorular güncellenmiş altı kaynaktan derlenmiş ve küresel ölçekte öne çıkan olaylar dışlanacak şekilde filtrelenmiştir. LiveBrowseComp üzerinde değerlendirilen tüm ajanların closed-book doğruluğu %2’nin altına düşüyor, arama destekli puanlar BrowseComp’a kıyasla 25-40 puan azalıyor ve önceki model sıralamaları artık performansı güvenilir biçimde öngörmüyor. LiveBrowseComp’e https://huggingface.co/datasets/Forival/LiveBrowseComp adresinden erişilebilir.
Makale bağlantısı
https://arxiv.org/abs/2605.28721
Daha fazlası
https://huggingface.co/datasets/Forival/LiveBrowseComp
Yüksek boyutlu deneysel verilerden dinamiklerin faz uzayını öğrenmek için bilgi darboğazı / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
Makale tanıtımı
Yüksek boyutlu görüntü veya zaman serisi gözlemlerinden sistemin gerçek dinamiklerini yöneten durum değişkenlerini ortaya çıkarma problemi, fizik, biyoloji ve karmaşık sistemler araştırmalarının genelinde son derece önemli bir görev olarak görülmektedir. Gözlem değerlerinin kendisi çok miktarda gürültü ve yinelenen bilgi içerse de, bunun altında çoğu zaman nispeten düşük boyutlu bir faz uzayı yapısı bulunur; bu nedenle asıl mesele gözlemleri olduğu gibi yeniden kurmak değil, bu dinamikleri en iyi açıklayan gizil koordinatları bulmaktır. Yazarlar bu bakış açısından hareketle DySIB'yi (Dynamical Symmetric Information Bottleneck, Dinamik Simetrik Bilgi Darboğazı) öneriyor ve geçmiş ile gelecek gözlem pencereleri arasındaki predictive mutual information'ı en üst düzeye çıkarırken aynı anda gizil gösterimin karmaşıklığını bastıracak şekilde düşük boyutlu gösterimler öğreniyor. Bu yaklaşımın önemli bir özelliği, yeniden yapılandırma hatasını doğrudan en aza indiren autoencoder'lardan farklı olarak, giriş görüntüsünü yeniden üretmeden öğrenmenin yalnızca gizil uzayda gerçekleşmesidir; böylece dinamik tahmin için gerekli bilgiyle ilgisiz ayrıntılı değişimler cesurca elenebilir.
DySIB'nin metodolojisi, Information Bottleneck ilkesinin dinamik öğrenme problemine genişletilmiş bir biçimidir; gizil gösterimin yalnızca sıkıştırılmış bir vektör değil, geleceği iyi tahmin eden bir sufficient statistic'e yakın bir rol üstlenmesi için tasarlanmıştır. Bunun için geçmişi ve geleceği simetrik biçimde ele alan bir yapı benimsenir, predictive information InfoNCE alt sınırı kullanılarak kestirilir ve Gaussian ön dağılım ile gösterimin karmaşıklığı kontrol edilir. Ayrıca zaman gecikmeli gömme ve paylaşımlı encoder kullanılarak geçmiş ve gelecek pencereleri aynı geometrik ölçüte göre eşlenir; bu da gizil uzaydaki karşılaştırılabilirliği ve yorumlanabilirliği artırır. Bu tasarım, basitçe gelecekteki kareleri üretmeye değil, dinamiklerin öz yapısını taşıyan bir koordinat sistemi öğrenmeye odaklanması bakımından mevcut tahmin modellerinden ayrılır.
Ampirik doğrulama, fiziksel sarkaçın deneysel video verileri üzerinde gerçekleştirilmiştir; gerçek durum uzayı zaten bilinen bir sistem olduğu için bu, öğrenilen gizil koordinatların tutarlılığını sıkı biçimde değerlendirebilecek ideal bir test ortamı sunar. Sonuç olarak DySIB, gizil boyutu ve zaman penceresi uzunluğunu veriye uygun şekilde öz tutarlı biçimde seçerken, sarkacın gerçek serbestlik dereceleriyle eşleşen iki boyutlu bir gösterimi yeniden elde etti ve öğrenilen koordinatlar açı ile açısal hıza pürüzsüz biçimde karşılık geldi. Dahası bu gösterim, kararlı denge noktası, kararsız saddle, separatrix ve dönme ile salınımı ayırt eden halkasal topolojik yapıya kadar yeniden üreterek, yalnızca görsel benzerliğin ötesinde boyutsallığı, topolojiyi ve geometrik yapıyı birlikte yakaladığını gösterdi. Küçük çözünürlüklü videolarda bile bu yeniden elde etmenin mümkün olması, DySIB'nin gereksiz gözlemsel ayrıntıları atıp yalnızca dinamik açıdan önemli bilgileri çıkarmada etkili olduğunu desteklemektedir.
Bu çalışmanın önemi, yüksek boyutlu gözlemlerden yorumlanabilir dinamik koordinatların doğrudan keşfedilebileceğini göstermesidir. Özellikle fizikte uzun süredir kullanılan durum değişkeni, etkin değişken ve düzen parametresi kavramlarını veri temelli olarak yeniden kurması açısından DySIB, geleneksel kuramsal fizik ile modern gösterim öğrenmesi arasında metodolojik bir köprü olarak görülebilir. Aynı zamanda gizil gösterimin tekil olmaması, gauge freedom ve daha karmaşık doğrusal olmayan sistemlere genişletilebilirlik gibi sınırlılıkları da açıkça ortaya koyuyor; bu da gelecekte güçlü gürültü, kaotik sistemler veya çok ölçekli sistemlere genelleme ile birleşme ihtimalini açık bırakıyor. Buna rağmen bu makale, yalnızca predictive information ile bile gerçek faz uzayının koordinatlarının yeniden elde edilebileceğini deneysel olarak kanıtlayarak, ham gözlemlerden yorumlanabilir hareket denklemlerine uzanan yeni bir araştırma hattı öneriyor.
Özet(Abstract)
Yüksek boyutlu gözlem değerlerinden bir sistemin dinamik durum değişkenlerini tanımlamak, fizik bilimleri genelinde temel bir problemdir. Zorluk, durum değişkenlerinin doğrudan gözlemlenememesi ve ham yüksek boyutlu veriden gözetimsiz olarak çıkarılması gerekmesidir. Bu çalışmada, geçmiş ve gelecek gözlem pencereleri arasındaki predictive mutual information'ı en üst düzeye çıkarırken gösterim karmaşıklığına ceza vererek zaman serisi verilerinin düşük boyutlu gösterimlerini öğrenen bir yöntem olarak DySIB'yi (Dynamical Symmetric Information Bottleneck, Dinamik Simetrik Bilgi Darboğazı) tanıtıyoruz. Bu amaç fonksiyonu tamamen gizil uzayda çalışır ve gözlemlerin yeniden yapılandırılmasını gerektirmez. DySIB'yi, altta yatan durum uzayının bilindiği fiziksel bir sarkaçtan elde edilmiş deneysel video veri kümesine uyguladık. Öğrenme mimarisinin hiperparametreleri verinin kendisi tarafından öz tutarlı biçimde ayarlanan bu yöntem, sarkaç faz uzayının boyutsallığı, topolojisi ve geometrisiyle eşleşen iki boyutlu bir gösterimi yeniden elde etti; öğrenilen koordinatlar da standart açı ve açısal hızla pürüzsüz biçimde hizalandı. Bu sonuçlar, iyi karakterize edilmiş bir deneysel sistem üzerinde, gizil uzaydaki predictive information kullanılarak yüksek boyutlu veriden yorumlanabilir dinamik koordinatların doğrudan yeniden elde edilebileceğini göstermektedir.
Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.
Makale bağlantısı
https://arxiv.org/abs/2604.24662
AutoScientists: Uzun süreli bilimsel deneyler için kendi kendini organize eden ajan ekipleri / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Makale tanıtımı
Uzun vadeli bilimsel deneylerde hipotez kurma, deneyi tasarlama, yürütme ve ardından sonuçlara göre yönü yeniden düzeltme döngüsü tekrar tekrar işler. AutoScientists, bu süreci yinelemeli bir keşif problemi olarak formüle ediyor ve bunu gerçekleştirmek için dağıtık bir ajan sistemi öneriyor. Mevcut yapay zeka ajanları çoğunlukla tek bir araştırma rotasını izler ya da merkezi bir planlayıcının belirlediği sabit hedefleri yerine getirirken, bu yöntem birden fazla ajanın paylaşılan durumu (shared state) birlikte okuyup yazarak kendi ekiplerini kurup yeniden yapılandıracak şekilde tasarlanmış. Temel fikir, merkezi olarak toplu talimat vermek yerine, kanıtların birikme biçimine uyum sağlayarak ajanların umut vadeden hipotezlerin etrafında özerk biçimde toplanması, deney kaynaklarını kullanmadan önce birbirlerinin önerilerini eleştirel biçimde gözden geçirmesi ve hem başarıları hem de başarısızlıkları paylaşarak gereksiz yinelenen keşfi azaltmasıdır. Bu amaçla makale, görev açıklaması, başlangıç programı, eğitim veri kümesi ve değerlendirme metriklerine dayanarak keşif uzayında değerlendirme performansını en üst düzeye çıkaran programı bulma şeklinde bir optimizasyon problemi tanımlıyor; ayrıca uzun vadeli deneylerin değerlendirme ölçütlerini netleştirmek için eğitim verisi ile doğrulama verisini ve gerekirse çapraz doğrulamayı (cross-validation, CV) birbirinden ayırıyor. Bu problem kurgusu, bilimsel keşfi basit bir tek seferlik tahmin olarak değil, program düzeyindeki değişiklik ve doğrulamaların sürekli biriktiği bir araştırma süreci olarak görmemizi sağlaması bakımından önemli.
AutoScientists’in çalışma biçimi esas olarak tartışma aşaması ile yürütme aşamasının döngüsünden oluşuyor. Tartışma aşamasında ajanlar, mevcut en iyi aday olan şampiyon model, geçmiş deney kayıtları ve paylaşılan forum içeriğine dayanarak hangi hipotezin umut verici olduğunu tartışıyor; başlangıçta farklı keşif yönlerini geniş biçimde öneriyor, ardından birbirlerinin fikirlerini eleştirerek keşif uzayındaki kör noktaları buluyorlar. Sonrasında yürütme aşamasında, bu şekilde oluşan ekipler deneyleri paralel olarak yürütüyor ve her deneyin sonucunu deney günlüklerine ve paylaşılan foruma kaydederek diğer ekiplerin hemen yararlanabilmesini sağlıyor. Özellikle bu sistem, analist rolündeki ajanların henüz denenmemiş yönleri bulup önermesi ve deneyci rolündeki ajanların gerçek kod değişikliklerini ve eğitimi yürütmesi şeklinde işlevleri ayırarak, uzun deney süreçlerinde sık görülen darboğazları azaltıyor. Ayrıca başarısız deneyleri ayrı bir listede tutarak aynı yönün tekrar edilmesini önlüyor; performans artışının istatistiksel gürültü olma ihtimali varsa da ancak ek seed’lerle yeniden doğrulandıktan sonra terfi ettiriyor. Böylece tesadüfi iyileşmelerin gerçek ilerleme sanılmasının önüne geçiliyor.
Bu yaklaşımın en büyük gücü, yalnızca daha fazla fikir üretmesinde değil, deney bilgisinin biriktiği yapıyı sistematik hale getirmesinde yatıyor. Ajanlar iç durumlarını ve belleklerini koruyarak uzun süre boyunca öğreniyor, başarılı değişikliklerin mekanizmasını analiz edip bunu sonraki hipotezlere bağlıyor ve başarısız yönleri bile tüm sistemin öğrenme varlığı olarak saklıyor. Sonuç olarak AutoScientists, araştırma çıktısı olarak yalnızca en yüksek performanslı programı değil, model card ve araştırma sonuç raporunu da üreterek yeniden üretilebilirlik ve yorumlanabilirliği birlikte güvence altına alıyor. Bu tasarım, uzun soluklu bilimsel deneylerde önemli olan uyarlanabilirlik, paralellik ve başarısızlıktan öğrenmeyi tek bir sistemde bir araya getirmesi bakımından mevcut ajan yaklaşımlarından belirgin biçimde ayrılıyor. Gerçekten de bu yöntem, biyomedikal makine öğrenimi, dil modeli eğitim optimizasyonu ve protein uygunluk tahmininde mevcut ajanlardan daha iyi sonuçlar gösterdi; BioML-Bench’te ise 24 görev bazında ortalama liderlik tablosu yüzdelik değeri %74,4 ile en güçlü tekil ajana kıyasla %8,33 daha iyi bir sonuç elde etti. Ayrıca GPT eğitim optimizasyonunda hedef doğrulama bits-per-byte değerine Autoresearch’ten 1,9 kat daha hızlı ulaştı; ProteinGym’de de ACE2-Spike bağlanma problemi ile toplam 217 assay genelinde mevcut en iyi performansın üzerine çıkan iyileştirmeler göstererek, dağıtık ve kendi kendini organize eden ajanların uzun vadeli bilimsel keşifte somut etki yaratabileceğini kanıtladı.
Özet(Abstract)
Bilimsel araştırma; hipotez üretme, deney tasarlama, yürütme ve düzeltmenin yinelemeli döngüleriyle ilerler. AI ajanları bu sürecin bazı kısımlarını otomatikleştirebilir, ancak mevcut yaklaşımlar genellikle tek bir araştırma yörüngesini izler ya da sabit hedeflere sahip merkezi bir planlayıcı üzerinden koordine edilir. Sonuç olarak, paralel keşfi sürdürmekte, deneysel kanıtlar değiştikçe buna uyum sağlamakta veya uzun süreli deneylerde başarısız yönlere dair bilgiyi korumakta zorlanırlar. Biz, uzun soluklu hesaplamalı bilimsel deneyler için dağıtık bir AI ajan ekibi olan AutoScientists'i tanıtıyoruz. Ajanlar paylaşılan deney durumunu yorumlar, umut vadeden hipotezler etrafında kendi kendilerine ekipler oluşturur, deneysel hesaplama kaynaklarını kullanmadan önce önerileri eleştirir ve tekrar eden keşfi azaltmak için başarıları ve başarısızlıkları paylaşır. Aynı deney bütçesi altında AutoScientists, biyomedikal makine öğrenimi, dil modeli eğitim optimizasyonu ve protein uygunluk tahmini alanlarında önceki AI ajanlarına göre daha iyi performans gösterir. Biyomedikal görüntüleme, protein mühendisliği, tek hücre omikleri ve ilaç keşfini kapsayan BioML-Bench'teki 24 görevde AutoScientists, ortalama %74,4'lük bir liderlik tablosu yüzdelik dilimine ulaşarak en güçlü AI ajanına kıyasla +%8,33 iyileşme sağladı. GPT eğitim optimizasyonunda AutoScientists, hedef doğrulama bits-per-byte seviyesine Autoresearch'ten 1,9 kat daha hızlı ulaştı ve tek ajanlı yaklaşımın hiçbir iyileştirme bulamadığı başlangıç şampiyonu durumundan da iyileştirmeler keşfetmeyi sürdürdü (kabul edilen iyileştirme sayısı 7'ye karşı 0). ProteinGym uygunluk tahmininde AutoScientists, ACE2-Spike bağlanması için mevcut en ileri modelden Spearman korelasyonunda +%12,5 daha iyi olan bir yöntem keşfetti. Aynı yöntem, 217 ProteinGym assay'inin tamamına herhangi bir değişiklik yapılmadan uygulandığında da önceki en ileri düzeye göre Spearman korelasyonunda +%6,5 iyileşme sağladı.
Bilimsel araştırma; hipotez üretme, deney tasarlama, yürütme ve revizyonun yinelemeli döngüleriyle ilerler. AI ajanları bu sürecin bazı kısımlarını otomatikleştirebilir, ancak mevcut yaklaşımlar genellikle tek bir araştırma yörüngesini izler ya da sabit hedeflere sahip merkezi bir planlayıcı üzerinden koordine edilir. Sonuç olarak, paralel keşfi sürdürmekte, deneysel kanıtlar değiştikçe buna uyum sağlamakta veya uzun süreli deneylerde başarısız yönlere dair bilgiyi korumakta zorlanırlar. Uzun soluklu hesaplamalı bilimsel deneyler için dağıtık bir AI ajan ekibi olan AutoScientists'i tanıtıyoruz. Ajanlar paylaşılan deney durumunu yorumlar, umut vadeden hipotezler etrafında kendi kendilerine ekipler oluşturur, deneysel hesaplama kaynaklarını kullanmadan önce önerileri eleştirir ve tekrar eden keşfi azaltmak için başarıları ve başarısızlıkları paylaşır. Aynı deney bütçeleri altında AutoScientists, biyomedikal makine öğrenimi, dil modeli eğitim optimizasyonu ve protein uygunluk tahmini alanlarında önceki AI ajanlarına göre iyileşme sağlar. Biyomedikal görüntüleme, protein mühendisliği, tek hücre omikleri ve ilaç keşfini kapsayan BioML-Bench'te AutoScientists, 24 görev genelinde ortalama %74,4'lük bir liderlik tablosu yüzdelik dilimi elde ederek en güçlü AI ajanına göre +%8,33 iyileşme sağlıyor. GPT eğitim optimizasyonunda AutoScientists, hedef doğrulama bits-per-byte düzeyine Autoresearch'ten 1,9 kat daha hızlı ulaşıyor ve tek ajanlı yaklaşımın hiçbir iyileştirme bulamadığı bir başlangıç şampiyonundan da iyileştirmeler keşfetmeye devam ediyor (kabul edilen iyileştirmeler 7'ye karşı 0). ProteinGym uygunluk tahmininde AutoScientists, ACE2-Spike bağlanması için mevcut en ileri modeli Spearman korelasyonunda +%12,5 aşan bir yöntem keşfediyor. Aynı yöntem, 217 ProteinGym assay'inin tamamına herhangi bir değişiklik yapılmadan uygulandığında, önceki en ileri düzeye göre +%6,5 iyileşme sağlıyor (Spearman korelasyonu).
Makale bağlantısı
https://arxiv.org/abs/2605.28655
Daha fazla bilgi
https://autoscientists.openscientist.ai/
https://github.com/mims-harvard/AutoScientists
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta💌 ile gönderiyoruz! Yeni yazı bildirimlerini Telegram ya da Slack/Discord/Teams/Dooray/GoogleChat vb. üzerinden de alabilirsiniz. :D
Henüz yorum yok.