Meta Superintelligence, ilk dikkat çekici makalesi ‘REFRAG’ ile RAG verimliliğini 30 kat artırıyor

(paddedinputs.substack.com)

8 puan yazan GN⁺ 2025-10-12 | 1 yorum | WhatsApp'ta paylaş

Meta Superintelligence(MSI) tarafından yayımlanan ilk araştırma olan REFRAG, mevcut RAG (Retrieval-Augmented Generation) yapısını büyük ölçüde geliştirerek 30 kat daha hızlı yanıt süresi sağlayan yeni bir yaklaşım sunuyor
Temel fikir, belge parçalarını token olarak değil, LLM’in doğrudan anlayabileceği bir ‘Chunk Embedding’ biçimine dönüştürmek ve gerektiğinde yalnızca bir kısmını geri açan bir politika ağı kullanmak
Bu sayede KV cache ve attention maliyeti büyük ölçüde azalıyor, ilk token yanıt gecikmesi (TTFT) düşüyor, böylece hem kullanıcı deneyimi iyileşiyor hem de işletme maliyetleri azalıyor
Makale, model mimarisinde devrimden ziyade sistem ve uygulama katmanındaki verimliliğe odaklanarak, hemen ROI üretilebilecek bir teknik yönelim ortaya koyuyor
Bu yaklaşım, büyük modellerin performans sınırlarını ve maliyet sorunlarını dolanarak, gelecekte yapay zeka ürünlerinin ekonomisini yeniden tanımlama potansiyeli gösteriyor

MSI’ın ilk makalesinin yayımlanma arka planı

Meta Superintelligence(MSI) araştırma laboratuvarı, sektörün en iyi yetenekleri ve sıra dışı maaşlarıyla büyük dikkat çekti
MSI’ın ilk makalesi olarak pratik bir RAG (retrieval-augmented generation) konusunu seçmesi oldukça sıra dışı
Sektör, MSI’ın temel model performansını artırmaya ya da yeni mimariler geliştirmeye odaklanacağını bekliyordu; ancak pratik ve ekonomik etkisi anında görülebilen bir konuyu seçmesi şaşırtıcı oldu
RAG; yapay zeka ajanları, arama, müşteri desteği ve özetleme gibi ticari hizmetlerin temel bileşenlerinden biri ve yanıt gecikmesiyle maliyetler iş modelini doğrudan etkiliyor
Bu makale, RAG tabanlı yapay zeka ürünlerinde maliyet ve gecikmeyi büyük ölçüde azaltarak, anında ROI (yatırım getirisi) yaratabilecek bir yöntem öneriyor
- Gerçek dünyadaki sorunu 30 kat daha hızlı yanıt süresi ile dönüştürüyor
- Makale: REFRAG: Rethinking RAG based Decoding

REFRAG’ın teknik yapısı

1. Geleneksel RAG yöntemi, vektör DB’den ilgili belgeleri (chunk’ları) getirir ve LLM tüm chunk’ları tam token biçiminde alıp işler
2. REFRAG’de belgeler chunk’lara bölünür (yaklaşık 128 token), ardından her biri hafif bir encoder tarafından embedding tekil vektörüne dönüştürülür ve LLM’in embedding uzayına yansıtılır
- Bu embedding’ler önceden hesaplanıp cache’lenebilir
3. Kullanıcı bir sorgu verdiğinde ilgili chunk’lar getirilir
- chunk’ların çoğu embedding biçiminde LLM’e iletilir ve
- RL tabanlı politika ağı (policy) tarafından seçilen çok küçük bir kısmı tam token dizisi olarak genişletilip gönderilir
4. Bu politika ağı, RL (pekiştirmeli öğrenme) hedefiyle optimize edilir ve genişletilmesi gereken chunk’ları sınırlı bir bütçe içinde seçer
- Üretim kalitesini korurken perplexity’yi düşüren bir ödül fonksiyonu ile eğitilir
5. LLM, aldığı token dizisini (sorgu + genişletilmiş chunk’lar) ve birden fazla tekil vektör yer tutucusunu (sıkıştırılmış chunk’lar) birleştirerek metin üretir

Sonuçta LLM, “sorgu + geri açılmış bazı token’lar + birçok embedding vektörü” alarak daha kısa girdiden aynı çıktıyı üretebilir
Bu yapı sayesinde cache kullanımı, attention hesaplaması ve ilk yanıt süresi ciddi biçimde azalır

Teknik anlamı ve temel içgörü

Makaledeki temel nokta, politika ağının RAG sürecinde daha az önemli chunk’ları etkili biçimde sıkıştırması ve yalnızca önemli bölümleri açması
Daha önemli gizli içgörü ise şu: “Embedding zaten LLM’in iç katmanlarında üretiliyorsa, bunu yeniden doğal dile açmadan doğrudan embedding olarak iletmek mümkündür”
Yani LLM’in zaten anlayabildiği temsil uzayında veriyi doğrudan işlemek, yinelenen sıkıştırma sürecini ortadan kaldırıyor ve doğruluk kaybı olmadan hızı dramatik biçimde artırıyor
Bu yaklaşım, “token’ı optimize etmek yerine token kavramının kendisini değiştirmek” şeklinde özetlenebilir

Güncel yapay zeka değer zincirindeki önemi

LLM alanındaki iki yenilik vektörünün karşılaştırması
- Model düzeyi yenilik: yeni mimariler, daha büyük modeller, yeni ön eğitim
  - yüksek risk, yüksek getiri, uzun zaman çizelgesi, büyük sermaye gereksinimi
- Uygulama/sistem düzeyi verimlilik: çıkarım optimizasyonu, arama teknikleri, orkestrasyon
  - düşük risk, anında ROI, doğrudan gelirleştirilebilir
REFRAG ikinci yöne ait ve GPU başına daha yüksek throughput, daha düşük işletme maliyeti ve daha iyi UX şeklinde net bir ROI sunuyor
Şirketler ve ürün ekipleri, REFRAG yaklaşımını gerçek ortamda uygulayarak GPU başına throughput artışı, altyapı maliyetlerinde düşüş ve UX iyileştirmesi etkisini hemen test edebilir
Bu yöntem, retriever ve reranker ile bağımsız biçimde birleştirilebildiği için mevcut RAG pipeline’larına esnek şekilde uygulanabilir
Özellikle vektör DB pazarındaki rekabetin sertleştiği bir dönemde, Pinecone’un satış söylentileri gibi sektörel hareketlerle birlikte RAG verimliliğini artırma konusu son derece zamanında bir araştırma başlığı

Beklenen sınırlamalar

Eğitim ve mühendislik karmaşıklığı
- Encoder + projection eklenmesi ve LLM’in embedding’leri anlayacak şekilde eğitilmesi gerekir (yeniden yapılandırma ön eğitimi + SFT)
- Seçimli politika RL açısından yönetilebilir olsa da geliştirme karmaşıklığı ekler
Sıkıştırma sınırları
- Aşırı agresif sıkıştırma, nihayetinde aşağı akış kalite kaybına yol açar
- Embedding boyutu ile genişletme sıklığı arasında bir trade-off vardır
Güncellik sorunu
- Önceden hesaplanan chunk embedding’leri statik corpus’lar için uygundur
- Sık değişen verilerde embedding’leri yeniden hesaplayan bir pipeline ya da hibrit bir strateji gerekir
Kullanım senaryosuna göre değerlendirmeler
- Özetleme kabaca yeterli olabilir; ancak belirli hassasiyetin kritik olduğu görevlerde (hukuki akıl yürütme, doğru alıntılar, hassas tıbbi bilgiler) dikkatli değerlendirme gerekir
- Böyle durumlarda daha düşük bir sıkıştırma bütçesi gerekebilir

Sonuç ve çıkarımlar

Makalenin temel sorusu: "Token maliyetini optimize etmeye çalışmak yerine, tamamen farklı türde token’lar kullansak ne olur?"
REFRAG, “LLM’in okuduğu token kavramını yeniden tanımlayarak”, RAG’in yapısal sınırlarını hafifletiyor ve yapay zeka ürünlerinin birim maliyet yapısını değiştiren pratik bir yenilik öneriyor
Gelecekteki genişleme olasılıkları
- LLM read tarafında embedding-native hale gelebiliyorsa, write tarafında da embedding-native olup ajanları genel olarak 30 kat hızlandırmak mümkün olabilir mi?
- Embedding modelinin token başına maliyeti neredeyse sıfırsa, başka bir mimariye geçerek token fiyatı büyük ölçüde düşürülmüş mü oluyor? Dezavantajları neler?
REFRAG, her yeniliğin daha büyük modellerden gelmediğini hatırlatıyor
- RAG’i büyük ölçekte daha ucuz ve daha hızlı hale getirmek, ürün ekonomisinde doğrudan bir kaldıraçtır
- Sektör, bu tür kazanımları operasyonelleştiren ekipleri ödüllendirecektir

1 yorum

GN⁺ 2025-10-12

Hacker News görüşleri

Bu makalenin süperzekayla ilgili olmadığını, yeniden yapılanmadan önce bu konu üzerinde çalışan ekibin isim değişikliğinden sonra makaleyi yayımladığını açıklıyor. Birçok kişi Meta'nın artık makale yayımlamayacağını ve OpenAI gibi olacağını düşünüyordu, ancak Meta hâlâ makale yayımlamayı ve açık model ağırlıkları sunmayı hızlı biçimde sürdürüyor
- Meta'nın yayımladığı şeyin açık kaynak değil, açık ağırlıklı model olduğu vurgulanıyor. Hatta bu ağırlıklar bile Apache 2'den daha sıkı bir lisansla yayımlanıyor
- MSL'nin (ilgili ekip) yalnızca birkaç ünlü isimden oluşmadığı vurgulanıyor
RAG (Retrieval-Augmented Generation) hakkındaki tartışmalarda terimin çok farklı anlamlarda kullanılmasının kafa karıştırıcı olduğunu söylüyor. Ona göre RAG, önceden tanımlı bir belge deposundaki her belge parçasını vektör gömmeye dönüştürüp gerektiğinde yalnızca belirli parçaları bağlama ekleyen bir sistem. Ya da LLM sohbet arayüzünde anahtar kelimelerle web araması yapıp yalnızca bağlamla ilgili belgeleri geçici olarak ekleyen bir özellik. Uzun bağlam pencereleri desteklendiğinde ne olacağını merak ediyor. Tüm bilgiyi tek seferde bağlama koymanın çeşitlilik kaybına yol açabileceğinden endişe ediyor; bunun tutarlılığa yardımcı olup olmayacağını bilmediğini, ama sonuçta hangi bilginin tutulup hangisinin atılacağına karar verme yönteminin yine RAG sayılabileceğini düşünüyor. Bir uzmanın açıklamasını duymak istiyor
- Teknik olarak RAG, üretimi dış aramayla destekleyen tüm yöntemleri kapsar. Ancak genel kullanımda anlamı çoğu zaman vektör DB kullanan yöntemlere kadar daralır. Büyük bağlam pencerelerine tüm bilgiyi doldurmak pratik değildir. İşleme daha uzun sürer ve bilgi çok fazla olursa modelin gerekli bilgiyi düzgün biçimde bulması zorlaşır. Sonuç olarak düşük gecikme gerektiğinde veya bellek kısıtları olduğunda “klasik” RAG yaklaşımı hâlâ faydalıdır
- Kilit noktanın uyarlanabilirlik olduğu söyleniyor. RAG ile non-RAG arasındaki temel fark, indeks oluşturma anında sorunun bilinip bilinmediği ve getirilen belgeler arasında karşılaştırma ile soruyu alt parçalara ayırma yeteneğinin olup olmadığı. Non-RAG, çok katmanlı nedensel olmayan transformer'lar gibi yapılarla soru ve belgeyi aynı anda gördüğü için daha genel ve derin öğrenme açısından optimize etmesi daha kolay. Buna karşılık RAG hızlı ve ucuz, ancak dış araçlar kullandığı için end-to-end eğitimi zor (RL gibi ödül temelli öğrenme gerekiyor). RAG'de belgeler birbirinden bağımsız ve indeksleme anında soru bilinmiyor. Hibrit biçimde RAG çıktılarının non-RAG'e verilerek birleştirilmesi de mümkün. Non-RAG büyük veri kümeleri gerektiriyor, ancak tüm web'i eğitirseniz performans sürekli iyileşiyor. Belirli durum performansını artırmak aslında daha kolay olabiliyor. RAG, girdi kontrolü ve yapısal veride güçlü; en kötü senaryoları önlemekte avantajlı, ancak en iyi senaryoyu daha da iyileştirmek zor
- Bağlama sonsuz miktarda bilgi koyulamayacağını düşünüyor. Kendi deneyimine göre GPT-5 birkaç sayfa sonra hızla kafası karışıyor. Bu kadar çok şey verilse bile hatırlayamıyor
- Aslında “RAG öldü” diyen kimse olmadığını düşünüyor. Tüm interneti LLM bağlamına koymak imkânsız ve koydukça maliyet artıyor
Meta'da en üst düzey yetenekler vardı, ancak potansiyellerini yeterince kullanamadıkları anlaşılıyor. Ona göre sadece performans metriklerine aşırı odaklanmayıp araştırmacılara özerklik verilseydi yapay zeka yarışında daha ileride olabilirlerdi. Yeni katılan ekipte sistem kurma konusunda iyi olanlar ve paraya daha çok ilgi duyanlar ağırlıkta gibi görünüyor. Aslında bu eğilim her büyük teknoloji araştırma laboratuvarında açıkça var. Bu organizasyonlar fazla riskten kaçıyor. Eskiden araştırmacılara özgürlük verildiği için bugünkü Silikon Vadisi'nin ortaya çıktığını düşünüyor. Kendisi de dahil yüzlerce ML araştırmacısının, özerklik ve kaynak verilirse çok daha düşük maaşa bile isteyerek çalışacağını söylüyor. Meta'nın da şu anda harcadığı parayı biraz daha çeşitli biçimde kullanıp Silikon Vadisi'ni büyüten ilkelere yeniden dönmesi gerektiğini savunuyor
- Ona göre rakip sayısı arttıkça “gerçekten yetenekli” kişilerden çok sistemi iyi kullananların en üst sıralarda kalması gibi bir durum ortaya çıkıyor. GAFAM işe alımları ya da Tinder örneklerine bakınca da bu eğilim görülüyor
- Şirket laboratuvarlarının araştırmacıya özgürlük vermesinin gerçekte işe pek yaramadığını düşünüyor. Bell Labs veya Microsoft Research gibi örneklerde de çok büyük araştırmalar yapıldı ama bunların şirketin ana işiyle bağlantısı son derece sınırlı kaldı. Buradaki argüman, AI araştırmasının Meta'ya doğrudan gelir ya da rekabet avantajı sağlamaktan ziyade kolektif bilgi birikimini artırdığı yönünde. Şirket açısından bu model çok uygun değil. Öte yandan bugün akademide araştırmacı olsanız bile öğrenci yönetimi ve toplantılarla meşgulsünüz
- Yapay zeka ilerleme hızının yavaşladığı yönündeki söylemi sorguluyor. Bunun neye göre ölçüldüğünü soruyor. Alanı gerçekten takip eden birinin buna katılmasının zor olduğunu düşünüyor
- Meta'nın baskısı altında, çok yüksek maaş alan matematikçilerin gerçekten özgürce düşünmeye zaman bulup bulamadığını hep merak ettiğini söylüyor
- Alex Wang'in seçimini ilginç buluyor. İyi AI araştırma laboratuvarı CEO'ları çok, Wang'in etkileyici yanları olsa da esasen MTurk ve piyasa zamanlaması dışında bir şey görmediğini söylüyor. AGI'yi yönetecek bir CEO profiline uymadığını düşünüyor
Yeni laboratuvarın ilk makalesinin pratik ve gerçekçi bir RAG konusu olması şaşırtıcı bulunuyor. Genelde yeni bir laboratuvarda ilk aşamada herkes kendi üzerinde çalıştığı konulardan birkaç makale yayımlar, ekip çalışması ve sinerji yeterince oluşunca asıl yenilikçi araştırmalar gelir. Önemli bir “ilk makale”ye fazla anlam yüklenirse başlangıçtan itibaren gereksiz baskı oluşabileceği söyleniyor
- Kendisi de akademide ilk makaleye özel bir anlam yüklenmediğini söylüyor. İlk makalelerin çoğu, lisansüstü öğrencisinin danışmanın mevcut projesine yaptığı katkının sonucu. Gerçekte makalelerin büyük kısmı profesörün elinden çıkıyor. Laboratuvar düzeyinde bile “ilk makale”nin özel bir değeri olduğuna dair bir şey duymadığını belirtiyor
Meta'nın süperzeka ekibinden çıkan makalenin gerçekten bu ekip içinde planlanıp planlanmadığını, yoksa daha önce bu iş üzerinde çalışan kişilerin ekip değişikliğinden sonra yayımladığı bir çalışma olup olmadığını merak ediyor. İlk olasılığın daha yüksek olduğunu tahmin ediyor
- Başka bir görüş ise ikincisinin doğru olduğunu belirtiyor (yeniden yapılanma sonrasında yayımlanan makale) referans
RAG makalesiyle ilgili YouTube açıklama videosunu özetleyip paylaşıyor video linki
Makaledeki grafik ve tablolarda TF-IDF ya da basit kelime örtüşmesi gibi mevcut kolay ve istatistiksel bağlam sıkıştırma teknikleriyle karşılaştırmanın hemen görünmediğini söylüyor. Sektörde, performans neredeyse aynı kalırken bilgi miktarını 10 kat azaltan bu tür basit yöntemler çok önemli
Benzer bir fikri düşünüp uygulamayı denediğini söylüyor. Gelecekte LLM'lerin çeşitli embedding formatlarını daha kolay işleyebilmesi için bunu basitleştiren bir framework'e ihtiyaç olduğunu düşünüyor
RAG ile ilgili open-source proje bağlantısını paylaşıyor REFRAG
Haber başlığının fazla sansasyonel olduğunu, daha bilgilendirici ve daha az tıklama odaklı bir başlık istediğini söylüyor
- Haberin baskın dilini kullanarak daha bilgilendirici ve daha az sansasyonel bir başlığın ne olabileceğini merak ediyor

Meta Superintelligence, ilk dikkat çekici makalesi ‘REFRAG’ ile RAG verimliliğini 30 kat artırıyor

MSI’ın ilk makalesinin yayımlanma arka planı

REFRAG’ın teknik yapısı

Teknik anlamı ve temel içgörü

Güncel yapay zeka değer zincirindeki önemi

Beklenen sınırlamalar

Sonuç ve çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşleri