22 puan yazan GN⁺ 2025-03-20 | 1 yorum | WhatsApp'ta paylaş
  • Öneri sistemleri ve arama tarihsel olarak dil modellerinden ilham alarak gelişti
    • Word2vec → öğe embedding öğrenimi (embedding tabanlı arama)
    • GRU, Transformer, BERT → bir sonraki öneri öğesini tahmin etme (sıralama)
  • Günümüzde büyük dil modellerinin (LLM) paradigması da aynı yönde evriliyor
  • Başlıca gelişmeler
    • 1. LLM/multimodal güçlendirilmiş model mimarileri

    • 2. LLM tabanlı veri üretimi ve analizi

    • 3. Scaling Laws, transfer öğrenimi, bilgi damıtma, LoRA

    • 4. Arama ve önerinin birleşik mimarisi

LLM/multimodal güçlendirilmiş model mimarileri

  • Öneri modelleri, geleneksel ID tabanlı yaklaşımın sınırlarını aşmak için dil modellerini (LLM) ve multimodal içeriği devreye alıyor
  • Davranış modelleme gücü ile içerik anlayışını birleştirerek → cold start ve long-tail sorunlarını çözüyor
  • 1. Semantic IDs (YouTube)

    • Mevcut hash tabanlı ID'ler yerine içerikten türetilmiş Semantic ID kullanılıyor
    • İki aşamalı çerçeve kullanılıyor:
      1. Transformer tabanlı video encoder → yoğun içerik embedding'leri üretir
      2. RQ-VAE(Residual Quantization Variational AutoEncoder) → embedding'leri tamsayı biçimindeki Semantic ID'lere dönüştürür
    • RQ-VAE yapısı:
      • 256 boyutlu latent uzay, 8 quantization seviyesi, seviye başına 2048 codebook girdisi
      • Transformer tabanlı VideoBERT backbone üzerinden 2048 boyutlu embedding üretilir
    • Sonuç:
      • Doğrudan yoğun embedding'lerin performansı rastgele hash ID'lerden daha düşüktü
      • N-gram ve SPM(SentencePiece Model) tabanlı yaklaşımlar özellikle cold start senaryolarında daha iyi performans sundu
  • 2. M3CSR (Kuaishou)

    • Multimodal içerik embedding'leri (görsel, metin, ses) → K-means ile kümelenip öğrenilebilir ID'lere dönüştürülüyor
    • Çift kuleli yapı:
      • Kullanıcı tarafı kule: kullanıcı davranışı modelleme
      • Öğe tarafı kule: öğe embedding'lerinin önceden hesaplanması ve indekslenmesi
    • Eğitim süreci:
      • ResNet(görsel), Sentence-BERT(metin), VGGish(ses) embedding'lerinin birleştirilmesi → K-means kümeleme (~1000 küme)
      • Küme ID'lerinin öğrenilebilir embedding'lere eşlenmesi
    • Sonuç:
      • A/B testlerinde tıklama +3.4%, beğeni +3.0%, takip +3.1% iyileşme
      • Cold start senaryolarında hız +1.2%, kapsama +3.6% iyileşme
  • 3. FLIP (Huawei)

    • ID tabanlı öneri modeli ile LLM arasında hizalama
    • Maskelenmiş metin ve tablo verisi üzerinde eşzamanlı öğrenme → çoklu modal hizalama gerçekleştiriyor
    • Eğitim aşamaları:
      • 1. Modal dönüşüm: tablo verisini metne dönüştürme
      • 2. Modal hizalama ön eğitimi: maskelenmiş metin ve ID yeniden oluşturma
      • 3. Uyarlamalı ince ayar: tıklama tahmini için her iki modelin ağırlıklarını optimize etme
    • Sonuç:
      • ID tabanlı, LLM tabanlı ve ID + LLM modellerinden daha iyi performans gösterdi
      • Maskeleme seviyesi ve çoklu modal hizalama performans artışında önemli rol oynadı
  • 4. beeFormer

    • Metin bilgisi ve kullanıcı-öğe etkileşim verisi tabanlı bir Transformer modeli eğitiliyor
    • ELSA(Scalable Linear Shallow Autoencoder) tabanlı decoder kullanımı → etkileşim örüntülerinin öğrenimini güçlendiriyor
    • Eğitim süreci:
      • Transformer ile embedding üretimi → ELSA üzerinden kullanıcı davranış örüntülerinin öğrenimi
      • Büyük kataloglarda eğitimi optimize etmek için gradient checkpointing, batch size ölçekleme, negative sampling kullanılıyor
    • Sonuç:
      • mpnet-base-v2, bge-m3 gibi mevcut modellere göre daha iyi performans sundu
      • Domainler arası transfer öğreniminde performans artışı gözlendi
  • 5. CALRec (Google)

    • Metin tabanlı prompt ile kullanıcı-öğe etkileşimlerini modelliyor
    • PaLM-2 XXS tabanlı model için 2 aşamalı ince ayar
    • Eğitim aşamaları:
      • 1. Çok kategorili öğrenme: genel öneri örüntülerini öğrenme
      • 2. Belirli kategori öğrenimi: öğe kategorisine özgü örüntüleri öğrenme
    • Sonuç:
      • Amazon Review Dataset'te ID ve metin tabanlı modellerden daha iyi performans gösterdi
      • Çok kategorili öğrenme ve contrastive learning performans artışına katkı sağladı
  • 6. EmbSum (Meta)

    • Kullanıcı ilgi özeti ve aday öğe özeti üretiyor
    • T5-small ve Mixtral-8x22B-Instruct modellerini kullanıyor
    • Bileşenler:
      • User Poly-Embeddings (UPE) → kullanıcı ilgi embedding'i
      • Content Poly-Embeddings (CPE) → öğe embedding'i
      • Özet üretimi → encoder'a enjekte edilir → nihai öneri üretilir
    • Sonuç:
      • İçerik tabanlı öneri modellerine kıyasla daha iyi performans gösterdi
      • Oturum tabanlı gruplama ve özet kaybı performansta önemli rol oynadı

LLM tabanlı veri üretimi ve analizi

  • LLM'ler, öneri ve arama sistemlerinde veri kıtlığı sorununu çözmek ve veri kalitesini artırmak için kullanılıyor
  • Başlıca kullanım örnekleri:
    • Bing → web sayfası metadata üretimi ve tıklama tahmini performansını güçlendirme
    • Indeed → düşük kaliteli iş eşleşmelerini filtreleme
    • Yelp → arama sorgusu anlama ve inceleme öne çıkanlarını iyileştirme
    • Spotify → keşif amaçlı arama sorgusu üretimi
    • Amazon → çalma listesi metadata'sını güçlendirme ve arama performansını iyileştirme
  • 1. Recommendation Quality Improvement (Bing)

    • GPT-4 kullanılarak web sayfalarından yüksek kaliteli başlıklar ve özetler üretildi
    • Yaklaşık 2 milyon web sayfasından üretilen metadata ile Mistral-7B modeli ince ayarlandı
    • MiniLM tabanlı cross-encoder eğitilerek tıklama tahmini ile kalite puanı birleştirildi
    • Sonuç:
      • Clickbait içerik 31% azaldı, yinelenen içerik 76% azaldı
      • Otoritatif içerik 18% arttı, cross-media öneriler 48% arttı
  • 2. Expected Bad Match (Indeed)

    • GPT-3.5, insan inceleme verileriyle ince ayarlanarak düşük kaliteli iş eşleşmelerini filtreleyen model(eBadMatch) oluşturuldu
    • GPT-4 düzeyindeki performans korunurken maliyet ve hız iyileştirildi
    • Nihai filtreleme modeli, eşleşme davet e-postalarının sayısını 17.68% azalttı, abonelikten çıkma oranını 4.97% düşürdü ve başvuru oranını 4.13% artırdı
    • Sonuç:
      • Filtreleme modelinin AUC-ROC performansı: 0.86
  • 3. Query Understanding (Yelp)

    • LLM kullanılarak arama sorgusu segmentasyonu ve inceleme öne çıkanları iyileştirildi
    • Sorgu segmentasyonu:
      • Konu, isim, zaman, yer vb. ayrıştırılarak anlamsal etiketler eklendi
      • RAG(Retrieval-Augmented Generation) tekniği uygulanarak bağlam tabanlı sorgu anlama güçlendirildi
    • İnceleme öne çıkanları:
      • LLM ile öne çıkanlar üretildi → OpenAI batch çağrılarıyla büyük ölçekte genişletildi
    • Sonuç:
      • Arama oturumları ve tıklama oranı iyileşti
      • Long-tail sorgularda da performans arttı
  • 4. Query Recommendations (Spotify)

    • Spotify, doğrudan arama sonuçlarının ötesinde keşif amaçlı arama sorgusu önerileri sundu
    • Sorgu üretim yöntemi:
      • Katalog başlıkları, çalma listeleri ve podcast'lerden çıkarım
      • Arama log'larından kullanıcının yakın dönem sorgularını yansıtma
      • LLM tabanlı metin üretim teknikleri uygulama (Doc2query, InPars vb.)
    • Sorgu önerileri kişiselleştirilmiş vektör embedding'leri ile sıralandı
    • Sonuç:
      • Keşif amaçlı sorgu oranı +9% arttı
      • Maksimum sorgu uzunluğu +30%, ortalama sorgu uzunluğu +10% arttı
  • 5. Playlist Search (Amazon)

    • LLM kullanılarak topluluk çalma listeleri için metadata üretildi ve zenginleştirildi
    • Flan-T5-XL modeli ince ayarlanarak veri üretim verimliliği güçlendirildi
    • LLM tarafından üretilen sorgular ve çalma listesi eşleştirme verileri kullanılarak çift yönlü encoder modeli eğitildi
    • Sonuç:
      • Arama sonuçlarının recall değerinde çift haneli iyileşme
      • SEO performansı ve paraphrasing performansı iyileşti

Scaling Laws, transfer öğrenimi, bilgi damıtma, LoRA

  • Scaling Laws

    • Model boyutu ve veri miktarının performansa etkisini analiz eden çalışma
    • Decoder-only Transformer mimarisi kullanıldı (98.3K ~ 0.8B parametre aralığı)
    • MovieLens-20M ve Amazon-2018 veri kümelerinde değerlendirildi
    • Sabit uzunluklu 50 öğelik diziler kullanılarak bir sonraki öğe tahmin edildi
    • Başlıca teknikler:
      • Katman bazlı uyarlamalı dropout → alt katmanlarda yüksek dropout, üst katmanlarda düşük dropout
      • Adam → SGD geçişi → ilk eğitim Adam ile, ardından SGD'ye geçilerek yakınsama hızı iyileştirildi
    • Sonuç:
      • Model boyutu büyüdükçe çapraz entropi kaybı azaldı
      • Küçük modeller daha fazla veri gerektirirken, büyük modeller daha az veriyle de üstün performans elde etti
      • 75.5M ve 98.3K modellerinde 2~5 epoch arasında performans artışı görüldü
  • PrepRec

    • Öneri sistemlerinde ön eğitim uygulanarak domainler arası transfer öğrenimi mümkün hale geldi
    • Öğe metadata'sı olmadan da yalnızca öğe popülerliğinin dinamik değişimi ile öğrenme yapılabiliyor
    • Kullanıcı etkileşimleri arasındaki göreli zaman aralıkları ve konumsal encoding kullanıldı
    • Sonuç:
      • Zero-shot öneride recall@10 performansı 2~6% düştü, ancak eğitim sonrasında performans benzerdi
      • Hedef domainde eğitim sonrası performans, SasREC ve BERT4Rec modelleriyle eşdeğer seviyeye ulaştı
  • E-CDCTR (Meituan)

    • Reklam tıklama tahmini modelinde transfer öğrenimi uygulandı
    • TPM → CPM → A-CTR şeklinde 3 aşamalı eğitim yapısı kullanıldı
      • TPM → kullanıcı ve öğe embedding'lerini öğrenme
      • CPM → güncel organik verilerle ön eğitim
      • A-CTR → reklam verisiyle ince ayar
    • Sonuç:
      • CPM performans üzerinde en büyük etkiye sahipti → uzun vadeli collaborative filtering sinyallerini öğrenebildi
      • Son 3 ayın embedding'leri kullanılarak performans iyileşti
  • Bridging the Gap (YouTube)

    • Bilgi damıtma yoluyla büyük ölçekli kişiselleştirilmiş video önerisi
    • Öğretmen-öğrenci model yapısı kullanıldı (öğretmen model, öğrenci modelden 2~4 kat büyük)
    • Doğrudan tahmin yerine yardımcı damıtma stratejisi kullanıldı → distribution shift sorununu çözdü
    • Sonuç:
      • Yardımcı damıtma stratejisi uygulandığında performans 0.4% arttı
      • Öğretmen model 2 kat büyük olduğunda +0.42%, 4 kat büyük olduğunda +0.43% performans artışı sağlandı
  • Self-Auxiliary Distillation (Google)

    • Büyük ölçekli öneri modellerinde örnek verimliliğini iyileştirme
    • Çift yönlü branch yapısı → öğretmen etiketleri ile özgün etiketlerin karışık öğrenimi
    • Negatif etiketler 0 yerine tahmini CTR değeri olarak ele alındı
    • Sonuç:
      • Çeşitli domainlerde performans tutarlı biçimde iyileşti
      • Eğitim kararlılığı güçlendi ve model çıktı hassasiyeti arttı
  • DLLM2Rec

    • Büyük dil modellerinin öneri bilgisi hafif modellere damıtıldı
    • Önem tabanlı sıralama damıtma ve collaborative embedding damıtma kullanıldı
      • Önem tabanlı sıralama damıtma → öğe sıraları ve tutarlılığına ağırlık verir
      • Collaborative embedding damıtma → öğretmen ve öğrenci modeller arasındaki embedding farkını düzeltir
    • Sonuç:
      • GRU4Rec, SASRec, DROS modellerinde ortalama performans 47.97% iyileşti
      • Çıkarım süresi öğretmen modeldeki 3~6 saatten → 1.6~1.8 saniyeye düştü
  • MLoRA (Alibaba)

    • CTR tahmininde domain bazlı LoRA (Low-Rank Adaptation) uygulandı
    • Ortak backbone model önceden eğitildikten sonra domain bazlı LoRA ile ince ayar yapıldı
    • LoRA rank değeri katman bazında dinamik olarak ayarlandı
    • Sonuç:
      • AUC performansı +0.5% iyileşti
      • CTR +1.49%, dönüşüm oranı +3.37%, ücretli alıcı sayısı +2.71% arttı
  • Taming One-Epoch (Pinterest)

    • Tek epoch'ta overfitting oluşması sorunu çözüldü
    • Contrastive learning ile eğitim aşamaları ayrıldı
      • İlk aşama → embedding öğrenimi
      • İkinci aşama → ince ayar
    • Sonuç:
      • Geleneksel BCE loss'a göre performans iyileşti
      • Ana akışta +1.32%, ilgili pinlerde +2.18% performans artışı
  • Sliding Window Training (Netflix)

    • Uzun kullanıcı geçmişlerini bellek yükü olmadan eğitmek için sliding window training benimsendi
    • Her eğitim epoch'unda kullanıcı geçmişinin farklı segmentleri seçilerek öğrenme yapıldı
    • Son 100 etkileşim ile uzun vadeli etkileşimler arasında denge korundu
    • Sonuç:
      • Yalnızca yakın dönem etkileşimleri kullanan modellere göre tutarlı performans artışı
      • Mean Average Precision(MAP) +1.5%, recall +7.01% iyileşti

Arama ve önerinin birleşik mimarisi

  • Bridging Search & Recommendations (Spotify)

    • Arama ve öneri verileri tek bir üretici model içinde birleşik olarak eğitildi
    • Flan-T5-base temel alınarak öğe ID'leri token'a dönüştürülüp eğitim yapıldı
    • Üretici öneri modeli: kullanıcı etkileşimlerine göre bir sonraki öğeyi tahmin eder
    • Üretici arama modeli: metin sorgusundan öğe ID'si tahmin eder
    • Sonuç:
      • Tek görevli modellere göre ortalama 16% performans artışı (recall@30 bazında)
      • Podcast veri kümesinde arama performansı +855%, öneri performansı +262% arttı
      • Ancak mevcut öneri ve arama modellerinin(BM25, SASRec vb.) performansına ulaşamadı
  • 360Brew (LinkedIn)

    • 150B parametre ölçeğinde tek modelle 30'dan fazla sıralama görevi yürütüldü
    • Mixtral-8x22B modeli temel alındı → sürekli ön eğitim(CPT)komutla ince ayar(IFT)gözetimli öğrenme(SFT) uygulandı
    • Doğal dil arayüzü devreye alındı → feature engineering yerine prompt engineering kullanıldı
    • Sonuç:
      • Mevcut uzmanlaşmış modellere eşit ya da daha iyi performans sağladı
      • Büyük ölçekli veri kümesinde(3 kat artış) performans iyileşti
      • Cold start kullanıcı performansı iyileşti → mevcut modellere göre daha iyiydi
  • UniCoRn (Netflix)

    • Arama ve öneri görevlerini tek modelde ele aldı
    • Kullanıcı ID'si, arama sorgusu, ülke, kaynak varlık gibi bağlamsal bilgiler kullanıldı
    • Context-target özellikleri ve feature crossing kullanıldı
    • Sonuç:
      • Öneri performansı +10%, arama performansı +7% iyileşti
      • Kişiselleştirmenin güçlenmesiyle performans arttı
      • Görev türü ve eksik değer işleme konularının önemli olduğu doğrulandı
  • Unified Embeddings (Etsy)

    • Transformer tabanlı, metin tabanlı ve grafik tabanlı embedding'ler birleştirildi
    • T5 modeli ince ayarlanarak sorgu-ürün eşleştirmesi güçlendirildi
    • Hard negative sampling ve yaklaşık en yakın komşu arama(ANN) uygulandı
    • Sonuç:
      • Dönüşüm oranı +2.63%, organik arama satın alma oranı +5.58% iyileşti
      • Grafik embedding'leri performansa en büyük katkıyı yaptı (+15%)
  • Embedding Long Tail (Best Buy)

    • Long-tail sorgu sorunu ele alındı
    • Kullanıcı davranışı tabanlı dahili BERT modeli kullanılarak arama ve ürün encoding'i yapıldı
    • Llama-13B ile üretilen sentetik sorgular üzerinden veri zenginleştirme yapıldı
    • Sonuç:
      • Dönüşüm oranı +3% iyileşti
      • Sorgu-ürün eşleşme performansı arttı (+4.67%)
  • User Behavioral Service (YouTube)

    • Kullanıcı embedding üretim modeli ile öneri modeli birbirinden ayrıldı
    • Kullanıcı embedding'leri eşzamansız olarak üretilip yüksek hızlı cache kullanıldı
    • İstek sırasında embedding yoksa boş değer döndürülüp ardından eşzamansız güncelleme yapıldı
    • Sonuç:
      • Kullanıcı dizi modeli boyutunun büyütülmesiyle maliyet artışı sınırlandı (28.7% → 2.8%)
      • Genel öneri performansı iyileşti (0.01% ~ 0.40%)
  • Modern Ranking Platform (Zalando)

    • Arama ve gezinmeyi birleştiren sistem kuruldu
    • Aday üretimi → sıralama → politika katmanı yapısı kullanıldı
    • Transformer tabanlı müşteri embedding'i + vektör veritabanı uygulandı
    • Sonuç:
      • Genel etkileşim oranı +15%, gelir +2.2% iyileşti
      • Eğitilebilir embedding'lerin eklenmesiyle ilave performans artışı görüldü

Sonuç

  • 2023'ün ilk araştırmaları(LLM'nin öneri ve aramada uygulanması) yetersiz olsa da, son dönemdeki çabalar özellikle sektör sonuçlarıyla desteklenerek daha büyük umut veriyor
  • Bu da LLM kullanarak öneri sistemlerini ve arama sistemlerini güçlendirmeyi araştırmanın pratik faydalar sağladığını; maliyet ve çabayı azaltırken aynı zamanda sonuçları artırabildiğini gösteriyor

1 yorum

 
GN⁺ 2025-03-24

Hacker News görüşleri

  • Spotify'ın arama sorgularıyla ilgili güncellemesinin, kullanıcıların daha karmaşık niyetlerini ifade edebilmesine yardımcı olduğuna dair bir analiz var

    • Ancak kullanıcıların istedikleri bilgiye ulaşmak için daha fazla arama yapması ve daha uzun sorgular girmesi gerektiği düşünüldüğünde, bunu bir iyileştirme olarak yorumlamak zor
  • Arama sorgularını ve indeksleri LLM kullanarak güçlendiren çok sayıda ekip var

    • Küçük modeller ve basit prompt'larla bile arama dizelerini yapılandırılmış sorgulara dönüştürmek mümkün
    • Belgeleri sınıflandırmak veya cache kullanmak da mümkün
    • Bunları yapmamak hata olabilir
  • Eugene'in konferansın hemen ardından çalışmasını yayımlaması ilginç

    • Geleneksel olarak bu, doktora öğrencisinin yaklaşık 12 ayını alacak bir makale olurdu
    • Bunun Eugene'in yeteneğinden mi yoksa yeni bir eğilimden mi kaynaklandığı merak ediliyor
  • Spotify deneyiminin zaman içinde neden kötüleştiğine dair bir açıklama sunuluyor

  • Sabah uyanır uyanmaz bu makaleyi bir metin-konuşma modelinden dinlemeye başladım

    • Çok fazla uzmanlık terimi olduğu için yazar çok entelektüel görünüyor, ancak bilgiyi etkili biçimde aktarmıyor
    • Bu, akademik makalelerde sık görülen bir durum ve kendi araştırma makalelerim de istisna değil
    • ML alanında uzman olmadığım için hedef okur kitlesi ben olmayabilirim
    • Başkalarının da aynı hissi yaşayıp yaşamadığını merak ediyorum
    • Umarım bu yorum fazla olumsuz gelmez
  • SASRec ve Bert4Rec varyantları ID token'larıyla eğitiliyor ve LLM'lere benzer ölçeklenme yasaları gösteriyor

    • Meta'nın yaklaşımı örnek olarak sunuluyor
  • Tavsiye sistemleriyle forumları birleştirmenin toplum için büyük bir felaket olduğunu düşünüyorum

  • PC ve akıllı telefonlarda neden LLM tabanlı arama araçları olmadığı sorgulanıyor

    • Özellikle akıllı telefon verileri bulutta tutulduğundan, reklam veya FBI için scraping yapmak yerine kullanıcıya faydalı işlevler sunulabilir
  • Bunun tavsiye sistemleri üzerine mükemmel bir genel bakış olduğu düşünülüyor

    • Ana nokta, gecikmenin temel sorun olduğu
    • Fine-tuning büyük iyileştirmeler sağlayabilir ve gecikmeyi azaltabilir
    • Prompt mu yoksa fine-tuning mi kullanılacağını belirleyen bir eşik veya problem var
  • Bu tür makalelerin akademik araştırma laboratuvarlarından çıkmaması ilginç