- Öneri sistemleri ve arama tarihsel olarak dil modellerinden ilham alarak gelişti
- Word2vec → öğe embedding öğrenimi (embedding tabanlı arama)
- GRU, Transformer, BERT → bir sonraki öneri öğesini tahmin etme (sıralama)
- Günümüzde büyük dil modellerinin (LLM) paradigması da aynı yönde evriliyor
- Başlıca gelişmeler
-
1. LLM/multimodal güçlendirilmiş model mimarileri
-
2. LLM tabanlı veri üretimi ve analizi
-
3. Scaling Laws, transfer öğrenimi, bilgi damıtma, LoRA
-
4. Arama ve önerinin birleşik mimarisi
LLM/multimodal güçlendirilmiş model mimarileri
- Öneri modelleri, geleneksel ID tabanlı yaklaşımın sınırlarını aşmak için dil modellerini (LLM) ve multimodal içeriği devreye alıyor
- Davranış modelleme gücü ile içerik anlayışını birleştirerek → cold start ve long-tail sorunlarını çözüyor
-
1. Semantic IDs (YouTube)
- Mevcut hash tabanlı ID'ler yerine içerikten türetilmiş Semantic ID kullanılıyor
- İki aşamalı çerçeve kullanılıyor:
- Transformer tabanlı video encoder → yoğun içerik embedding'leri üretir
- RQ-VAE(Residual Quantization Variational AutoEncoder) → embedding'leri tamsayı biçimindeki Semantic ID'lere dönüştürür
- RQ-VAE yapısı:
- 256 boyutlu latent uzay, 8 quantization seviyesi, seviye başına 2048 codebook girdisi
- Transformer tabanlı VideoBERT backbone üzerinden 2048 boyutlu embedding üretilir
- Sonuç:
- Doğrudan yoğun embedding'lerin performansı rastgele hash ID'lerden daha düşüktü
- N-gram ve SPM(SentencePiece Model) tabanlı yaklaşımlar özellikle cold start senaryolarında daha iyi performans sundu
-
2. M3CSR (Kuaishou)
- Multimodal içerik embedding'leri (görsel, metin, ses) → K-means ile kümelenip öğrenilebilir ID'lere dönüştürülüyor
- Çift kuleli yapı:
- Kullanıcı tarafı kule: kullanıcı davranışı modelleme
- Öğe tarafı kule: öğe embedding'lerinin önceden hesaplanması ve indekslenmesi
- Eğitim süreci:
- ResNet(görsel), Sentence-BERT(metin), VGGish(ses) embedding'lerinin birleştirilmesi → K-means kümeleme (~1000 küme)
- Küme ID'lerinin öğrenilebilir embedding'lere eşlenmesi
- Sonuç:
- A/B testlerinde tıklama +3.4%, beğeni +3.0%, takip +3.1% iyileşme
- Cold start senaryolarında hız +1.2%, kapsama +3.6% iyileşme
-
3. FLIP (Huawei)
- ID tabanlı öneri modeli ile LLM arasında hizalama
- Maskelenmiş metin ve tablo verisi üzerinde eşzamanlı öğrenme → çoklu modal hizalama gerçekleştiriyor
- Eğitim aşamaları:
- 1. Modal dönüşüm: tablo verisini metne dönüştürme
- 2. Modal hizalama ön eğitimi: maskelenmiş metin ve ID yeniden oluşturma
- 3. Uyarlamalı ince ayar: tıklama tahmini için her iki modelin ağırlıklarını optimize etme
- Sonuç:
- ID tabanlı, LLM tabanlı ve ID + LLM modellerinden daha iyi performans gösterdi
- Maskeleme seviyesi ve çoklu modal hizalama performans artışında önemli rol oynadı
-
4. beeFormer
- Metin bilgisi ve kullanıcı-öğe etkileşim verisi tabanlı bir Transformer modeli eğitiliyor
- ELSA(Scalable Linear Shallow Autoencoder) tabanlı decoder kullanımı → etkileşim örüntülerinin öğrenimini güçlendiriyor
- Eğitim süreci:
- Transformer ile embedding üretimi → ELSA üzerinden kullanıcı davranış örüntülerinin öğrenimi
- Büyük kataloglarda eğitimi optimize etmek için gradient checkpointing, batch size ölçekleme, negative sampling kullanılıyor
- Sonuç:
- mpnet-base-v2, bge-m3 gibi mevcut modellere göre daha iyi performans sundu
- Domainler arası transfer öğreniminde performans artışı gözlendi
-
5. CALRec (Google)
- Metin tabanlı prompt ile kullanıcı-öğe etkileşimlerini modelliyor
- PaLM-2 XXS tabanlı model için 2 aşamalı ince ayar
- Eğitim aşamaları:
- 1. Çok kategorili öğrenme: genel öneri örüntülerini öğrenme
- 2. Belirli kategori öğrenimi: öğe kategorisine özgü örüntüleri öğrenme
- Sonuç:
- Amazon Review Dataset'te ID ve metin tabanlı modellerden daha iyi performans gösterdi
- Çok kategorili öğrenme ve contrastive learning performans artışına katkı sağladı
-
6. EmbSum (Meta)
- Kullanıcı ilgi özeti ve aday öğe özeti üretiyor
- T5-small ve Mixtral-8x22B-Instruct modellerini kullanıyor
- Bileşenler:
- User Poly-Embeddings (UPE) → kullanıcı ilgi embedding'i
- Content Poly-Embeddings (CPE) → öğe embedding'i
- Özet üretimi → encoder'a enjekte edilir → nihai öneri üretilir
- Sonuç:
- İçerik tabanlı öneri modellerine kıyasla daha iyi performans gösterdi
- Oturum tabanlı gruplama ve özet kaybı performansta önemli rol oynadı
LLM tabanlı veri üretimi ve analizi
- LLM'ler, öneri ve arama sistemlerinde veri kıtlığı sorununu çözmek ve veri kalitesini artırmak için kullanılıyor
- Başlıca kullanım örnekleri:
- Bing → web sayfası metadata üretimi ve tıklama tahmini performansını güçlendirme
- Indeed → düşük kaliteli iş eşleşmelerini filtreleme
- Yelp → arama sorgusu anlama ve inceleme öne çıkanlarını iyileştirme
- Spotify → keşif amaçlı arama sorgusu üretimi
- Amazon → çalma listesi metadata'sını güçlendirme ve arama performansını iyileştirme
-
1. Recommendation Quality Improvement (Bing)
- GPT-4 kullanılarak web sayfalarından yüksek kaliteli başlıklar ve özetler üretildi
- Yaklaşık 2 milyon web sayfasından üretilen metadata ile Mistral-7B modeli ince ayarlandı
- MiniLM tabanlı cross-encoder eğitilerek tıklama tahmini ile kalite puanı birleştirildi
- Sonuç:
- Clickbait içerik 31% azaldı, yinelenen içerik 76% azaldı
- Otoritatif içerik 18% arttı, cross-media öneriler 48% arttı
-
2. Expected Bad Match (Indeed)
- GPT-3.5, insan inceleme verileriyle ince ayarlanarak düşük kaliteli iş eşleşmelerini filtreleyen model(eBadMatch) oluşturuldu
- GPT-4 düzeyindeki performans korunurken maliyet ve hız iyileştirildi
- Nihai filtreleme modeli, eşleşme davet e-postalarının sayısını 17.68% azalttı, abonelikten çıkma oranını 4.97% düşürdü ve başvuru oranını 4.13% artırdı
- Sonuç:
- Filtreleme modelinin AUC-ROC performansı: 0.86
-
3. Query Understanding (Yelp)
- LLM kullanılarak arama sorgusu segmentasyonu ve inceleme öne çıkanları iyileştirildi
- Sorgu segmentasyonu:
- Konu, isim, zaman, yer vb. ayrıştırılarak anlamsal etiketler eklendi
- RAG(Retrieval-Augmented Generation) tekniği uygulanarak bağlam tabanlı sorgu anlama güçlendirildi
- İnceleme öne çıkanları:
- LLM ile öne çıkanlar üretildi → OpenAI batch çağrılarıyla büyük ölçekte genişletildi
- Sonuç:
- Arama oturumları ve tıklama oranı iyileşti
- Long-tail sorgularda da performans arttı
-
4. Query Recommendations (Spotify)
- Spotify, doğrudan arama sonuçlarının ötesinde keşif amaçlı arama sorgusu önerileri sundu
- Sorgu üretim yöntemi:
- Katalog başlıkları, çalma listeleri ve podcast'lerden çıkarım
- Arama log'larından kullanıcının yakın dönem sorgularını yansıtma
- LLM tabanlı metin üretim teknikleri uygulama (Doc2query, InPars vb.)
- Sorgu önerileri kişiselleştirilmiş vektör embedding'leri ile sıralandı
- Sonuç:
- Keşif amaçlı sorgu oranı +9% arttı
- Maksimum sorgu uzunluğu +30%, ortalama sorgu uzunluğu +10% arttı
-
5. Playlist Search (Amazon)
- LLM kullanılarak topluluk çalma listeleri için metadata üretildi ve zenginleştirildi
- Flan-T5-XL modeli ince ayarlanarak veri üretim verimliliği güçlendirildi
- LLM tarafından üretilen sorgular ve çalma listesi eşleştirme verileri kullanılarak çift yönlü encoder modeli eğitildi
- Sonuç:
- Arama sonuçlarının recall değerinde çift haneli iyileşme
- SEO performansı ve paraphrasing performansı iyileşti
Scaling Laws, transfer öğrenimi, bilgi damıtma, LoRA
-
Scaling Laws
- Model boyutu ve veri miktarının performansa etkisini analiz eden çalışma
- Decoder-only Transformer mimarisi kullanıldı (98.3K ~ 0.8B parametre aralığı)
- MovieLens-20M ve Amazon-2018 veri kümelerinde değerlendirildi
- Sabit uzunluklu 50 öğelik diziler kullanılarak bir sonraki öğe tahmin edildi
- Başlıca teknikler:
- Katman bazlı uyarlamalı dropout → alt katmanlarda yüksek dropout, üst katmanlarda düşük dropout
- Adam → SGD geçişi → ilk eğitim Adam ile, ardından SGD'ye geçilerek yakınsama hızı iyileştirildi
- Sonuç:
- Model boyutu büyüdükçe çapraz entropi kaybı azaldı
- Küçük modeller daha fazla veri gerektirirken, büyük modeller daha az veriyle de üstün performans elde etti
- 75.5M ve 98.3K modellerinde 2~5 epoch arasında performans artışı görüldü
-
PrepRec
- Öneri sistemlerinde ön eğitim uygulanarak domainler arası transfer öğrenimi mümkün hale geldi
- Öğe metadata'sı olmadan da yalnızca öğe popülerliğinin dinamik değişimi ile öğrenme yapılabiliyor
- Kullanıcı etkileşimleri arasındaki göreli zaman aralıkları ve konumsal encoding kullanıldı
- Sonuç:
- Zero-shot öneride recall@10 performansı 2~6% düştü, ancak eğitim sonrasında performans benzerdi
- Hedef domainde eğitim sonrası performans, SasREC ve BERT4Rec modelleriyle eşdeğer seviyeye ulaştı
-
E-CDCTR (Meituan)
- Reklam tıklama tahmini modelinde transfer öğrenimi uygulandı
- TPM → CPM → A-CTR şeklinde 3 aşamalı eğitim yapısı kullanıldı
- TPM → kullanıcı ve öğe embedding'lerini öğrenme
- CPM → güncel organik verilerle ön eğitim
- A-CTR → reklam verisiyle ince ayar
- Sonuç:
- CPM performans üzerinde en büyük etkiye sahipti → uzun vadeli collaborative filtering sinyallerini öğrenebildi
- Son 3 ayın embedding'leri kullanılarak performans iyileşti
-
Bridging the Gap (YouTube)
- Bilgi damıtma yoluyla büyük ölçekli kişiselleştirilmiş video önerisi
- Öğretmen-öğrenci model yapısı kullanıldı (öğretmen model, öğrenci modelden 2~4 kat büyük)
- Doğrudan tahmin yerine yardımcı damıtma stratejisi kullanıldı → distribution shift sorununu çözdü
- Sonuç:
- Yardımcı damıtma stratejisi uygulandığında performans 0.4% arttı
- Öğretmen model 2 kat büyük olduğunda +0.42%, 4 kat büyük olduğunda +0.43% performans artışı sağlandı
-
Self-Auxiliary Distillation (Google)
- Büyük ölçekli öneri modellerinde örnek verimliliğini iyileştirme
- Çift yönlü branch yapısı → öğretmen etiketleri ile özgün etiketlerin karışık öğrenimi
- Negatif etiketler 0 yerine tahmini CTR değeri olarak ele alındı
- Sonuç:
- Çeşitli domainlerde performans tutarlı biçimde iyileşti
- Eğitim kararlılığı güçlendi ve model çıktı hassasiyeti arttı
-
DLLM2Rec
- Büyük dil modellerinin öneri bilgisi hafif modellere damıtıldı
- Önem tabanlı sıralama damıtma ve collaborative embedding damıtma kullanıldı
- Önem tabanlı sıralama damıtma → öğe sıraları ve tutarlılığına ağırlık verir
- Collaborative embedding damıtma → öğretmen ve öğrenci modeller arasındaki embedding farkını düzeltir
- Sonuç:
- GRU4Rec, SASRec, DROS modellerinde ortalama performans 47.97% iyileşti
- Çıkarım süresi öğretmen modeldeki 3~6 saatten → 1.6~1.8 saniyeye düştü
-
MLoRA (Alibaba)
- CTR tahmininde domain bazlı LoRA (Low-Rank Adaptation) uygulandı
- Ortak backbone model önceden eğitildikten sonra domain bazlı LoRA ile ince ayar yapıldı
- LoRA rank değeri katman bazında dinamik olarak ayarlandı
- Sonuç:
- AUC performansı +0.5% iyileşti
- CTR +1.49%, dönüşüm oranı +3.37%, ücretli alıcı sayısı +2.71% arttı
-
Taming One-Epoch (Pinterest)
- Tek epoch'ta overfitting oluşması sorunu çözüldü
- Contrastive learning ile eğitim aşamaları ayrıldı
- İlk aşama → embedding öğrenimi
- İkinci aşama → ince ayar
- Sonuç:
- Geleneksel BCE loss'a göre performans iyileşti
- Ana akışta +1.32%, ilgili pinlerde +2.18% performans artışı
-
Sliding Window Training (Netflix)
- Uzun kullanıcı geçmişlerini bellek yükü olmadan eğitmek için sliding window training benimsendi
- Her eğitim epoch'unda kullanıcı geçmişinin farklı segmentleri seçilerek öğrenme yapıldı
- Son 100 etkileşim ile uzun vadeli etkileşimler arasında denge korundu
- Sonuç:
- Yalnızca yakın dönem etkileşimleri kullanan modellere göre tutarlı performans artışı
- Mean Average Precision(MAP) +1.5%, recall +7.01% iyileşti
Arama ve önerinin birleşik mimarisi
-
Bridging Search & Recommendations (Spotify)
- Arama ve öneri verileri tek bir üretici model içinde birleşik olarak eğitildi
- Flan-T5-base temel alınarak öğe ID'leri token'a dönüştürülüp eğitim yapıldı
- Üretici öneri modeli: kullanıcı etkileşimlerine göre bir sonraki öğeyi tahmin eder
- Üretici arama modeli: metin sorgusundan öğe ID'si tahmin eder
- Sonuç:
- Tek görevli modellere göre ortalama 16% performans artışı (recall@30 bazında)
- Podcast veri kümesinde arama performansı +855%, öneri performansı +262% arttı
- Ancak mevcut öneri ve arama modellerinin(BM25, SASRec vb.) performansına ulaşamadı
-
360Brew (LinkedIn)
- 150B parametre ölçeğinde tek modelle 30'dan fazla sıralama görevi yürütüldü
- Mixtral-8x22B modeli temel alındı → sürekli ön eğitim(CPT) → komutla ince ayar(IFT) → gözetimli öğrenme(SFT) uygulandı
- Doğal dil arayüzü devreye alındı → feature engineering yerine prompt engineering kullanıldı
- Sonuç:
- Mevcut uzmanlaşmış modellere eşit ya da daha iyi performans sağladı
- Büyük ölçekli veri kümesinde(3 kat artış) performans iyileşti
- Cold start kullanıcı performansı iyileşti → mevcut modellere göre daha iyiydi
-
UniCoRn (Netflix)
- Arama ve öneri görevlerini tek modelde ele aldı
- Kullanıcı ID'si, arama sorgusu, ülke, kaynak varlık gibi bağlamsal bilgiler kullanıldı
- Context-target özellikleri ve feature crossing kullanıldı
- Sonuç:
- Öneri performansı +10%, arama performansı +7% iyileşti
- Kişiselleştirmenin güçlenmesiyle performans arttı
- Görev türü ve eksik değer işleme konularının önemli olduğu doğrulandı
-
Unified Embeddings (Etsy)
- Transformer tabanlı, metin tabanlı ve grafik tabanlı embedding'ler birleştirildi
- T5 modeli ince ayarlanarak sorgu-ürün eşleştirmesi güçlendirildi
- Hard negative sampling ve yaklaşık en yakın komşu arama(ANN) uygulandı
- Sonuç:
- Dönüşüm oranı +2.63%, organik arama satın alma oranı +5.58% iyileşti
- Grafik embedding'leri performansa en büyük katkıyı yaptı (+15%)
-
Embedding Long Tail (Best Buy)
- Long-tail sorgu sorunu ele alındı
- Kullanıcı davranışı tabanlı dahili BERT modeli kullanılarak arama ve ürün encoding'i yapıldı
- Llama-13B ile üretilen sentetik sorgular üzerinden veri zenginleştirme yapıldı
- Sonuç:
- Dönüşüm oranı +3% iyileşti
- Sorgu-ürün eşleşme performansı arttı (+4.67%)
-
User Behavioral Service (YouTube)
- Kullanıcı embedding üretim modeli ile öneri modeli birbirinden ayrıldı
- Kullanıcı embedding'leri eşzamansız olarak üretilip yüksek hızlı cache kullanıldı
- İstek sırasında embedding yoksa boş değer döndürülüp ardından eşzamansız güncelleme yapıldı
- Sonuç:
- Kullanıcı dizi modeli boyutunun büyütülmesiyle maliyet artışı sınırlandı (28.7% → 2.8%)
- Genel öneri performansı iyileşti (0.01% ~ 0.40%)
-
Modern Ranking Platform (Zalando)
- Arama ve gezinmeyi birleştiren sistem kuruldu
- Aday üretimi → sıralama → politika katmanı yapısı kullanıldı
- Transformer tabanlı müşteri embedding'i + vektör veritabanı uygulandı
- Sonuç:
- Genel etkileşim oranı +15%, gelir +2.2% iyileşti
- Eğitilebilir embedding'lerin eklenmesiyle ilave performans artışı görüldü
Sonuç
- 2023'ün ilk araştırmaları(LLM'nin öneri ve aramada uygulanması) yetersiz olsa da, son dönemdeki çabalar özellikle sektör sonuçlarıyla desteklenerek daha büyük umut veriyor
- Bu da LLM kullanarak öneri sistemlerini ve arama sistemlerini güçlendirmeyi araştırmanın pratik faydalar sağladığını; maliyet ve çabayı azaltırken aynı zamanda sonuçları artırabildiğini gösteriyor
1 yorum
Hacker News görüşleri
Spotify'ın arama sorgularıyla ilgili güncellemesinin, kullanıcıların daha karmaşık niyetlerini ifade edebilmesine yardımcı olduğuna dair bir analiz var
Arama sorgularını ve indeksleri LLM kullanarak güçlendiren çok sayıda ekip var
Eugene'in konferansın hemen ardından çalışmasını yayımlaması ilginç
Spotify deneyiminin zaman içinde neden kötüleştiğine dair bir açıklama sunuluyor
Sabah uyanır uyanmaz bu makaleyi bir metin-konuşma modelinden dinlemeye başladım
SASRec ve Bert4Rec varyantları ID token'larıyla eğitiliyor ve LLM'lere benzer ölçeklenme yasaları gösteriyor
Tavsiye sistemleriyle forumları birleştirmenin toplum için büyük bir felaket olduğunu düşünüyorum
PC ve akıllı telefonlarda neden LLM tabanlı arama araçları olmadığı sorgulanıyor
Bunun tavsiye sistemleri üzerine mükemmel bir genel bakış olduğu düşünülüyor
Bu tür makalelerin akademik araştırma laboratuvarlarından çıkmaması ilginç