Goodreads’deki 3 milyar incelemeyi kullanan öneri modeli tabanlı kitap öneri hizmeti

(book.sv)

1 puan yazan GN⁺ 2025-11-07 | 1 yorum | WhatsApp'ta paylaş

Kullanıcının okuduğu kitapları girmesiyle öneri modeli bir sonraki okunacak kitabı öneren sistem
Arama sonuçları ve önerilere yalnızca belirli bir popülerlik eşiğinin üzerindeki kitaplar dahil edilir
Popülerliği düşük kitaplar sitenin diğer bölümünde (intersect) kullanılabilir
3 veya daha fazla kitap girildiğinde en doğru öneri sonuçları sağlanır
Büyük ölçekli inceleme verilerini kullanan kişiselleştirilmiş okuma önerisi teknolojisinin deneysel bir uygulaması

Kitap öneri özelliği

Kullanıcı daha önce okuduğu kitapları girerse model tabanlı öneri sonuçları sunulur
- Girilen kitap listesine dayanarak sıradaki okunabilecek kitaplar önerilir
Öneri ve arama sonuçlarına yalnızca belirli bir düzeyin üzerindeki popüler kitaplar dahil edilir
- Popülerlik ölçütünün altındaki kitaplar öneri sonuçlarından çıkarılır

Girdi ve arama yöntemi

Arama kutusuna iki veya daha fazla karakter girildiğinde sonuçlar gösterilir
Kullanıcının seçtiği kitaplar ‘Selected Books’ alanında gösterilir,
henüz seçim yapılmadıysa “No books selected yet” ifadesi görünür

Ek özellikler

Popülerliği düşük kitaplar /intersect sayfasında ayrı olarak kullanılabilir
3 veya daha fazla kitap girildiğinde öneri doğruluğu artar

Hizmete genel bakış

Site, büyük ölçekli Goodreads inceleme verilerine (3 milyar kayıt) dayanan bir öneri modeli kullanır
Amaç, kullanıcının okuma geçmişine göre kişiselleştirilmiş bir kitap öneri deneyimi sunmaktır
Orijinal metinde ek teknik ayrıntı veya algoritma açıklaması yer almıyor

1 yorum

GN⁺ 2025-11-07

Hacker News görüşleri

Bunun Goodreads’in Kullanım Şartları 4. maddesini ihlal edip etmediğini merak ediyorum
Burada “hizmet içindeki içeriği değiştirme, çoğaltma, dağıtma, türev eser üretme vb. amaçlarla kullanmayın” deniyor; bu yüzden yorumcuların içeriğini LLM eğitimi için kullanmak adına açık izin gerekliy gibi görünüyor
- Günümüzde bu tür maddelerin çok da anlamlı olmadığını düşünüyorum
  Scraping’in yasallığı yargı bölgesine göre değişiyor. ABD’de HiQ Labs v. LinkedIn kararı sayesinde herkese açık web sayfalarını kazımanın CFAA ihlali olmadığı kabul edildi. Bu yüzden çok sayıda açık veri scraping girişimi ortaya çıktı
- Teknik olarak Goodreads’in eserlerinin kendisi kamuya açık biçimde kullanılmıyor
  Sitede görünen bilgiler yalnızca başlık ve yazar, bunlar da Goodreads’e ait değil.
  “Türev eser üretme” maddesine takılabilir ama yorumlara dayanarak kitap önermek bunun bir ihlali sayılır mı, emin değilim.
  Bir YouTuber’ın “50 yorum okuyup önerdiğim kitaplar” videosu yapmasına benzer bir düzeyde
- Bugünlerde kitapların tamamını LLM’e öğretmek bile fair use sayılıyor; dolayısıyla yorumlar için de izin gerekmeme ihtimali yüksek. Yine de bir hukuk uzmanının görüşünü duymak isterim
- Cevabını zaten bildiğin bir soruyu neden soruyorsun, anlamadım
Kitap eklemeye devam ederken “çok fazla” mesajını aldım. Gerçekten eğlenceli bir fikir
Ama birkaç önerim var
- UI: “Add”e bastığım kitap öneri listesinden kaybolmalı. Orada kalması kafa karıştırıyor
- Öneri çeşitliliği: Sistem daha önce okuduklarımı çok iyi tutturdu ama yeni keşif azdı.
  Okuduğum kitap listesi yeterince uzunsa, bana benzeyen okurları (‘eigenfriends’) bulup onların okuduğu tartışmalı ya da niş kitapları önermesi güzel olurdu
  Sonraki adımda VLM bağlayıp kitaplık fotoğrafıyla giriş yapılabilse eğlenceli olur
- Sitenin “intersect” sayfasında birden fazla kitap girerek ortak okur kümesini bulabiliyorsunuz.
  Örneğin “Lenin’s Tomb” ile “Secondhand Time”ı girerseniz, iki kitabı da okuyanların başka hangi kitapları okuduğunu görebilirsiniz.
  Bu, Filmaffinity yaklaşımına benziyor. Onlar ‘soulmates’ denen benzer zevklere sahip kullanıcı gruplarına dayalı öneriler sunuyor
  Bana kalırsa tartışmalı kitaplar yerine farklı zevklere sahip arkadaşları filtrelemek daha taze öneriler veriyor
Site hızlı ve gerçekten harika
Ama bir seriden tek bir kitap (ör. Discworld #33) ekleyince önerilere o seri hakim oluyor. Zaten okumakta olduğum serileri dışlamak isterdim
Ayrıca Goodreads’te olan bazı kitaplar aramada çıkmadı. Veri setinde eksik gibi görünüyor
“Similar” düğmesine bastığımda biçimsel olarak benzer ama bağlamı farklı kitaplar çıktı.
Yine de genel olarak kitaplar wishlist’imle iyi örtüştü
- En büyük sorun bence serilerin ele alınış biçimi
  Test metrikleri ve kalite kontrolleri tatmin ediciydi, o yüzden yayınladık; ama çözüm muhtemelen transformer modelle 100-200 aday üretip ardından reranker uygulamak olacak
Tavsiye sistemleri yapmış biri olarak, asıl zor kısım şimdi başlıyor
Şu an daha çok içerik tabanlı öneri gibi ama ileride serendipity ve novelty gibi metrikleri de hesaba katmanız gerekecek
Gerçek hizmetlerde amaca göre farklı önericiler kullanıp sonuçları ağırlıklı birleştirmek etkili olmuştu
Örneğin içerik tabanlı, grafik tabanlı, belli hedeflere göre ayarlanmış modeller, hatta TF‑IDF/BM25/Splade tabanlı olanları bile karıştırmak gibi
İnsanların nasıl öneri almak istediği farklı olduğundan, kullanıcı bazlı ağırlık ayarı kritik
Girdi olarak verilen kitapların yazarları çıktıda hariç tutulmalı
O yazarı zaten seviyorsam diğer eserlerini kendim de bulurum; aynı yazardan kitap önermenin pek anlamı yok
Gerçekten ilginç öneri, hem (1) hoşuma giden hem de (2) beklemediğim kitaptır
Fazla benzer öneriler yankı odası yaratma riski taşır
- Serilerin dışlanmasına katılıyorum ama yazar konusu seçenek olarak kalmalı bence
  Daha önce okuduğun bir yazarın başka eserleri olduğunu bilmediğin durumlar da oluyor
- Zaten okuduğum kitapların sürekli önerilmesi de pek iyi değil
Çeşitli kitaplar girdim ve daha önce okuyup sevdiğim kitapları iyi yakaladı
Ama olumsuz sinyal (negative signal) de eklenebilse güzel olurdu
Genel olarak oldukça etkileyici sonuçlardı
robots.txt dosyasında açıkça scraping yasak (disallow) deniyor
Hukuki tarafı bir yana, bunu etik olarak uygunsuz buluyorum
- Goodreads’te sık sık yorum yazan biri olarak, böyle bir kullanım bana rahatsız edici geliyor
En son eklenen kitabın öneri sonuçları üzerinde aşırı etkisi varmış gibi görünüyor
- Bu, positional embedding özelliğinden kaynaklanıyor
  Son öğe, bir sonraki etkileşimi tahmin ederken en ilgili unsur olarak daha güçlü yansıyor
  Daha fazla kitap eklendikçe bu etki azalıyor
Biz bu veri setini 2016’dan beri inşa ediyoruz ve zaten kapsanmış durumda
Şu anda TestFlight kapalı beta sürecindeyiz, yakında herkese açılacak
Yaklaşık 5 yıl önce “bana iyi gangster filmleri öner” deyince yeni filmler bulan bir motor hayal etmiştim
O zaman çoğu kişi bunun imkansız olduğunu söylüyordu ama şimdi mümkün görünmeye başladı
Yine de bu kadar büyük bir veri seti varken gerçekten AI gerekip gerekmediğinden emin değilim
SASRec/RAG gibi modeller yerine, eski last.fm tarzı basit sıralama ve kesişim hesaplarıyla da benzer sonuçlar elde edilemez mi diye düşünüyorum
Eskiden öneri için bir ‘beyin’ grafik yapısı tasarlamıştım; öğeler arası bağlantıları izleyip puanları yayma mantığına dayanıyordu.
Muhtemelen Amazon gibi yerlerde de bunun türevleri kullanılıyordur
- Yalnızca “bana iyi gangster filmleri öner” isteğiyle bu mümkün değil
  Kullanıcının izlediği filmleri ya da zevkini bilmeden, “henüz izlemediği ama seveceği filmi” doğru biçimde önermek mümkün olmaz
  Sonuçta bilgi kısıtı gevşetildiğinde mümkün hale gelen genel bir öneri sistemi oluyor
- Bu arada last.fm de basit sıralama değil, temel makine öğrenimi algoritmaları kullanıyordu

Goodreads’deki 3 milyar incelemeyi kullanan öneri modeli tabanlı kitap öneri hizmeti

Kitap öneri özelliği

Girdi ve arama yöntemi

Ek özellikler

Hizmete genel bakış

İlgili okumalar

1 yorum

Hacker News görüşleri