- Letterboxd gibi sade ve kullanışlı bir kitap kayıt uygulaması yapma girişiminde, ISBN sisteminin yapısal sorunları temel engel oldu
- Kitap arama özelliği için kullanılan Google Books API'nin aynı eserin farklı ISBN sürümlerini ayrı kayıtlar olarak döndürdüğü fark edildi
- Bunun nedeni, bibliyografik yapı (FRBR modeli) içinde 'eser (work)', 'ifade (expression)' ve 'tezahür (manifestation)' ayrımının bulunması; bu yüzden kullanıcı sadece 'bir kitabı okudum' bilgisini kaydetmek istese bile veri fazlasıyla parçalanmış durumda
- OpenLibrary 'eser' merkezli bir veri yapısı sunsa da, hâlâ tekrarlar ve eksiklikler içerdiği için tam bir alternatif olamıyor
- Film veritabanı TMDB'de olduğu gibi, kitap alanında yüksek kaliteli açık metadata altyapısı bulunmuyor; bu da kitap odaklı sosyal platform geliştirmede başlıca engellerden biri
Letterboxd ile kitap platformlarının karşılaştırması
- Letterboxd, sade arayüzü ve rahatsız etmeyen sosyal özellikleri sayesinde film izleme kayıtlarını kolayca yönetmeyi sağlıyor
- Kullanıcılar izledikleri filmi ve zamanı basitçe kaydedebiliyor
- Buna karşılık GoodReads, karmaşık arayüzü ve çok adımlı tıklama yapısı nedeniyle kitap kaydını zorlaştırıyor
- 'Okunan kitaplar' ile 'okunacak kitaplar' aynı ekranda karışıyor; okuma challenge'ları, bültenler ve diğer ek unsurlar da alan kaplıyor
- GoodReads'in bu kadar kullanışsız olmasının nedeni, Amazon'un kitap satış işinin düşük öncelikli bir yan ürünü olması
- Storygraph da benzer sorunlar taşıyor; bu yüzden kullanıcı sonunda kişisel kayıtlarını Obsidian dosyalarıyla tutmaya yöneliyor
Google Books API ve ISBN sorunu
- Kitap arama özelliğini oluşturmak için Google Books API kullanıldı, ancak aynı eserin farklı ISBN'lerle yinelenerek arandığı görüldü
- Örneğin “The Last Unicorn” arandığında ciltli, karton kapaklı, e-kitap, gözden geçirilmiş baskı gibi sürümler ayrı ISBN'lerle dönüyor
- Her ISBN farklı bir formatı ya da baskıyı ifade etse de, kullanıcı aslında sadece 'bu kitabı okudum' bilgisini kaydetmek istiyor
- Bu yapı, arama ve veri bütünleştirmeyi zorlaştırdığı için tekil eser düzeyinde bir kayıt sistemi kurmaya uygun değil
FRBR modeli ve 'eser' düzeyinde yaklaşım
- Kütüphanecilikte kullanılan FRBR modeli, kitap verisini dört katmana ayırıyor
- Work (eser): Soyut yaratımın kendisi (ör. roman "The Last Unicorn")
- Expression (ifade): Belirli bir sürüm
- Manifestation (tezahür): O sürümün belirli fiziksel formatı (karton kapaklı, ciltli vb.)
- Item (öğe): Koleksiyondaki tekil fiziksel nesne
- Google Books çoğunlukla 'ifade' veya 'tezahür' düzeyindeki verileri döndürüyor, oysa kullanıcıların ihtiyaç duyduğu şey 'eser' düzeyindeki soyut birim
- OpenLibrary 'eser' merkezli bir veri yapısı sağlasa da, hâlâ yinelenen kayıtlar bulunuyor
- Örneğin Yoko Ogawa'nın Hotel Iris kitabı arandığında aynı eser dört kez yinelenmiş görünebiliyor
Veri kalitesi ve ekosistemin sınırları
- Letterboxd, The Movie Database (TMDB) temelinde çalışıyor ve TMDB yaklaşık 1 milyon film verisi barındırıyor
- Buna karşılık OpenLibrary, 40 milyondan fazla eser içerse de çok sayıda eksik ve yeterince temizlenmemiş veri barındırıyor
- Film verileri, ticari platformlar ile topluluk katkılarının birleşmesi sayesinde yüksek kaliteye ulaşırken, kitap verilerinde ölçek çok büyük ve finansman yetersiz
- Bunun sonucu olarak, kitaplara odaklanan Letterboxd benzeri bir hizmet oluşturmak için gereken temel veri mevcut değil
Sonuç ve gelecekteki denemeler
- Tam teşekküllü bir açık kaynak kitap metadata altyapısı bulunmadığı için, kitap kayıt platformu geliştirmek filmlere kıyasla çok daha zor bir problem
- Yazar yine de bağımsız bir kitap kayıt sistemi kurmayı denemeyi sürdürecek
- Film zevkini keşfetme deneyimine benzer biçimde, kitap kaydında da kişiselleştirilmiş bir yaklaşım gerekli
4 yorum
Sonuçta... ISBN, içeriğin değil yayının tanımlayıcısı...
Başlık tam bir clickbait olmuş lol
İçeriğin tanımlayıcı kısmı boş görünüyor sanırım :(
ISBN sisteminin, sistematik sınıflandırmayı pek de gözetmemesi de aslında bir gerçek...
Kurallar gereği her yeni baskıya ayrı bir numara verilmesi gerekiyor ama en alt kategori yayınevi olunca, eser bazlı sınıflandırma ihtiyacına rağmen yönetimi kolay olmuyor.
Hacker News yorumları
MusicBrainz'in veritabanı yapısını hatırlatıyor
Örneğin Nirvana'nın Nevermind albümü tek bir release group olarak ele alınıyor; kaset, CD, LP, promosyon gibi farklı mecralarda ya da ülkelere göre yeniden basım sürümleri bulunuyor
Bazı durumlarda katalog numarası ya da barkod farklı olduğu için ayırt edilebiliyor, bazı durumlarda ise aynı kod yazsa bile gerçekte farklı sürümler olabiliyor
Aynı kayıt bile remastering, kurgu ya da sansür gibi nedenlerle farklılaşabiliyor
MusicBrainz bu tür farkları ayrıntılı biçimde takip ediyor ve aynı kayıt olup olmadığını açıkça ayırıyor
Cover şarkılar veya standart eserler gibi birden çok sanatçının kaydettiği durumlarda ise besteci ve söz yazarı bilgilerini 'work' düzeyinde bağlıyor
Bu tür ince düşünülmüş ilişkisel veritabanı tasarımının, yaratıcı eserlerde aynılık ve farklılığı kaydetmede çok faydalı olduğunu düşünüyorum
İlgili bağlantı
bookbrainz.org/about
Eğer MusicBrainz'e benzer bir şeması varsa veri çıkarmanın çok kolay olmasını bekliyorum
Hesap açıp veriyi doğrudan yükledim ve birkaç düzeltmeden sonra kaydı tamamlamayı başardım
Çin'deki bir web sitesinde aynı Avustralya baskısı CD'nin bilgisini bulup referans aldım; bunun sayesinde pazara göre ince farklılıklar taşıyan sürümler olduğunu fark ettim
İnsanların 'benzersiz tanımlayıcıları' güncelleme konusunda ne kadar gevşek davrandığı açısından MusicBrainz ekibiyle güçlü bir empati kuruyorum
1987 baskısı ile 1989 baskısının ('Peace Train' çıkarılmış sürüm) UPC numarası aynıydı
90'ların ortasında ikinci el CD dükkânlarında kaldırılmadan önceki sürümü bulmak için uğraştığımı hatırlıyorum
Geri kalanlarda bölgeye göre parça sayısı değişen birden fazla sürüm vardı ve bu kafa karıştırıcıydı
Parça bazında sanatçı bilgisini belirtebilen bir özellik olsaydı arama doğruluğu daha yüksek olurdu gibi geliyor
Yalnızca yazım hatası düzeyindeki farklar bile ayırt etmeyi zorlaştırıyor
Wikidata, FRBR uyumlu açık bir veritabanı ve son birkaç yılda kitaplarla ilgili kalitesi ciddi biçimde arttı
Örnek verilen Yoko Ogawa'nın Hotel Iris'i aynı eser değil, birbirinden farklı çeviriler
Çeviri, özgün eserden farklı bir türev eser olarak görülmeli
Ancak listeler birbirine karıştığı için hata çok
OpenLibrary bunları tek bir work altında toplar ve dil ile çevirmen bilgisini edition içinde saklar
Mevcut tekrarlar büyük olasılıkla dillere göre yapılan otomatik birleştirme sürecinde ortaya çıkan bir sorun
Kullanıcının özgün metin ile çevirileri birlikte gezebilmesi ideal olur
LibraryThing'i öneriyorum
Bana göre Goodreads'ten çok daha iyi
Kitaplarda WEMI yapısını (work, expression, manifestation, item) ayırmak önemli
"Don Kişot'u okudum" demek work düzeyinde bir ifade, "Benim kitabımda kahve lekesi var" demek ise item düzeyinde bir ifade
Eyalet düzeyindeki bir okuma yarışmasında kitaplar yalnızca ISBN ile yönetiliyordu ve bu yüzden öğrencilerin bulması zordu
Bu nedenle WorldCat'in ISBN eşleme veritabanını kullanarak aynı içeriğe sahip farklı ISBN'leri bağlayan bir SQL join ekledim
Sonuçta 10 yıl içinde öğrenciler ek olarak bir milyondan fazla kitap okudu
Anna’s Archive, ISBN ile ilgili verilerin toparlanmasına büyük katkı sağlıyor
WorldCat'i scrape ederek kullandı ve şu anda ISSN (süreli yayınlar) veritabanını da kuruyor
ISSN tarafı kitaplara kıyasla çok daha yetersiz durumda
Open Library'nin, Brewster Kahle (Internet Archive'ın kurucusu) ile Aaron Swartz'ın ilk çalışmalarından doğduğunu hatırlatıyor
İlgili blog
Gerçek bir kitapçıda kitabı görüp satın aldım, sonra eve gelince aynı baskıya zaten sahip olduğumu fark ettiğim durumlar sık oldu
Koleksiyonumda ISBN ile arama yapabilseydim bu tür mükerrer satın alımların önüne geçebilirdim
Kişisel bir projede ISBNDB API kullanarak bir kitap yönetim sitesi yapmıştım
Başlığa göre arama yapınca sayısız baskı, dil ve cilt türü birbirine karışıyor ve sonuçlar çok karmaşık hale geliyordu
Sonuçları Jaccard benzerliğine göre düzenledim ama kusursuz değildi
OpenLibrary'yi alternatif olarak değerlendiriyorum
StoryGraph uygulaması fena değil gibi geliyor
Yapay zeka özelliklerinden kaçınmak isteyen kullanıcıları gözeten arayüzü hoş
Arama işlevi de başarılı
Ben şahsen 2017'den beri kullanıyorum ve bunu oligopoliden çıkış hedefiyle seçtim
ISBN içinde yayıncı tanımlayıcısı bulunur; bu yüzden aynı kitap pazara göre farklı ISBN'lere sahip olabilir
Ücretsiz bir hizmet, dolayısıyla ülkeye göre değişebilir
Bu yüzden yayıncı adı doğrudan yer almasa da, yapısı gereği tanımlama mümkündür