Britannica11.org - 1911 Encyclopædia Britannica'nın yapılandırılmış sürümü
(britannica11.org)- 1910–1911 Encyclopædia Britannica 11. baskısının dijital sürümü; tam metin arama, çapraz başvuru ve notlandırma özellikleri sunuyor
- Üst gezinme öğelerinde Articles, Contributors, Topics, Ancillary bölümleri yer alıyor
- Başlıkta Encyclopædia Britannica ve Eleventh Edition · 1910–1911 ifadeleri belirtiliyor
- Tanıtım cümlesinde Fully searchable, cross-referenced, and annotated ifadesi doğrudan yer alıyor
- Ek gövde açıklaması, örnekler veya ayrıntılı özellik tanıtımı sunulmuyor
Genel Bakış
- 1910–1911 Encyclopædia Britannica 11. baskısının dijital sürümü olarak, tam metin arama, çapraz başvuru ve notlandırma özellikleri sunuyor
- Üst gezinme öğelerinde Articles, Contributors, Topics, Ancillary bölümleri yer alıyor
- Başlıkta Encyclopædia Britannica, Eleventh Edition · 1910–1911 ifadeleri belirtiliyor
- Tanıtım cümlesi olarak Fully searchable, cross-referenced, and annotated ifadesi doğrudan kullanılıyor
- Ek gövde açıklamaları, örnekler veya ayrıntılı özellik açıklamaları sunulmuyor
Sunulan Bilgiler
- Dijital sürümün temel özellikleri olarak aranabilirlik, çapraz başvuru ve not ekleme doğrudan doğrulanabiliyor
- Makale gövdesine karşılık gelen genişletilmiş açıklamalar veya her bir öğeye dair ayrıntılı tanıtımlar yer almıyor
- Yazar bilgisi, yayın bilgisi ve referans bilgisine karşılık gelen meta veriler özet kapsamı dışında tutuluyor
1 yorum
Hacker News yorumları
1911 Encyclopædia Britannica'yı temiz ve yapılandırılmış, keşfe uygun bir site olarak yeniden yaptım. https://britannica11.org/ adresinde görülebilir.
Yaklaşık 37 bin maddeyi özgün cilt düzenine göre geri yükledim; bölüm bazlı içindekiler tıklaması, çapraz referans bağlantıları, yazar arama, özgün cilt ve sayfa gösterimi, her sayfanın özgün taramasına bağlantı, ek materyaller, konu dizini ve meta veriler dahil tam metin arama ekledim.
Asıl iş, başlık yapısı, birden çok sayfaya yayılan maddeler, tablolar, formüller, çok dilli içerik, dipnotlar ve levhalar gibi öğeleri işleyen geri yükleme hattıydı.
Hedef, özgün hissi korurken gerçekten kullanışlı bir biçime sokmaktı.
Özellikle arama kalitesi, bölümler arası gezinme ve çapraz referanslar ile yapının garip göründüğü yerler hakkında geri bildirim almak isterim.
Hat veya veri modeliyle ilgili sorular da memnuniyetle karşılanır.
Ancak bir makalenin içine girdikten sonra başka bir konuya geçmeye çalıştığımda üstteki arama kutusu olan "Search titles and full text..." çalışmadı.
Ayrıca ilk geldiğimde nereden başlayacağım biraz belirsizdi; keşfin "Articles" veya "Topics" üzerinden başladığını hemen anlamadım. Sanırım ana görselin kendisinin giriş noktası olmasını bekliyordum.
Bu proje gerçekten harika. Ben de daha küçük ölçekte benzer bir şey yapmayı uzun zamandır düşünüyordum.
1911 Britannica'nın özellikle ünlü olmasının çeşitli nedenleri var, ama en bilinen yönü muhtemelen I. Dünya Savaşı öncesindeki son ansiklopedi olması.
Bu yüzden 1. ve 2. sanayi devrimleriyle Progressive Era'nın buharlı iyimserliği hâlâ canlı; henüz "tüm savaşları bitirecek savaş"ın şokuyla lekelenmemiş bir hava taşıyor.
Ben de doğrudan https://britannica11.org üzerinde rastgele Portuguese East Africa arattım, hemen buldu ve gayet iyi gösterdi; sonuç https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa oldu.
Nazik bir istek olarak, metin ile özgün sayfa görsellerini yan yana gösteren bir paralel görünüm seçeneği gerçekten çok güzel olurdu.
Böylece OCR sadakatini doğrudan kontrol ederken güzel baskıyı da birlikte görmek mümkün olurdu ve her sayfa için yeni pencere açmak gerekmezdi.
Ben şahsen bu siteyi belgeye giriş noktası olarak kullanıp okumayı görüntü ağırlıklı yapar, doğrulama veya kopyalama gerektiğinde metne geçerdim.
Şu anda da özgün görsellerin var olduğunu biliyordum ama yan bağlantıları fark edene kadar üç kez gelmem gerekti; yeterince görünür değildi. İsteğe bağlı küçük önizlemeler gibi bir ara çözüm de iyi görünüyor.
Her şeyden önce çok hızlı.
Ayrıca OP sürümünde bazı sadakat sorunları da gördüm. https://britannica11.org/article/18-0684-s2/molecule içinde "the molecules of other kinds" altında formülün bir kısmı eksik; bunu [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds ve [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688 karşılaştırılarak doğrulanabilir.
Ayrıca dipnot 1, OP sürümünde "as they have always done" ifadesine bağlanmış, ama aslında s. 654'teki "Atom"a ait olması gerekiyor. [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done, [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1 ile karşılaştırılabilir.
Söylediğiniz nedenlerden ötürü ben de metinle sayfayı yan yana görmenin iyi olacağını düşünüyordum ama henüz yapmadım.
Tarama bağlantılarının hemen fark edilmediğine dair geri bildirim de faydalı oldu; bunu daha görünür yapmam gerektiğini düşünüyorum.
Bu arada sol kenar boşluğundaki vol:page bağlantısına tıklarsanız, doğrudan okuduğunuz sayfanın taramasına gidebilirsiniz.
"Adolescence" maddesi gibi şeylere bakınca, bugün oldukça sarsıcı gelen inançlara rastlanabildiğini düşünüyorum.
Örneğin ergenlik çağındaki kız çocukları için egzersizin ve zihinsel eğitimin yükünün azaltılması, dinlenmenin ise zorunlu kılınması gerektiği gibi ifadeler var.
Gerçekte birçok insan zaten benzer yaşam biçimlerini uyguluyor ve kadın hareketi de bir dönem bunun tersini güçlü biçimde savunduktan sonra, daha sonra iş gücü piyasasına girmeme yönündeki seçme özgürlüğünü de vurgulayan bir yöne kısmen kaydı diye düşünüyorum.
Sözde "soft life" tercihi zamandan bağımsız; erkekler için de bir başkası tarafından ekonomik olarak desteklenmenin kültürel seçenek olarak yaygın biçimde açık olduğu bir ortam olsa, daha az zihinsel yük içeren ve aşamalı rolleri seçenlerin oranı epey yüksek olurdu diye düşünüyorum.
Böyle bir durumda başka alanlardaki temsil dengesizlikleri de kadınların zorla itilmesiyle değil, erkeklerin gönüllü çekilmesiyle kısmen dengelenebilirdi görüşü var.
Tarihî belgelerdeki tuğla gibi paragrafları LLM'lerin biraz aşırı biçimlendirmeyle düzenlemesi de beklenmedik şekilde faydalı.
Bir de "Bu metin bugün nasıl karşılanırdı?" gibi bir istem daha verirseniz, bugünün ölçülerine göre uygunsuz ya da kabullenilmesi zor bölümleri de oldukça ayrıntılı biçimde işaret ediyor.
Bilginin içeride nasıl bir yapıda olduğunu merak etmiştim. Dijital beşerî bilimlerde bu tür işler için XML-TEI gibi anlamsal işaretlemelerin sık kullanıldığını yakın zamanda öğrendim.
Ben, Latin-English Lewis & Short sözlüğünün XML-TEI ile kodlanmış bir sürümüne bakarken BaseX ve XQuery öğrendim; ardından "tüm korpusta yalnızca bir kez geçen bir sözcüğü kullanan klasik yazar kimdir" ya da "en uzun hapax sözcük hangisidir" gibi sorular sormanın eğlenceli olduğunu fark ettim.
Tufts University'nin bu tür verileri açık etmesi de gerçekten harikaydı.
1911 Britannica'yı da BaseX'e koyup XQuery ile çeşitli yönlerden kurcalayabilmek çok eğlenceli olurdu.
Metnin kendisi public domain, ama henüz büyük ölçekli yapılandırılmış dışa aktarım yayımlamadım.
Yine de bu başlıkta veri setine erişim isteği çok geldiği için bunu ciddi şekilde değerlendiriyorum; yayımlarsam düz metin dökümü yerine yapıyı koruyan bir biçimde vermek isterim.
Modern metinlerle karşılaştırınca üslubun ve yapının oldukça farklı olması ilgimi çekti.
Örneğin Copenhagen maddesine https://britannica11.org/article/07-0111-copenhagen/copenhagen bakınca, coğrafyayı ve başlıca görülecek yerleri doğru biçimde anlatırken yazarların ilginç veya tuhaf buldukları şeyler hakkında duygusal sıfatları ve kişisel görüşleri hiç çekinmeden kattığını görüyorsunuz.
Üstelik aşağıdaki Battle of Copenhagen bölümü, coğrafi açıklamadan bir anda deniz savaşının sahne sahne betimine geçiyor; sanki türün kendisi değişiyor.
Coğrafya, tarih ve bazen oldukça güçlü görüşler tek bir yerde karışıyor; bence bu yüzden okumak daha keyifli oluyor.
Bununla ilgili bazı düşünceleri giriş yazımda da topladım: https://britannica11.org/about.html
Les Misérables'i "şimdiye kadar yaratılmış ya da tasarlanmış en büyük epik ve dramatik roman" diye öven bölüm tam böyle bir örnekti.
2021 baskısı Encarta veya Britannica gibi nispeten yeni ansiklopedilerin bulunup bulunamayacağını uzun zamandır merak ediyordum.
LLM öncesi ama pandemi sonrası gibi muğlak bir sınırda, yapay zeka kirlenmesinin daha az olduğu son bilgi kaynaklarından biri olmasını umuyordum.
Çocukken en sevdiğim şeylerden biri CD-ROM ansiklopedilerdi; internetin yaygın olmadığı dönemde yağmurlu öğleden sonralarında sevdiğim maddeleri açıp okuyarak öğrenme deneyimi çok güzeldi.
Bu projenin motivasyonlarından biri de 1911 özgün metni ve yapısını temel alarak o keşif duygusunu yeniden canlandırmaktı.
1911 Encyclopedia Britannica'yı sevenler için https://OldEncyc.com da ilginç olabilir diye düşünüyorum.
Burada 1728'den 1926'ya kadar 22 baskılık eski ansiklopediler, cilt ve harf aralığı bazında incelenebiliyor. OP'nin sitesi kadar arama odaklı değil ama kaynak yelpazesi geniş.
Çok ufak bir hata bildirimi ama seçili yazı tipi şu anda ℔ karakterini desteklemiyor, bu yüzden https://britannica11.org/article/22-0688-s2/putting_the_shot gibi maddeler garip görünüyor.
Günümüzde daha tanıdık olan lb biçimine normalize etmek de düşünülebilir.
Küçük görünüyor olabilir ama bu proje böyle maddelerle dolu.
Dünya küçük. Ben de şu anda EB 9th edition taramalarını düzenleyip bir MediaWiki sitesine yüklüyorum; çizimler ve levhaları da kattığım için henüz ancak üçte birine gelebildim.
Çeşitli OCR araçlarını denedim, şimdiye kadar paddleOCR en etkileyicisi oldu. Metin sütunlarını ayırma, çizim etiketleme ve kenar notlarını tanıma konularında oldukça başarılıydı.
Elbette kusursuz değil; bazı tabloları elle düzeltiyorum ve özgün tarama sayfası ile elektronik metin arasında gidip gelmeye imkân vermek için kaynak sayfaları da birlikte yayımlamayı planlıyorum.
Bu şekilde çevrimiçi hale getirip üstüne bağlantılar ve dizin eklemek için, coğrafya atlasları, tıp atlasları ve Baedeker seyahat rehberleri gibi başka ilginç kaynaklar da akla geliyor.
Alfred Newton'ın kapsamlı kuş maddeleriyle Macaulay'nin bazı klasik denemeleri hemen aklıma geliyor.
Bazı bölümler bugün okununca oldukça eğlenceli ve tuhaf bir tat veriyor. Örneğin stars maddesinde https://britannica11.org/article/25-0806-star/star#section-10, yıldızlar uzayda sonsuz ve düzgün biçimde dağılmış ve ışık soğurulması yoksa gökyüzü arka planının göz kamaştırıcı parlaklıkta olması gerektiği anlatılıyor.
Sonuç https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1 idi ve zamanın gerçekten ne kadar değiştiğini düşündürdü.
Bunun yerine element atomlarının bir tür yeniden düzenlenmesinin en makul açıklama olduğunu, bulutsunun Güneş'e yoğunlaşırken maddenin bilinen elementlere doğru gelişmesi sürecinde enerji açığa çıktığını öne sürüyorlardı.
Dönemin bilgi düzeyi düşünülünce şaşırtıcı derecede yakın bir tahmindi.