2 puan yazan GN⁺ 2025-12-08 | 1 yorum | WhatsApp'ta paylaş
  • arXiv, araştırma erişilebilirliğini artırmak amacıyla PDF ile birlikte HTML formatında makale sunmaya başladı
  • 2 milyondan fazla makalenin bir kısmı, otomatik dönüşüm sınırlamaları nedeniyle HTML sürümü olmadan kalıyor; dönüştürme kalitesi sürekli geliştiriliyor
  • HTML, ekran okuyucular, ses dönüşümü, mobil cihazlar gibi yardımcı teknolojilerle uyumu nedeniyle erişilebilirlik açısından avantaj sağlıyor
  • Topluluk, hata bildirimleri ve LaTeX dönüşüm iyileştirmeleriyle projeye doğrudan katkı sunabiliyor
  • Bu hamle, arXiv’in bilimsel araştırmanın kapsayıcılığını ve erişilebilirliğini genişletmeye yönelik uzun vadeli yönelimini gösteriyor

HTML biçiminde makale sunumu özeti

  • arXiv, mevcut PDF’nin yanında bir HTML makale biçimi sunarak araştırma erişilebilirliğini yükseltiyor
    • Topluluk geri bildirimi, kısa sürede en büyük etkiyi yaratabilecek adımın HTML sağlanması olduğunu gösteriyor
  • HTML sürümü, makale özet sayfasındaki PDF indirme bağlantısının altında görünüyor
    • Yazarlar, gönderim sürecinde kendi makalelerinin HTML önizlemesini görebiliyor
  • arXiv, 2 milyondan fazla makalede kademeli olarak HTML eklemeye devam ediyor; bazı makaleler dönüşüm başarısızlığı nedeniyle HTML almıyor
  • HTML beta lansmanı yalnızca bir başlangıç; LaTeX dönüşüm kalitesini geliştirme ve geri bildirim toplama çalışmaları sürüyor

"Deneysel" olarak adlandırılmasının nedeni

  • arXiv gönderilerinin %90’dan fazlası TeX (çoğunlukla LaTeX) biçiminde olduğu için bunları doğru biçimde HTML'ye dönüştürmek teknik bir zorluk teşkil ediyor
    • LaTeX oldukça genişletilebilir ve yazarlarca farklı şekillerde kullanılıyor
    • HTML, ekran okuyucular, ses sentezi, ekran büyütücüler ve mobil cihazlarla uyum sağlama konusunda güçlü
    Reklam
  • Dönüşüm hem otomasyonu hem de hızı korumalı olduğu için kusursuz bir işleme yapmak zorlaşıyor
  • HTML’nin “deneysel” olarak yayımlanmasının iki nedeni var
    1. Erişilebilir makalelere hemen ihtiyaç var — erişilebilirlik gereksinimi olan araştırmacılar, yayını geciktirmemek için bunu istedi
    2. Topluluğun yardımı gerek — belirli LaTeX paketleri sorunlarını izlemek için dönüşüm hatalarını raporlayın

HTML makalelerinde oluşabilecek hatalar

  • HTML makaleleri hâlâ iyileştirme aşamasındaki çalışmalardır ve dönüştürme hataları veya işleme sorunları meydana gelebilir
  • arXiv, hata kaynaklarını ve yazarların bunları en aza indirmesine yardımcı olacak yolları paylaşıyor
  • Ayrıntılar için ayrı bir sayfada ek bilgiler var

Topluluk katılımı

  • 1) HTML makale okuyun ve sorunları raporlayın

    Reklam
    • İlgili makalenin özet sayfasındaki HTML bağlantısına tıklayıp açın
    • Sorunlar, Open Issue düğmesiyle, metin seçip raporlayarak veya Ctrl+? kısayolu ile bildirilebilir
    • Ekran okuyucu kullananlar, Alt+y ile paragraf bazlı erişilebilirlik raporu düğmesine geçebilir
    • HTML’nin PDF’ye bire bir uymadığı gerekçesiyle tek başına rapor açılmaması isteniyor
    • HTML’de biçimden çok işlev önceliklidir, satır kaydırma ve boşluk farkları bilinçli tasarım kararlarıdır
    • HTML, yardımcı teknoloji uyumluluğu ve cihaz uyumluluğu açısından PDF’den daha iyi performans gösteriyor
  • 2) LaTeX dönüşüm iyileştirmesine destek verin

    • Yazarlar, arXiv’in LaTeX işaretleme en iyi uygulama kılavuzunu izleyerek dönüşüm kalitesini artırabilir
    • Geliştiriciler, LaTeXML projesi issue listesi üzerinden dönüşüm iyileştirmesine katkıda bulunabilir
    • Konferanslar veya yayınevleri, desteklenmeyen paketleri kullanan .cls dosyalarını inceleyerek erişilebilirliğe destek verebilir

İşbirliği yapanlara teşekkür

  • Projede engelli araştırmacıların önerileri ve uzmanlığı belirleyici rol oynadı
  • HTML makale uygulaması, LaTeX Project ve NIST’in LaTeXML ekibinin işbirliğiyle mümkün oldu
  • Her iki ekibin bilgisine, teknik uzmanlığına ve erişilebilirliğe adanmışlığına derin teşekkürler sunuluyor

1 yorum

 
GN⁺ 2025-12-08
Hacker News yorumu
  • arXiv HTML Papers geliştiricisi olarak kısa bir güncelleme paylaşıyor
    Şu anda makale render alma sürecinde kalite ve kapsama sorunlarının çok olduğunu bildiğini söylüyor. Bu tür sorunlar fark edilirse GitHub issue sayfasına bildirilmesini istiyor
    Geliştirme zamanı eksikliği en büyük darboğaz ve LaTeX tarafındaki iyileştirmelerin merkezinde hâlâ LaTeXML var

  • arXiv makalelerini PDF yerine HTML formatında okumayı çok daha fazla tercih ettiğini söylüyor
    Tarayıcı eklentilerini doğrudan kullanarak çeviri, not alma, LLM'e gönderme gibi çeşitli işleri kolayca yapabiliyor
    Şu anda arXiv'de varsayılan HTML hizmeti(https://arxiv.org/html/xxxx.xxxxx) ve alternatif hizmet(https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx) bulunuyor
    Ancak varsayılan hizmette ciddi kapsama sorunları var; örneğin bu makale çalışmıyor. Alternatif hizmete geçince bazen düzeliyor ama her iki hizmetin de başarısız olduğu durumlar da var (örnek)

  • Unicode Consortium'un emoji yerine matematik sembollerini desteklemeye daha çok odaklanmış olması hâlinde, (LA)TeX/PDF merkezli yapıdan çıkılabileceğini düşünüyor
    OpenType ve TrueType zaten karmaşık render almayı destekliyor ve font fallback da mümkün
    Sorun teknik kısıtlar değil, “sembol katmanına dahil edilmez” yönündeki politik tercih olmuş
    İlginç biçimde Gemini 3 Pro, hangi ayar yapılırsa yapılsın LaTeX formüllerini zorla çıktı olarak veriyor. Deney sonuçlarını burada paylaşmış

    • Üst simge ve alt simge ne kadar iyi işlenirse işlensin, kesirler ya da değişken parantezler gibi temel matematiksel gösterimler mümkün değil
      Çünkü Unicode özünde bir layout sistemi değil, bir karakter sistemidir
    • Matematiksel ifadeler emojiden çok daha karmaşıktır. Karşılaştırmanın kendisinin zor olduğunu düşünüyor
    • Bu sorunun sadece Gemini 3'te görülmesi şaşırtıcı. Çoğu LLM zaten LaTeX merkezlidir; bu yüzden aslında standart olarak doğal bir sonuç gibi görünüyor
    • Aslında “matematik yüzünden LaTeX gerekiyor” iddiası uzun süredir kullanılan eski bir mazeretten ibaret
      HTML tabanlı makaleler gayet mümkün ama araştırmacılar hâlâ geleneksel iki sütunlu düzen ve serif fontlarda ısrar ediyor
      Mobil erişilebilirlik ya da okunabilirlikten çok, ‘gerçek makale gibi görünmeli’ kültürü sorun yaratıyor
    • İki aşamalı bir yaklaşım öneriyor.
      1. aşamada soru soruluyor, 2. aşamada ise küçük bir model LaTeX gösterimini Unicode matematik ifadesine dönüştürüyor
  • HTML makaleler aslında birkaç yıldır sunuluyor
    Gerçekten de 2023'te kullanıma alındığı resmî blogda doğrulanıyor

    • Neden “deneysel(Experimental)” HTML?
      Çünkü arXiv makalelerinin %90'ı LaTeX tabanlı ve dönüşüm çok zor.
      Hızlı ve otomatik dönüşümü korurken erişilebilirliği artırmak temel mesele
    • İlgili dokümantasyon GitHub doküman sayfasında yer alıyor. 2023 etiketinin gerekli olduğundan söz ediyor
  • Sık sık karmaşık TeX yapıları kullanan bir yazar olarak, HTML dönüşümünün devreye girmesinden sonra iş yükünün ciddi biçimde arttığını söylüyor
    Dönüşüm de yavaş ve bunu yerelde simüle etmenin bir yolu yok
    Yine de erişilebilirliği artırmak için bunun iyi bir girişim olduğunu düşünüyor

  • Makalelerin epub formatında da sunulmasının iyi olacağını düşünüyor. Bunun teknik zorluklardan mı, yoksa sadece talep eksikliğinden mi kaynaklandığını bilmiyor

    • epub aslında fiilen HTML tabanlıdır
      Ama PDF kadar rahat okunabilen ya da o kadar estetik görünen bir okuyucu hiç görmediğini söylüyor. Not alma özelliklerinde de platformlar arası uyumluluk zayıf
    • epub sonuçta iyi cilalanmış bir HTML/CSS çıktısıdır.
      Araştırmacıların bunun kalite güvencesini de üstlenmesi verimsiz olur; ihtiyaç varsa HTML→epub dönüştürücü doğrudan kullanılabilir
    • Bir yandan da “epub neden gerekli?” sorusu var. Sonuçta o da HTML
  • Araştırmaya erişilebilirlik sorunu yeni değil, ama şu an en acil dönem olduğu düşünülüyor
    arXiv'in PDF ile birlikte HTML makaleler sunması, en hızlı ve en büyük değişimi yaratabilir

    • Kendi preprint'ini HTML olarak görüp memnuniyet duyduğunu söylüyor. Topluluğun nasıl katkı sağlayabileceğini de bilmek istiyor
  • Makalelerde video gömme imkânının sınırlı olması en büyük şikâyet
    Videolar yalnızca ek materyal olarak ya da harici bağlantıyla sunulabiliyor
    Makale gövdesine doğrudan GIF veya video gömülebilmesini istiyor

  • “%90'ı LaTeX tabanlı olduğu için dönüştürmek zor” açıklamasını görünce, bunun gerçekten zorlu bir iş olduğunu düşündüğünü söylüyor. Yine de iyi bir girişim

  • 1998 civarında okul gazetesinin dizgisinden sorumluyken, Corel Draw yerine HTML'e geçmeyi önermiş
    Sonunda o dönemde de, bugünkü yorumlardakine benzer nedenlerle HTML'i benimsemekten vazgeçilmiş