1 puan yazan GN⁺ 2026-02-06 | 1 yorum | WhatsApp'ta paylaş
  • ABD Adalet Bakanlığı’nın yayımladığı Epstein e-posta arşivi, hatalı kodlama ve aşırı sansür nedeniyle ciddi hatalar ve eleştirilerle karşı karşıya
  • Bazı e-postalarda Content-Transfer-Encoding: base64 biçimindeki ekler olduğu gibi yer alıyor; bu veriler geri yüklenirse özgün PDF yeniden oluşturulabiliyor
  • Ancak düşük OCR kalitesi, Courier New yazı tipinde 1 ile l ayrımının sorunlu olması, kötü tarama kalitesi gibi nedenlerle otomatik geri yükleme neredeyse imkansız durumda
  • Yazar, tesseract, Adobe Acrobat Pro, AWS Textract gibi araçlarla geri yüklemeyi denedi ancak hepsinde eksik sonuçlar elde etti
  • Bu örnek, dijital adli bilişim ve belge geri yükleme tekniklerinin sınırlarını gösteriyor ve topluluğun birlikte çözmesi gereken teknik bir meydan okuma olarak sunuluyor

Adalet Bakanlığı tarafından yayımlanan materyallerdeki sorunlar

  • Yakın zamanda yayımlanan Epstein arşivi, suç ortaklarının adlarından konuyla ilgisiz kadın fotoğraflarına kadar aşırı sansürlenmiş halde dağıtıldı
    • Bazı dosyalar Quoted-Printable kodlama hataları nedeniyle bozulmuş ve açılamaz durumdaydı
    • Hatta e-posta kimlik bilgileri ifşa edildiği için Reddit kullanıcıları Epstein hesabına erişebildi
  • Bu özensiz işlem, Pam Bondi liderliğindeki Adalet Bakanlığı’nın profesyonellik eksikliğine yönelik eleştirileri artırdı

base64 eklerinin bulunması

  • EFTA00400459 e-postasında 76 sayfalık base64 kodlanmış veri bulundu
    • Bu, DBC12 One Page Invite with Reply.pdf dosyasının SMTP iletimine uygun kodlanmış haliydi
    • Normalde yalnızca kopyalayıp base64 -d > output.pdf komutuyla geri yüklemek mümkün olmalıydı, ancak gerçekte yalnızca OCR tarama çıktısı bulunduğu için çok sayıda hata vardı
  • OCR çıktısında yanlış karakter eklemeleri, eksikler, geçersiz base64 karakterleri (ör. [, ,) yer aldığı için kod çözme yapılamadı

OCR ve yazı tipi sorunları

  • Adobe Acrobat Pro ve tesseract ile OCR’yi yeniden çalıştırma denemelerinde, her ikisinde de boşluk ekleme ve karakter tanıma hataları oluştu
  • tesseract, karakter kümesini base64 için geçerli karakterlerle sınırlamasına rağmen satır uzunluğu uyumsuzluğu ve kısmi tanımanın durması sorunları yaşadı
  • En büyük neden Courier New yazı tipiydi; 1 ile l ayrımını yapmak neredeyse imkansızdı
    • Düşük çözünürlüklü JPEG taramalar ve sıkıştırma artifaktları nedeniyle görsel olarak ayırt etmek bile zordu
    • Bu yüzden elle düzeltme zorunlu hale geldi ve kod çözme sırasında 1 ile l değiştirilerek tekrar tekrar denenmesi gerekti

Geri yükleme denemeleri ve araç karşılaştırması

  • imagemagick ve ghostscript, büyük hacimli işleme sırasında bellek aşımı nedeniyle başarısız oldu; bunun yerine pdftoppm kullanıldı
  • AWS Textract en iyi sonucu verdi ancak yine de satır uzunluğu hataları ve deterministik olmayan sonuçlar vardı
    • Girdi görüntüleri 2 kat büyütülerek tanıma oranı artırıldı, ancak tam geri yükleme yine de başarısız oldu
  • qpdf ile PDF yapısını geri yükleme girişimi, bozulmuş cross-reference tablosu nedeniyle sonuç vermedi

Topluluk önerileri ve sonraki tartışmalar

  • Yazının sonunda yazar, başka ekleri geri yüklemeyi denemeyi topluluğa önerdi
    • Content-Transfer-Encoding ve base64 aramalarıyla bazı faydalı verilere ulaşılabiliyor
  • Birçok kullanıcı ML tabanlı OCR, yazı tipine özel CNN eğitimi, crowdsourcing captcha yaklaşımı gibi farklı yöntemler önerdi
    • Bazıları PDF’yi başarıyla geri yüklediklerini paylaşırken, pdfimages kullanımının pdftoppm’den daha net sonuç verdiğini bildirdi
  • Sonuç olarak, 1/l ayrımını otomatikleştiren algoritmalar, streaming decompressor tabanlı hata tespiti, piksel düzeyinde karşılaştırma gibi ileri geri yükleme teknikleri tartışıldı

Teknik anlamı

  • Bu olay, dijital belge kodlama hatalarının ve OCR sınırlarının gerçek bilgi erişimini nasıl engelleyebildiğini gösteriyor
  • Hukuki delillerin dijital işlenmesinde kalite kontrolün ve belge adli bilişiminin otomasyonunun önemini vurguluyor
  • Topluluğun birlikte yürüttüğü geri yükleme çabaları, kamusal veride şeffaflığın sağlanması ve teknik olarak doğrulanabilirlik açısından bir örnek olarak değerlendiriliyor

1 yorum

 
GN⁺ 2026-02-06
Hacker News yorumları
  • Pam Bondi'nin Adalet Bakanlığı ekibi bu işe en iyi insanlarını vermemiş gibi görünüyor

    • Başta FBI ajanları arasındaki mesajlaşma ilginçti. Belki de bilgi yeniden sansürlenmeden önce dışarı sızsın diye işi bilerek berbat eden bir kötü niyetli uyum (malicious compliance) örneğiydi diye düşündüm
    • İnternet onun bütün hatalarını buluyor, bu yüzden aslında kitlesel kaynak kullanımıyla gayet iyi çözülüyor gibi. İnsanlar sayesinde hatalar sürekli düzeltiliyor
  • Claude Opus tarafından yazılmış bir betik paylaşıldı
    Betik bağlantısı / Metin çıktısı / Temizlenmiş sürüm
    İlk sayfa kadarını okunabilir hale getiren bir PDF üretiyor

    • Bunu normalize edilmiş bir PDF olarak yeniden dışa aktarıp aktaramayacağınızı ya da ekran görüntüsü paylaşabileceğinizi merak ediyorum. Benim PDF okuyucularımın hepsi açmayı reddediyor
    • Bunun 450 kişinin katıldığı halka açık bir etkinlik olduğunu doğruladım. Mount Sinai makalesi ve Business Insider makalesi isimler açısından eşleşiyor ama tarihler farklı
    • Harika iş
  • Tesseract belirli bir yazı tipiyle eğitilebilir. Bu iyi bir başlangıç noktası olabilir
    Not: Tesseract eğitim verisi rehberi

  • Bu bir ikili PDF çözümleme problemi. Olası kodlama sayısı sınırlı olduğundan şu yaklaşımı öneriyorum

    1. Açık kaynaklı bir PDF çözücü kullan
    2. İlk belirsiz karaktere kadar baytları çözümle
    3. Sonraki bit geçerliyse 1, değilse l kabul et
    4. İkisi de geçerliyse geri izleme yap
      Böylece ortadaki karakterleri hızlıca test edebilir ve tüm aramayı doğrusal hale getirebilirsiniz
    • Ama arada bir sıkıştırma aşaması olduğundan geri izleme çok daha fazla olabilir
    • Bu tür bir iş afl için uygun
  • Bu bir nerd snipe gibi görünüyor ama aslında brute force yerine daha hızlı bitirilebilir. 76 kişi birer sayfa yazsa, blog yazısı çıkmadan iş biter

    • Tek bir kişi de 76 sayfanın tamamını yazabilir. Eskiden böyle işleri sık yapardım
    • Ama 76 kişiye bunu eksiksiz şekilde kopyalatmak kolay değil
    • Benim 76 arkadaşım yok, o yüzden bunu Craigslist ya da Fiverr'a koymam gerekirdi. Yönetmesi epey zahmetli olurdu
  • PDF o kadar karmaşık bir format ki, bence devletin tamamen yeni ve güvenli bir açık format oluşturup standartlaştırması daha iyi olurdu

    • XPS XML tabanlı resmi bir standart ve açık kaynak desteği fena değil ama araç kalitesi düşük ve hâlâ karmaşık
      DjVu basit ve açık kaynak araçları iyi ama özellikleri yetersiz
      TIFF ise PDF'den bile daha karmaşık, dolayısıyla uygun değil
      Bkz: XPS, DjVu, TIFF
    • Ama bence bu bir araç sorunu değil, yasayı umursamama ya da işi bilerek berbat etme tavrı sorunu
    • Yeni bir format yapılsa bile 3-5 yıl içinde sonunda PDF kadar karmaşık hale gelir
    • Yarı şaka yarı ciddi, JPEG kullanalım diyen de var
  • justice.gov aramasında aynı e-postanın birkaç sürümünü bulabildim
    Aslı: EFTA00400459.pdf
    Ek sürümler:
    EFTA02153691.pdf
    EFTA02154109.pdf
    EFTA02154246.pdf
    Birden fazla sürümü karşılaştırmak çözümü kolaylaştırabilir

    • Farklı base64 kodlaması ve yazı tipleri içeren bir sürüm daha buldum: EFTA00775520.pdf.
      “1” ve “l” sorunu burada da var ama referans olarak faydalı olabilir
  • (1, l) kombinasyonlarının tüm permütasyonlarını denemek nasıl olur diye düşündüm. 76 sayfa × 69 satır × 1 tekrar varsayarsak 2^5244 olasılık ediyor. Boşta CPU'su olan var mı?

    • Aslında çok daha kolay. Her düzeltmenin geçerli bir PDF yapısına çözülüp çözülmediğini sırayla kontrol etmek yeterli.
      Sıkıştırma varsayılan ise sağlama toplamı sayesinde daha da kolaylaşır. Ama bu mevcut araçlarla olmaz; çözücünün içine enstrümante edilmiş bir test harness yazmak gerekir
    • Ya da Epsteincoin gibi bir kripto para çıkarıp bu sorunu çözmek için işlem gücü toplayabiliriz
  • Etkinlik ayrıntıları: Dubin Breast Center 2nd Annual Benefit (Archive)

    • Etkinlik afişinde bunun 10 Aralık 2012'de Mandarin Oriental'da düzenlenen Dubin Breast Center 2. yıl yardım etkinliği olduğu yazıyor,
      ayrıca Elisa Port ile Ruttenberg ailesinin onurlandırıldığı belirtiliyor.
      Sunucu Cynthia McFadden, performanslarda ise çeşitli müzisyenler yer alıyor
  • pdftoppm ve Ghostscript (Imagemagick üzerinden çağrıldığında) tüm sayfayı baştan rasterize ettiği için yavaş
    pdfimages veya mutool ile taranmış görüntüleri doğrudan çıkarmak çok daha hızlı
    Testte pdfimages'ın pdftoppm'den 13 kat daha hızlı olduğu görüldü