Epstein PDF’lerini Ham Kodlanmış Eklerden Geri Yüklemek

(neosmart.net)

1 puan yazan GN⁺ 2026-02-06 | 1 yorum | WhatsApp'ta paylaş

ABD Adalet Bakanlığı’nın yayımladığı Epstein e-posta arşivi, hatalı kodlama ve aşırı sansür nedeniyle ciddi hatalar ve eleştirilerle karşı karşıya
Bazı e-postalarda Content-Transfer-Encoding: base64 biçimindeki ekler olduğu gibi yer alıyor; bu veriler geri yüklenirse özgün PDF yeniden oluşturulabiliyor
Ancak düşük OCR kalitesi, Courier New yazı tipinde 1 ile l ayrımının sorunlu olması, kötü tarama kalitesi gibi nedenlerle otomatik geri yükleme neredeyse imkansız durumda
Yazar, tesseract, Adobe Acrobat Pro, AWS Textract gibi araçlarla geri yüklemeyi denedi ancak hepsinde eksik sonuçlar elde etti
Bu örnek, dijital adli bilişim ve belge geri yükleme tekniklerinin sınırlarını gösteriyor ve topluluğun birlikte çözmesi gereken teknik bir meydan okuma olarak sunuluyor

Adalet Bakanlığı tarafından yayımlanan materyallerdeki sorunlar

Yakın zamanda yayımlanan Epstein arşivi, suç ortaklarının adlarından konuyla ilgisiz kadın fotoğraflarına kadar aşırı sansürlenmiş halde dağıtıldı
- Bazı dosyalar Quoted-Printable kodlama hataları nedeniyle bozulmuş ve açılamaz durumdaydı
- Hatta e-posta kimlik bilgileri ifşa edildiği için Reddit kullanıcıları Epstein hesabına erişebildi
Bu özensiz işlem, Pam Bondi liderliğindeki Adalet Bakanlığı’nın profesyonellik eksikliğine yönelik eleştirileri artırdı

base64 eklerinin bulunması

EFTA00400459 e-postasında 76 sayfalık base64 kodlanmış veri bulundu
- Bu, DBC12 One Page Invite with Reply.pdf dosyasının SMTP iletimine uygun kodlanmış haliydi
- Normalde yalnızca kopyalayıp base64 -d > output.pdf komutuyla geri yüklemek mümkün olmalıydı, ancak gerçekte yalnızca OCR tarama çıktısı bulunduğu için çok sayıda hata vardı
Reklam
OCR çıktısında yanlış karakter eklemeleri, eksikler, geçersiz base64 karakterleri (ör. [, ,) yer aldığı için kod çözme yapılamadı

OCR ve yazı tipi sorunları

Adobe Acrobat Pro ve tesseract ile OCR’yi yeniden çalıştırma denemelerinde, her ikisinde de boşluk ekleme ve karakter tanıma hataları oluştu
tesseract, karakter kümesini base64 için geçerli karakterlerle sınırlamasına rağmen satır uzunluğu uyumsuzluğu ve kısmi tanımanın durması sorunları yaşadı
En büyük neden Courier New yazı tipiydi; 1 ile l ayrımını yapmak neredeyse imkansızdı
- Düşük çözünürlüklü JPEG taramalar ve sıkıştırma artifaktları nedeniyle görsel olarak ayırt etmek bile zordu
- Bu yüzden elle düzeltme zorunlu hale geldi ve kod çözme sırasında 1 ile l değiştirilerek tekrar tekrar denenmesi gerekti

Geri yükleme denemeleri ve araç karşılaştırması

imagemagick ve ghostscript, büyük hacimli işleme sırasında bellek aşımı nedeniyle başarısız oldu; bunun yerine pdftoppm kullanıldı
AWS Textract en iyi sonucu verdi ancak yine de satır uzunluğu hataları ve deterministik olmayan sonuçlar vardı
- Girdi görüntüleri 2 kat büyütülerek tanıma oranı artırıldı, ancak tam geri yükleme yine de başarısız oldu
qpdf ile PDF yapısını geri yükleme girişimi, bozulmuş cross-reference tablosu nedeniyle sonuç vermedi

Topluluk önerileri ve sonraki tartışmalar

Yazının sonunda yazar, başka ekleri geri yüklemeyi denemeyi topluluğa önerdi
- Content-Transfer-Encoding ve base64 aramalarıyla bazı faydalı verilere ulaşılabiliyor
Birçok kullanıcı ML tabanlı OCR, yazı tipine özel CNN eğitimi, crowdsourcing captcha yaklaşımı gibi farklı yöntemler önerdi
- Bazıları PDF’yi başarıyla geri yüklediklerini paylaşırken, pdfimages kullanımının pdftoppm’den daha net sonuç verdiğini bildirdi
Sonuç olarak, 1/l ayrımını otomatikleştiren algoritmalar, streaming decompressor tabanlı hata tespiti, piksel düzeyinde karşılaştırma gibi ileri geri yükleme teknikleri tartışıldı

Teknik anlamı

Bu olay, dijital belge kodlama hatalarının ve OCR sınırlarının gerçek bilgi erişimini nasıl engelleyebildiğini gösteriyor
Hukuki delillerin dijital işlenmesinde kalite kontrolün ve belge adli bilişiminin otomasyonunun önemini vurguluyor
Topluluğun birlikte yürüttüğü geri yükleme çabaları, kamusal veride şeffaflığın sağlanması ve teknik olarak doğrulanabilirlik açısından bir örnek olarak değerlendiriliyor

1 yorum

GN⁺ 2026-02-06

Hacker News yorumları

Pam Bondi'nin Adalet Bakanlığı ekibi bu işe en iyi insanlarını vermemiş gibi görünüyor
- Başta FBI ajanları arasındaki mesajlaşma ilginçti. Belki de bilgi yeniden sansürlenmeden önce dışarı sızsın diye işi bilerek berbat eden bir kötü niyetli uyum (malicious compliance) örneğiydi diye düşündüm
- İnternet onun bütün hatalarını buluyor, bu yüzden aslında kitlesel kaynak kullanımıyla gayet iyi çözülüyor gibi. İnsanlar sayesinde hatalar sürekli düzeltiliyor
Claude Opus tarafından yazılmış bir betik paylaşıldı
Betik bağlantısı / Metin çıktısı / Temizlenmiş sürüm
İlk sayfa kadarını okunabilir hale getiren bir PDF üretiyor
- Bunu normalize edilmiş bir PDF olarak yeniden dışa aktarıp aktaramayacağınızı ya da ekran görüntüsü paylaşabileceğinizi merak ediyorum. Benim PDF okuyucularımın hepsi açmayı reddediyor
- Bunun 450 kişinin katıldığı halka açık bir etkinlik olduğunu doğruladım. Mount Sinai makalesi ve Business Insider makalesi isimler açısından eşleşiyor ama tarihler farklı
- Harika iş
Tesseract belirli bir yazı tipiyle eğitilebilir. Bu iyi bir başlangıç noktası olabilir
Not: Tesseract eğitim verisi rehberi
Bu bir ikili PDF çözümleme problemi. Olası kodlama sayısı sınırlı olduğundan şu yaklaşımı öneriyorum
1. Açık kaynaklı bir PDF çözücü kullan
2. İlk belirsiz karaktere kadar baytları çözümle
3. Sonraki bit geçerliyse 1, değilse l kabul et
4. İkisi de geçerliyse geri izleme yap
  Böylece ortadaki karakterleri hızlıca test edebilir ve tüm aramayı doğrusal hale getirebilirsiniz
- Ama arada bir sıkıştırma aşaması olduğundan geri izleme çok daha fazla olabilir
- Bu tür bir iş afl için uygun
Bu bir nerd snipe gibi görünüyor ama aslında brute force yerine daha hızlı bitirilebilir. 76 kişi birer sayfa yazsa, blog yazısı çıkmadan iş biter
- Tek bir kişi de 76 sayfanın tamamını yazabilir. Eskiden böyle işleri sık yapardım
- Ama 76 kişiye bunu eksiksiz şekilde kopyalatmak kolay değil
- Benim 76 arkadaşım yok, o yüzden bunu Craigslist ya da Fiverr'a koymam gerekirdi. Yönetmesi epey zahmetli olurdu
PDF o kadar karmaşık bir format ki, bence devletin tamamen yeni ve güvenli bir açık format oluşturup standartlaştırması daha iyi olurdu
- XPS XML tabanlı resmi bir standart ve açık kaynak desteği fena değil ama araç kalitesi düşük ve hâlâ karmaşık
  DjVu basit ve açık kaynak araçları iyi ama özellikleri yetersiz
  TIFF ise PDF'den bile daha karmaşık, dolayısıyla uygun değil
  Bkz: XPS, DjVu, TIFF
- Ama bence bu bir araç sorunu değil, yasayı umursamama ya da işi bilerek berbat etme tavrı sorunu
- Yeni bir format yapılsa bile 3-5 yıl içinde sonunda PDF kadar karmaşık hale gelir
- Yarı şaka yarı ciddi, JPEG kullanalım diyen de var
justice.gov aramasında aynı e-postanın birkaç sürümünü bulabildim
Aslı: EFTA00400459.pdf
Ek sürümler:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Birden fazla sürümü karşılaştırmak çözümü kolaylaştırabilir
- Farklı base64 kodlaması ve yazı tipleri içeren bir sürüm daha buldum: EFTA00775520.pdf.
  “1” ve “l” sorunu burada da var ama referans olarak faydalı olabilir
(1, l) kombinasyonlarının tüm permütasyonlarını denemek nasıl olur diye düşündüm. 76 sayfa × 69 satır × 1 tekrar varsayarsak 2^5244 olasılık ediyor. Boşta CPU'su olan var mı?
- Aslında çok daha kolay. Her düzeltmenin geçerli bir PDF yapısına çözülüp çözülmediğini sırayla kontrol etmek yeterli.
  Sıkıştırma varsayılan ise sağlama toplamı sayesinde daha da kolaylaşır. Ama bu mevcut araçlarla olmaz; çözücünün içine enstrümante edilmiş bir test harness yazmak gerekir
- Ya da Epsteincoin gibi bir kripto para çıkarıp bu sorunu çözmek için işlem gücü toplayabiliriz
Etkinlik ayrıntıları: Dubin Breast Center 2nd Annual Benefit (Archive)
- Etkinlik afişinde bunun 10 Aralık 2012'de Mandarin Oriental'da düzenlenen Dubin Breast Center 2. yıl yardım etkinliği olduğu yazıyor,
  ayrıca Elisa Port ile Ruttenberg ailesinin onurlandırıldığı belirtiliyor.
  Sunucu Cynthia McFadden, performanslarda ise çeşitli müzisyenler yer alıyor
pdftoppm ve Ghostscript (Imagemagick üzerinden çağrıldığında) tüm sayfayı baştan rasterize ettiği için yavaş
pdfimages veya mutool ile taranmış görüntüleri doğrudan çıkarmak çok daha hızlı
Testte pdfimages'ın pdftoppm'den 13 kat daha hızlı olduğu görüldü

Epstein PDF’lerini Ham Kodlanmış Eklerden Geri Yüklemek

Adalet Bakanlığı tarafından yayımlanan materyallerdeki sorunlar

base64 eklerinin bulunması

OCR ve yazı tipi sorunları

Geri yükleme denemeleri ve araç karşılaştırması

Topluluk önerileri ve sonraki tartışmalar

Teknik anlamı

İlgili okumalar

1 yorum

Hacker News yorumları