- ABD Adalet Bakanlığı’nın yayımladığı Epstein e-posta arşivi, hatalı kodlama ve aşırı sansür nedeniyle ciddi hatalar ve eleştirilerle karşı karşıya
- Bazı e-postalarda
Content-Transfer-Encoding: base64 biçimindeki ekler olduğu gibi yer alıyor; bu veriler geri yüklenirse özgün PDF yeniden oluşturulabiliyor
- Ancak düşük OCR kalitesi, Courier New yazı tipinde 1 ile l ayrımının sorunlu olması, kötü tarama kalitesi gibi nedenlerle otomatik geri yükleme neredeyse imkansız durumda
- Yazar, tesseract, Adobe Acrobat Pro, AWS Textract gibi araçlarla geri yüklemeyi denedi ancak hepsinde eksik sonuçlar elde etti
- Bu örnek, dijital adli bilişim ve belge geri yükleme tekniklerinin sınırlarını gösteriyor ve topluluğun birlikte çözmesi gereken teknik bir meydan okuma olarak sunuluyor
Adalet Bakanlığı tarafından yayımlanan materyallerdeki sorunlar
- Yakın zamanda yayımlanan Epstein arşivi, suç ortaklarının adlarından konuyla ilgisiz kadın fotoğraflarına kadar aşırı sansürlenmiş halde dağıtıldı
- Bazı dosyalar Quoted-Printable kodlama hataları nedeniyle bozulmuş ve açılamaz durumdaydı
- Hatta e-posta kimlik bilgileri ifşa edildiği için Reddit kullanıcıları Epstein hesabına erişebildi
- Bu özensiz işlem, Pam Bondi liderliğindeki Adalet Bakanlığı’nın profesyonellik eksikliğine yönelik eleştirileri artırdı
base64 eklerinin bulunması
EFTA00400459 e-postasında 76 sayfalık base64 kodlanmış veri bulundu
- Bu,
DBC12 One Page Invite with Reply.pdf dosyasının SMTP iletimine uygun kodlanmış haliydi
- Normalde yalnızca kopyalayıp
base64 -d > output.pdf komutuyla geri yüklemek mümkün olmalıydı, ancak gerçekte yalnızca OCR tarama çıktısı bulunduğu için çok sayıda hata vardı
- OCR çıktısında yanlış karakter eklemeleri, eksikler, geçersiz base64 karakterleri (ör. [, ,) yer aldığı için kod çözme yapılamadı
OCR ve yazı tipi sorunları
- Adobe Acrobat Pro ve tesseract ile OCR’yi yeniden çalıştırma denemelerinde, her ikisinde de boşluk ekleme ve karakter tanıma hataları oluştu
tesseract, karakter kümesini base64 için geçerli karakterlerle sınırlamasına rağmen satır uzunluğu uyumsuzluğu ve kısmi tanımanın durması sorunları yaşadı
- En büyük neden Courier New yazı tipiydi;
1 ile l ayrımını yapmak neredeyse imkansızdı
- Düşük çözünürlüklü JPEG taramalar ve sıkıştırma artifaktları nedeniyle görsel olarak ayırt etmek bile zordu
- Bu yüzden elle düzeltme zorunlu hale geldi ve kod çözme sırasında
1 ile l değiştirilerek tekrar tekrar denenmesi gerekti
Geri yükleme denemeleri ve araç karşılaştırması
imagemagick ve ghostscript, büyük hacimli işleme sırasında bellek aşımı nedeniyle başarısız oldu; bunun yerine pdftoppm kullanıldı
AWS Textract en iyi sonucu verdi ancak yine de satır uzunluğu hataları ve deterministik olmayan sonuçlar vardı
- Girdi görüntüleri 2 kat büyütülerek tanıma oranı artırıldı, ancak tam geri yükleme yine de başarısız oldu
qpdf ile PDF yapısını geri yükleme girişimi, bozulmuş cross-reference tablosu nedeniyle sonuç vermedi
Topluluk önerileri ve sonraki tartışmalar
- Yazının sonunda yazar, başka ekleri geri yüklemeyi denemeyi topluluğa önerdi
Content-Transfer-Encoding ve base64 aramalarıyla bazı faydalı verilere ulaşılabiliyor
- Birçok kullanıcı ML tabanlı OCR, yazı tipine özel CNN eğitimi, crowdsourcing captcha yaklaşımı gibi farklı yöntemler önerdi
- Bazıları PDF’yi başarıyla geri yüklediklerini paylaşırken,
pdfimages kullanımının pdftoppm’den daha net sonuç verdiğini bildirdi
- Sonuç olarak, 1/l ayrımını otomatikleştiren algoritmalar, streaming decompressor tabanlı hata tespiti, piksel düzeyinde karşılaştırma gibi ileri geri yükleme teknikleri tartışıldı
Teknik anlamı
- Bu olay, dijital belge kodlama hatalarının ve OCR sınırlarının gerçek bilgi erişimini nasıl engelleyebildiğini gösteriyor
- Hukuki delillerin dijital işlenmesinde kalite kontrolün ve belge adli bilişiminin otomasyonunun önemini vurguluyor
- Topluluğun birlikte yürüttüğü geri yükleme çabaları, kamusal veride şeffaflığın sağlanması ve teknik olarak doğrulanabilirlik açısından bir örnek olarak değerlendiriliyor
1 yorum
Hacker News yorumları
Pam Bondi'nin Adalet Bakanlığı ekibi bu işe en iyi insanlarını vermemiş gibi görünüyor
Claude Opus tarafından yazılmış bir betik paylaşıldı
Betik bağlantısı / Metin çıktısı / Temizlenmiş sürüm
İlk sayfa kadarını okunabilir hale getiren bir PDF üretiyor
Tesseract belirli bir yazı tipiyle eğitilebilir. Bu iyi bir başlangıç noktası olabilir
Not: Tesseract eğitim verisi rehberi
Bu bir ikili PDF çözümleme problemi. Olası kodlama sayısı sınırlı olduğundan şu yaklaşımı öneriyorum
Böylece ortadaki karakterleri hızlıca test edebilir ve tüm aramayı doğrusal hale getirebilirsiniz
Bu bir nerd snipe gibi görünüyor ama aslında brute force yerine daha hızlı bitirilebilir. 76 kişi birer sayfa yazsa, blog yazısı çıkmadan iş biter
PDF o kadar karmaşık bir format ki, bence devletin tamamen yeni ve güvenli bir açık format oluşturup standartlaştırması daha iyi olurdu
DjVu basit ve açık kaynak araçları iyi ama özellikleri yetersiz
TIFF ise PDF'den bile daha karmaşık, dolayısıyla uygun değil
Bkz: XPS, DjVu, TIFF
justice.gov aramasında aynı e-postanın birkaç sürümünü bulabildim
Aslı: EFTA00400459.pdf
Ek sürümler:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Birden fazla sürümü karşılaştırmak çözümü kolaylaştırabilir
“1” ve “l” sorunu burada da var ama referans olarak faydalı olabilir
(1, l) kombinasyonlarının tüm permütasyonlarını denemek nasıl olur diye düşündüm. 76 sayfa × 69 satır × 1 tekrar varsayarsak 2^5244 olasılık ediyor. Boşta CPU'su olan var mı?
Sıkıştırma varsayılan ise sağlama toplamı sayesinde daha da kolaylaşır. Ama bu mevcut araçlarla olmaz; çözücünün içine enstrümante edilmiş bir test harness yazmak gerekir
Etkinlik ayrıntıları: Dubin Breast Center 2nd Annual Benefit (Archive)
ayrıca Elisa Port ile Ruttenberg ailesinin onurlandırıldığı belirtiliyor.
Sunucu Cynthia McFadden, performanslarda ise çeşitli müzisyenler yer alıyor
pdftoppm ve Ghostscript (Imagemagick üzerinden çağrıldığında) tüm sayfayı baştan rasterize ettiği için yavaş
pdfimages veya mutool ile taranmış görüntüleri doğrudan çıkarmak çok daha hızlı
Testte pdfimages'ın pdftoppm'den 13 kat daha hızlı olduğu görüldü