1 puan yazan GN⁺ 2026-02-05 | 1 yorum | WhatsApp'ta paylaş
  • ABD Adalet Bakanlığı’nın Epstein Files Transparency Act kapsamında yayımladığı PDF belgeleri üzerinde, dosya yapısı ve sözdizimine odaklanan bir dijital adli inceleme analizi gerçekleştirildi
  • Analiz sonucunda, yayımlanan EFTA veri kümesi 01–07’deki PDF’lerin redaksiyonunun doğru şekilde yapıldığı ve sosyal medyada öne sürülen “geri getirilebilir redaksiyon” iddiasının doğru olmadığı belirlendi
  • Tüm PDF’lerde şifreleme, açıklama, JavaScript ve ek dosya bulunmuyor; çoğu taranmış görüntü tabanlı ve OCR uygulanmış belgelerden oluşuyor, bazı dosyalarda ise gizli meta veriler (dictionary) bulunuyor
  • Bates numaralandırması, sıkıştırılmamış nesne akışları, hatalı sürüm gösterimi, eksik açıklama işleme gibi teknik ayrıntılar tespit edildi, ancak bunların dosya geçerliliği üzerinde büyük bir etkisi yok
  • Bu vaka, PDF adli incelemesinin karmaşıklığını ve araç güvenilirliğinin sınırlarını gösterirken, hassas belgeler yayımlanmadan önce doğru temizleme ve redaksiyon iş akışının önemini vurguluyor

DoJ tarafından yayımlanan veriye genel bakış

  • Adalet Bakanlığı 19 Aralık 2025’te 7 ZIP arşivi (toplam 2.97GB) yayımladı; bunların içinde 4.085 PDF, 1 AVI dosyası ve her set için .DAT ile .OPT veri dosyaları yer alıyor
    • PDF dosya adları EFTA00000001.pdf ile EFTA00009664.pdf arasında sıralı olarak düzenlenmiş
    • Yaklaşık 5.879 PDF’nin hâlâ yayımlanmadığı tespit edildi
  • PDF’lerin büyük bölümü taranmış görüntü tabanlı belgelerden oluşuyor ve OCR sayesinde kısmen aranabilir metin içeriyor
    • “Kara kutu” biçimindeki redaksiyonun piksel tabanlı olarak doğru biçimde uygulandığı doğrulandı
    • “Doğuştan dijital (born-digital)” bir belgeye rastlanmadı

Dosya geçerliliği ve sürüm analizi

  • Çeşitli PDF adli inceleme araçları ile yapılan geçerlilik denetimlerinde yalnızca tek bir küçük hata bulundu
    • 109 dosyada FontDescriptor Descent değeri pozitif olarak ayarlanmıştı, ancak bu yalnızca küçük bir yazı tipi eşleme hatası ve genel geçerliliği etkilemiyor
  • İki farklı pdfinfo aracının karşılaştırılmasında PDF sürümü okuma sonuçlarının farklı olduğu görüldü
    • Araç A, 1.3 sürümünde 209 dosya, 1.5 sürümünde 3.875 dosya raporladı
    • Araç B, 1.3 sürümünde 3.817 dosya, 1.5 sürümünde 267 dosya raporladı
    • Fark, artımlı güncelleme (incremental update) sırasında Version öğesinin işleniş biçiminden kaynaklanıyor ve Araç A’nın sonucu doğru kabul ediliyor
  • Tüm PDF’lerde şifreleme, etiket, açıklama, yer imi, form, JavaScript ve ek dosya bulunmuyor
    • Toplam sayfa sayısı 9.659 ve belgelerin çoğu tek sayfalı

Artımlı güncellemeler ve Bates numaraları

  • PDF’ler, birden çok artımlı güncelleme ile değişiklik geçmişini biriktirecek şekilde kaydedilmiş
    • İlk PDF (EFTA00000001.pdf) 2 artımlı güncelleme içeriyor
    • Son güncellemede her sayfaya Bates numarası eklendi
  • Bates numarası ekleme işlemi /Type /XRef çapraz başvuru akışını kullanıyor ve tüm örnek PDF’lerde aynı desen görüldü
  • İlk artımlı güncellemede PDF sürümü 1.3’ten 1.5’e değişiyor, ancak üstbilgiyle uyuşmayan teknik bir hata mevcut
    • Ayrıca gizli bir belge bilgisi sözlüğü (Info dictionary) bulunuyor, ancak son trailer içinde referans verilmediği için sıradan PDF görüntüleyicilerinde görünmüyor
    • Bu sözlükte /Creator (OmniPage CSDK 21.1) ve /Producer (Processing-CLI) bilgileri yer alıyor

Meta veri ve tarih analizi

  • pdfinfo sonuçlarına göre PDF’lerin çoğunda açık meta veri ya da XMP akışı bulunmuyor
    • Ancak bazı dosyalarda orphaned Info dictionary mevcut ve /Info öğesi birden fazla kez görünüyor
  • Yalnızca EFTA00003212.pdf dosyasında Title, Author, Subject, Keywords, Creator alanları bulunuyor
    • /Producer değeri “pypdf” olan 215 dosya tespit edildi
  • Oluşturulma tarihi (CreationDate) ile değiştirilme tarihi (ModDate) tamamen aynı ve 18–19 Aralık 2025 aralığında
    • Bu da DoJ’nin toplu işleme sürecinin yaklaşık 36 saat sürdüğünü düşündürüyor

Görüntü ve tarama özellikleri

  • Tüm PDF’lerde JPEG (DCTDecode) görüntü bulunmuyor; bunun yerine FLATE sıkıştırmalı bitmap kullanılıyor
    • Çözünürlük yaklaşık 96 DPI, renk paleti ise 256 renkle sınırlı
    • Bunun EXIF, IPTC ve XMP meta verilerini kaldırma amacıyla yapıldığı tahmin ediliyor
  • Bazı belgelerde gerçek tarama izleri (kâğıt kenarları, delikler, karalamalar vb.) görülürken, bazıları dijital olarak oluşturulup ardından taranmış gibi simüle edilmiş görüntüler izlenimi veriyor
    • Bu ayrım, aynı eğiklik (skew) ve gürültü yokluğu üzerinden yapılabiliyor
  • Courier sabit genişlikli yazı tipi kullanımı, redakte edilen karakter sayısının sayılarak tahmin edilmesi riskini doğuruyor

OCR kalitesi ve redaksiyon doğruluğu

  • OCR sonuçlarının doğruluğu düşük ve dil tanıma özelliği yok; yalnızca basit karakter tanıma düzeyinde çalışıyor
    • İlk PDF’nin (EFTA00000001.pdf) OCR metni büyük ölçüde hatalı
  • “Kara kutu” redaksiyon, görüntü pikselleri düzeyinde doğrudan uygulanmış; metin nesnelerinin üstüne çizilen bir kaplama (rectangle) değil
    • Bu nedenle geri getirilebilir bir metin bulunmuyor

Sonuç ve çıkarımlar

  • DoJ’nin PDF üretim hattı; JPEG kaldırma, meta veriyi en aza indirme, görüntü tabanlı işleme dönüştürme ve OCR uygulama adımlarından oluşuyor
    • Ancak gereksiz nesneler, boş akışlar ve artımlı güncelleme kalıntıları dosya boyutunu ve karmaşıklığı artırıyor
  • Bazı PDF yorumları (comment) ve yetim nesneler (orphaned object) kaldığından bilgi sızıntısı ihtimali var
  • PDF adli incelemesinde, araçlar arası sonuç farkları ve biçim karmaşıklığı nedeniyle yanlış değerlendirme riski yüksek
    • PDF Association bu amaçla PDF Forensic Liaison Working Group grubunu işletiyor ve sektör standardizasyonu ile eğitim çalışmalarını sürdürüyor

1 yorum

 
GN⁺ 2026-02-05
Hacker News yorumları
  • Bazı belgelerin gerçek tarama gibi göründüğü ama hiç fiziksel gürültü içermeyen yapay PDF'ler olduğu fark edilmiş
    Her sayfada aynı eğim (skew) ve kusursuz kenarlar görülmesi, özgün dijital belgenin görüntüye dönüştürülüp ardından eğme, küçültme, renk azaltma gibi işlemlerden geçirildiğini düşündürüyor

    • Asıl merak edilen, hangi belgelerin bu tür “sahte tarama” olduğu ve bunun hangi siyasi anlatıyı güçlendirmeyi amaçladığı
      Birinin bunu yapma nedeni muhtemelen AI tarafından üretilmiş görüntüleri ya da manipüle edilmiş materyalleri gerçekmiş gibi göstermek istemesi
    • GNOME Desktop kullananlar, bir Bash betiğini ~/.local/share/nautilus/ içine koyup sağ tık menüsünden doğrudan sahte tarama PDF oluşturabilir
      Asıl kaynağı hatırlamıyorum ama sanırım Stack Exchange'de görmüştüm. magick komutuyla döndürme, gürültü ekleme, gri tonlamaya çevirme gibi işlemler uygulanıyor
    • Bunu bu şekilde yapmak tuhaf. Belgeyi yazdırıp yeniden taramak çok daha kolay
    • Özellikle bahsedilen belge, 2019 tarihli DoJ'nin A. Acosta ile yaptığı görüşmeye ait materyal gibi görünüyor.
      Eğer gerçekse FBI neden bunu taranmış gibi gizledi diye insan merak ediyor. Acaba Epstein ile Acosta arasındaki anlaşmada kamuya açılmasını istemedikleri bir bölüm mü var
      İlgili PDF bağlantısı
    • Ben de bazen benzer bir şey yapıyorum. İmza istendiğinde boş bir kağıda imza atıp tarıyorum, sonra gerektiğinde belgeyi onun üstüne birleştirip gönderiyorum
  • DOJ'nin orijinal yerine düzenlenmiş bir kopya yayımlamış olması bence hukuken sorunlu
    Kullanılan yazılım olan OmniPage CSDK 21.1 tüm meta verileri kaldırıyor ve şifrelenmiş dosyaları da siliyor

  • Birinin Epstein'ın (JE) yazı stilini analiz edip 4chan gibi yerlerdeki gönderilerle karşılaştırıp karşılaştırmadığını merak ediyorum
    Ghislaine için de yeterli veri vardır muhtemelen; MaxwellHill iddialarına inanmıyorum ama yine de bazı ipuçları çıkabilir gibi

    • Eskiden HN kullanıcılarının yazı stilini analiz edip benzer hesapları bulmaya çalışan bir stylometry projesi vardı
      İlgili yazı
      Gizlilik sorunları nedeniyle site kapatıldı ama doğruluğu yüksekti. Ben de yorumlarımı rastgele yeniden stilize eden bir AI tarayıcı yardımcısı yapmak istiyorum
    • Ama ben yine de şüpheliyim. Yalnızca yazı stili ve kelime dağarcığıyla çok fazla insan üst üste bineceği için belirlemek zor görünüyor
      Yine de Epstein'ın e-postaları çok kendine özgü olduğundan bir istisna olabilir
    • Aslında yalnızca n-gram analizi ile bile yazar tespit edilebilecek kadar stylometry gelişmiş durumda
      HN demo bağlantısı
      Bu yöntem AI üretimi yazıları da iyi ayırt ediyor. “AI tespiti için transformer” eğitme yaklaşımından çok daha iyi olduğunu düşünüyorum
    • Epstein'ın yazıları neredeyse disleksi düzeyinde bozuk cümlelerle dolu
      Üst düzey kişilerin neredeyse hiç doğrudan yazı yazmaması yüzünden cümle kurma becerilerini kaybetmiş olmaları da mümkün, ya da bu kendi aralarındaki bir iç dil olabilir
  • Bu sayfadaki çerez açılır penceresinde reddet düğmesinin “Continue without consent” olması komikti

    • Gerçekten de kullanıcıya suçluluk hissettirmeyi amaçlayan bir ifade gibi duruyor
    • Epstein'la ilgili bir sitenin Epstein gibi davranması ironik
  • Bilgi, PDF açıklamaları ya da sıkıştırılmış nesne akışlarının içindeki sahipsiz nesneler üzerinden sızıyor olabilir
    Umarım biri tüm belgeleri bağımsız şekilde arşivliyordur. Bazılarının zaten silinmiş olduğu anlaşılıyor

    • Reddit'te de ilgili gönderiler siliniyor ya da shadowban uygulanıyor
      Ama Lemmy topluluğunda tartışma hâlâ sürüyor
    • Bazı belgeler mağdur isimleri içerdiği için ek karartma uygulanmış olabilir
    • Başlangıçta Epstein Files Transparency Act sayfasında tüm veri kümelerinin .zip bağlantıları vardı,
      bir ara hepsi kayboldu ama şimdi çoğu geri gelmiş durumda
  • Şu anda allenai/olmocr-2-7b modeliyle DOJ'nin sağladığı OCR sonuçlarını karşılaştırıyorum
    Yaklaşık 500 bin görüntü var, bu yüzden epey zaman alıyor. Yine de olmocr-2-7b'nin tanıma oranı oldukça yüksek

    • Acaba görüntü boyutunu küçültüp performansı artırma yöntemini deneyen oldu mu?
      Hangi boyutun altına inilince metin tanımanın zorlaştığını da merak ediyorum
  • Bazı yeni dosyalarda neden rastgele ‘=’ karakterleri bulunduğunu merak etmiştim
    OCR hatasına benzemiyor, daha çok aramayı zorlaştırma niyeti varmış gibi duruyor

    • Dün bununla ilgili bir yazı HN ana sayfasındaydı: bağlantı
    • Aslında bu, e-postalardaki quoted-printable kodlama işleme hatası yüzünden oluyor
      gnus geliştiricisi Lars Ingebrigtsen bunu blogunda açıklamıştı
  • Bazı PDF'lerde Base64 ile kodlanmış ekler doğrudan gövdenin içinde duruyor
    OCR kalitesi o kadar kötü ki bunları geri getirmek ciddi emek gerektiriyor
    Örnek PDF,
    İlgili Reddit başlığı

    • Yalnızca birkaç bayt hatalı olsa bile ikili veriyi geri getirmenin imkânsız hâle gelip gelmeyeceğini merak ediyorum
  • Bana göre daha ilginç olan şey Epstein'ın banka hesapları
    Ona kimin para verdiği ve onun kimlere ödeme yaptığı asıl mesele

    • DOJ bu bilgileri ya zaten biliyordur ya da isterse hemen doğrulayabilir
    • Ama para akışının kök neden analizi kamuya açıklanmıyor
      Bunun yerine yalnızca gerektiği kadar bilgi yayımlanıyor ve kamuoyu belli gruplar arasında nefrete yönlendiriliyor
  • Cloudflare tarafından erişim engellendi