Epstein PDF’lerinin dijital adli incelemesine dair bir vaka çalışması

(pdfa.org)

1 puan yazan GN⁺ 2026-02-05 | 1 yorum | WhatsApp'ta paylaş

ABD Adalet Bakanlığı’nın Epstein Files Transparency Act kapsamında yayımladığı PDF belgeleri üzerinde, dosya yapısı ve sözdizimine odaklanan bir dijital adli inceleme analizi gerçekleştirildi
Analiz sonucunda, yayımlanan EFTA veri kümesi 01–07’deki PDF’lerin redaksiyonunun doğru şekilde yapıldığı ve sosyal medyada öne sürülen “geri getirilebilir redaksiyon” iddiasının doğru olmadığı belirlendi
Tüm PDF’lerde şifreleme, açıklama, JavaScript ve ek dosya bulunmuyor; çoğu taranmış görüntü tabanlı ve OCR uygulanmış belgelerden oluşuyor, bazı dosyalarda ise gizli meta veriler (dictionary) bulunuyor
Bates numaralandırması, sıkıştırılmamış nesne akışları, hatalı sürüm gösterimi, eksik açıklama işleme gibi teknik ayrıntılar tespit edildi, ancak bunların dosya geçerliliği üzerinde büyük bir etkisi yok
Bu vaka, PDF adli incelemesinin karmaşıklığını ve araç güvenilirliğinin sınırlarını gösterirken, hassas belgeler yayımlanmadan önce doğru temizleme ve redaksiyon iş akışının önemini vurguluyor

DoJ tarafından yayımlanan veriye genel bakış

Adalet Bakanlığı 19 Aralık 2025’te 7 ZIP arşivi (toplam 2.97GB) yayımladı; bunların içinde 4.085 PDF, 1 AVI dosyası ve her set için .DAT ile .OPT veri dosyaları yer alıyor
- PDF dosya adları EFTA00000001.pdf ile EFTA00009664.pdf arasında sıralı olarak düzenlenmiş
- Yaklaşık 5.879 PDF’nin hâlâ yayımlanmadığı tespit edildi
PDF’lerin büyük bölümü taranmış görüntü tabanlı belgelerden oluşuyor ve OCR sayesinde kısmen aranabilir metin içeriyor
- “Kara kutu” biçimindeki redaksiyonun piksel tabanlı olarak doğru biçimde uygulandığı doğrulandı
- “Doğuştan dijital (born-digital)” bir belgeye rastlanmadı

Dosya geçerliliği ve sürüm analizi

Çeşitli PDF adli inceleme araçları ile yapılan geçerlilik denetimlerinde yalnızca tek bir küçük hata bulundu
- 109 dosyada FontDescriptor Descent değeri pozitif olarak ayarlanmıştı, ancak bu yalnızca küçük bir yazı tipi eşleme hatası ve genel geçerliliği etkilemiyor
İki farklı pdfinfo aracının karşılaştırılmasında PDF sürümü okuma sonuçlarının farklı olduğu görüldü
- Araç A, 1.3 sürümünde 209 dosya, 1.5 sürümünde 3.875 dosya raporladı
- Araç B, 1.3 sürümünde 3.817 dosya, 1.5 sürümünde 267 dosya raporladı
- Fark, artımlı güncelleme (incremental update) sırasında Version öğesinin işleniş biçiminden kaynaklanıyor ve Araç A’nın sonucu doğru kabul ediliyor
Tüm PDF’lerde şifreleme, etiket, açıklama, yer imi, form, JavaScript ve ek dosya bulunmuyor
- Toplam sayfa sayısı 9.659 ve belgelerin çoğu tek sayfalı

Artımlı güncellemeler ve Bates numaraları

PDF’ler, birden çok artımlı güncelleme ile değişiklik geçmişini biriktirecek şekilde kaydedilmiş
- İlk PDF (EFTA00000001.pdf) 2 artımlı güncelleme içeriyor
- Son güncellemede her sayfaya Bates numarası eklendi
Bates numarası ekleme işlemi /Type /XRef çapraz başvuru akışını kullanıyor ve tüm örnek PDF’lerde aynı desen görüldü
İlk artımlı güncellemede PDF sürümü 1.3’ten 1.5’e değişiyor, ancak üstbilgiyle uyuşmayan teknik bir hata mevcut
- Ayrıca gizli bir belge bilgisi sözlüğü (Info dictionary) bulunuyor, ancak son trailer içinde referans verilmediği için sıradan PDF görüntüleyicilerinde görünmüyor
- Bu sözlükte /Creator (OmniPage CSDK 21.1) ve /Producer (Processing-CLI) bilgileri yer alıyor

Meta veri ve tarih analizi

pdfinfo sonuçlarına göre PDF’lerin çoğunda açık meta veri ya da XMP akışı bulunmuyor
- Ancak bazı dosyalarda orphaned Info dictionary mevcut ve /Info öğesi birden fazla kez görünüyor
Yalnızca EFTA00003212.pdf dosyasında Title, Author, Subject, Keywords, Creator alanları bulunuyor
- /Producer değeri “pypdf” olan 215 dosya tespit edildi
Oluşturulma tarihi (CreationDate) ile değiştirilme tarihi (ModDate) tamamen aynı ve 18–19 Aralık 2025 aralığında
- Bu da DoJ’nin toplu işleme sürecinin yaklaşık 36 saat sürdüğünü düşündürüyor

Görüntü ve tarama özellikleri

Tüm PDF’lerde JPEG (DCTDecode) görüntü bulunmuyor; bunun yerine FLATE sıkıştırmalı bitmap kullanılıyor
- Çözünürlük yaklaşık 96 DPI, renk paleti ise 256 renkle sınırlı
- Bunun EXIF, IPTC ve XMP meta verilerini kaldırma amacıyla yapıldığı tahmin ediliyor
Bazı belgelerde gerçek tarama izleri (kâğıt kenarları, delikler, karalamalar vb.) görülürken, bazıları dijital olarak oluşturulup ardından taranmış gibi simüle edilmiş görüntüler izlenimi veriyor
- Bu ayrım, aynı eğiklik (skew) ve gürültü yokluğu üzerinden yapılabiliyor
Courier sabit genişlikli yazı tipi kullanımı, redakte edilen karakter sayısının sayılarak tahmin edilmesi riskini doğuruyor

OCR kalitesi ve redaksiyon doğruluğu

OCR sonuçlarının doğruluğu düşük ve dil tanıma özelliği yok; yalnızca basit karakter tanıma düzeyinde çalışıyor
- İlk PDF’nin (EFTA00000001.pdf) OCR metni büyük ölçüde hatalı
“Kara kutu” redaksiyon, görüntü pikselleri düzeyinde doğrudan uygulanmış; metin nesnelerinin üstüne çizilen bir kaplama (rectangle) değil
- Bu nedenle geri getirilebilir bir metin bulunmuyor

Sonuç ve çıkarımlar

DoJ’nin PDF üretim hattı; JPEG kaldırma, meta veriyi en aza indirme, görüntü tabanlı işleme dönüştürme ve OCR uygulama adımlarından oluşuyor
- Ancak gereksiz nesneler, boş akışlar ve artımlı güncelleme kalıntıları dosya boyutunu ve karmaşıklığı artırıyor
Bazı PDF yorumları (comment) ve yetim nesneler (orphaned object) kaldığından bilgi sızıntısı ihtimali var
PDF adli incelemesinde, araçlar arası sonuç farkları ve biçim karmaşıklığı nedeniyle yanlış değerlendirme riski yüksek
- PDF Association bu amaçla PDF Forensic Liaison Working Group grubunu işletiyor ve sektör standardizasyonu ile eğitim çalışmalarını sürdürüyor

1 yorum

GN⁺ 2026-02-05

Hacker News yorumları

Bazı belgelerin gerçek tarama gibi göründüğü ama hiç fiziksel gürültü içermeyen yapay PDF'ler olduğu fark edilmiş
Her sayfada aynı eğim (skew) ve kusursuz kenarlar görülmesi, özgün dijital belgenin görüntüye dönüştürülüp ardından eğme, küçültme, renk azaltma gibi işlemlerden geçirildiğini düşündürüyor
- Asıl merak edilen, hangi belgelerin bu tür “sahte tarama” olduğu ve bunun hangi siyasi anlatıyı güçlendirmeyi amaçladığı
  Birinin bunu yapma nedeni muhtemelen AI tarafından üretilmiş görüntüleri ya da manipüle edilmiş materyalleri gerçekmiş gibi göstermek istemesi
- GNOME Desktop kullananlar, bir Bash betiğini ~/.local/share/nautilus/ içine koyup sağ tık menüsünden doğrudan sahte tarama PDF oluşturabilir
  Asıl kaynağı hatırlamıyorum ama sanırım Stack Exchange'de görmüştüm. magick komutuyla döndürme, gürültü ekleme, gri tonlamaya çevirme gibi işlemler uygulanıyor
- Bunu bu şekilde yapmak tuhaf. Belgeyi yazdırıp yeniden taramak çok daha kolay
- Özellikle bahsedilen belge, 2019 tarihli DoJ'nin A. Acosta ile yaptığı görüşmeye ait materyal gibi görünüyor.
  Eğer gerçekse FBI neden bunu taranmış gibi gizledi diye insan merak ediyor. Acaba Epstein ile Acosta arasındaki anlaşmada kamuya açılmasını istemedikleri bir bölüm mü var
  İlgili PDF bağlantısı
- Ben de bazen benzer bir şey yapıyorum. İmza istendiğinde boş bir kağıda imza atıp tarıyorum, sonra gerektiğinde belgeyi onun üstüne birleştirip gönderiyorum
DOJ'nin orijinal yerine düzenlenmiş bir kopya yayımlamış olması bence hukuken sorunlu
Kullanılan yazılım olan OmniPage CSDK 21.1 tüm meta verileri kaldırıyor ve şifrelenmiş dosyaları da siliyor
Birinin Epstein'ın (JE) yazı stilini analiz edip 4chan gibi yerlerdeki gönderilerle karşılaştırıp karşılaştırmadığını merak ediyorum
Ghislaine için de yeterli veri vardır muhtemelen; MaxwellHill iddialarına inanmıyorum ama yine de bazı ipuçları çıkabilir gibi
- Eskiden HN kullanıcılarının yazı stilini analiz edip benzer hesapları bulmaya çalışan bir stylometry projesi vardı
  İlgili yazı
  Gizlilik sorunları nedeniyle site kapatıldı ama doğruluğu yüksekti. Ben de yorumlarımı rastgele yeniden stilize eden bir AI tarayıcı yardımcısı yapmak istiyorum
- Ama ben yine de şüpheliyim. Yalnızca yazı stili ve kelime dağarcığıyla çok fazla insan üst üste bineceği için belirlemek zor görünüyor
  Yine de Epstein'ın e-postaları çok kendine özgü olduğundan bir istisna olabilir
- Aslında yalnızca n-gram analizi ile bile yazar tespit edilebilecek kadar stylometry gelişmiş durumda
  HN demo bağlantısı
  Bu yöntem AI üretimi yazıları da iyi ayırt ediyor. “AI tespiti için transformer” eğitme yaklaşımından çok daha iyi olduğunu düşünüyorum
- Epstein'ın yazıları neredeyse disleksi düzeyinde bozuk cümlelerle dolu
  Üst düzey kişilerin neredeyse hiç doğrudan yazı yazmaması yüzünden cümle kurma becerilerini kaybetmiş olmaları da mümkün, ya da bu kendi aralarındaki bir iç dil olabilir
Bu sayfadaki çerez açılır penceresinde reddet düğmesinin “Continue without consent” olması komikti
- Gerçekten de kullanıcıya suçluluk hissettirmeyi amaçlayan bir ifade gibi duruyor
- Epstein'la ilgili bir sitenin Epstein gibi davranması ironik
Bilgi, PDF açıklamaları ya da sıkıştırılmış nesne akışlarının içindeki sahipsiz nesneler üzerinden sızıyor olabilir
Umarım biri tüm belgeleri bağımsız şekilde arşivliyordur. Bazılarının zaten silinmiş olduğu anlaşılıyor
- Reddit'te de ilgili gönderiler siliniyor ya da shadowban uygulanıyor
  Ama Lemmy topluluğunda tartışma hâlâ sürüyor
- Bazı belgeler mağdur isimleri içerdiği için ek karartma uygulanmış olabilir
- Başlangıçta Epstein Files Transparency Act sayfasında tüm veri kümelerinin .zip bağlantıları vardı,
  bir ara hepsi kayboldu ama şimdi çoğu geri gelmiş durumda
Şu anda allenai/olmocr-2-7b modeliyle DOJ'nin sağladığı OCR sonuçlarını karşılaştırıyorum
Yaklaşık 500 bin görüntü var, bu yüzden epey zaman alıyor. Yine de olmocr-2-7b'nin tanıma oranı oldukça yüksek
- Acaba görüntü boyutunu küçültüp performansı artırma yöntemini deneyen oldu mu?
  Hangi boyutun altına inilince metin tanımanın zorlaştığını da merak ediyorum
Bazı yeni dosyalarda neden rastgele ‘=’ karakterleri bulunduğunu merak etmiştim
OCR hatasına benzemiyor, daha çok aramayı zorlaştırma niyeti varmış gibi duruyor
- Dün bununla ilgili bir yazı HN ana sayfasındaydı: bağlantı
- Aslında bu, e-postalardaki quoted-printable kodlama işleme hatası yüzünden oluyor
  gnus geliştiricisi Lars Ingebrigtsen bunu blogunda açıklamıştı
Bazı PDF'lerde Base64 ile kodlanmış ekler doğrudan gövdenin içinde duruyor
OCR kalitesi o kadar kötü ki bunları geri getirmek ciddi emek gerektiriyor
Örnek PDF,
İlgili Reddit başlığı
- Yalnızca birkaç bayt hatalı olsa bile ikili veriyi geri getirmenin imkânsız hâle gelip gelmeyeceğini merak ediyorum
Bana göre daha ilginç olan şey Epstein'ın banka hesapları
Ona kimin para verdiği ve onun kimlere ödeme yaptığı asıl mesele
- DOJ bu bilgileri ya zaten biliyordur ya da isterse hemen doğrulayabilir
- Ama para akışının kök neden analizi kamuya açıklanmıyor
  Bunun yerine yalnızca gerektiği kadar bilgi yayımlanıyor ve kamuoyu belli gruplar arasında nefrete yönlendiriliyor
Cloudflare tarafından erişim engellendi

Epstein PDF’lerinin dijital adli incelemesine dair bir vaka çalışması

DoJ tarafından yayımlanan veriye genel bakış

Dosya geçerliliği ve sürüm analizi

Artımlı güncellemeler ve Bates numaraları

Meta veri ve tarih analizi

Görüntü ve tarama özellikleri

OCR kalitesi ve redaksiyon doğruluğu

Sonuç ve çıkarımlar

İlgili okumalar

1 yorum

Hacker News yorumları