- ABD Adalet Bakanlığı’nın Epstein Files Transparency Act kapsamında yayımladığı PDF belgeleri üzerinde, dosya yapısı ve sözdizimine odaklanan bir dijital adli inceleme analizi gerçekleştirildi
- Analiz sonucunda, yayımlanan EFTA veri kümesi 01–07’deki PDF’lerin redaksiyonunun doğru şekilde yapıldığı ve sosyal medyada öne sürülen “geri getirilebilir redaksiyon” iddiasının doğru olmadığı belirlendi
- Tüm PDF’lerde şifreleme, açıklama, JavaScript ve ek dosya bulunmuyor; çoğu taranmış görüntü tabanlı ve OCR uygulanmış belgelerden oluşuyor, bazı dosyalarda ise gizli meta veriler (dictionary) bulunuyor
- Bates numaralandırması, sıkıştırılmamış nesne akışları, hatalı sürüm gösterimi, eksik açıklama işleme gibi teknik ayrıntılar tespit edildi, ancak bunların dosya geçerliliği üzerinde büyük bir etkisi yok
- Bu vaka, PDF adli incelemesinin karmaşıklığını ve araç güvenilirliğinin sınırlarını gösterirken, hassas belgeler yayımlanmadan önce doğru temizleme ve redaksiyon iş akışının önemini vurguluyor
DoJ tarafından yayımlanan veriye genel bakış
- Adalet Bakanlığı 19 Aralık 2025’te 7 ZIP arşivi (toplam 2.97GB) yayımladı; bunların içinde 4.085 PDF, 1 AVI dosyası ve her set için
.DAT ile .OPT veri dosyaları yer alıyor
- PDF dosya adları
EFTA00000001.pdf ile EFTA00009664.pdf arasında sıralı olarak düzenlenmiş
- Yaklaşık 5.879 PDF’nin hâlâ yayımlanmadığı tespit edildi
- PDF’lerin büyük bölümü taranmış görüntü tabanlı belgelerden oluşuyor ve OCR sayesinde kısmen aranabilir metin içeriyor
- “Kara kutu” biçimindeki redaksiyonun piksel tabanlı olarak doğru biçimde uygulandığı doğrulandı
- “Doğuştan dijital (born-digital)” bir belgeye rastlanmadı
Dosya geçerliliği ve sürüm analizi
- Çeşitli PDF adli inceleme araçları ile yapılan geçerlilik denetimlerinde yalnızca tek bir küçük hata bulundu
- 109 dosyada FontDescriptor Descent değeri pozitif olarak ayarlanmıştı, ancak bu yalnızca küçük bir yazı tipi eşleme hatası ve genel geçerliliği etkilemiyor
- İki farklı
pdfinfo aracının karşılaştırılmasında PDF sürümü okuma sonuçlarının farklı olduğu görüldü
- Araç A, 1.3 sürümünde 209 dosya, 1.5 sürümünde 3.875 dosya raporladı
- Araç B, 1.3 sürümünde 3.817 dosya, 1.5 sürümünde 267 dosya raporladı
- Fark, artımlı güncelleme (incremental update) sırasında Version öğesinin işleniş biçiminden kaynaklanıyor ve Araç A’nın sonucu doğru kabul ediliyor
- Tüm PDF’lerde şifreleme, etiket, açıklama, yer imi, form, JavaScript ve ek dosya bulunmuyor
- Toplam sayfa sayısı 9.659 ve belgelerin çoğu tek sayfalı
Artımlı güncellemeler ve Bates numaraları
- PDF’ler, birden çok artımlı güncelleme ile değişiklik geçmişini biriktirecek şekilde kaydedilmiş
- İlk PDF (
EFTA00000001.pdf) 2 artımlı güncelleme içeriyor
- Son güncellemede her sayfaya Bates numarası eklendi
- Bates numarası ekleme işlemi
/Type /XRef çapraz başvuru akışını kullanıyor ve tüm örnek PDF’lerde aynı desen görüldü
- İlk artımlı güncellemede PDF sürümü 1.3’ten 1.5’e değişiyor, ancak üstbilgiyle uyuşmayan teknik bir hata mevcut
- Ayrıca gizli bir belge bilgisi sözlüğü (Info dictionary) bulunuyor, ancak son trailer içinde referans verilmediği için sıradan PDF görüntüleyicilerinde görünmüyor
- Bu sözlükte
/Creator (OmniPage CSDK 21.1) ve /Producer (Processing-CLI) bilgileri yer alıyor
Meta veri ve tarih analizi
pdfinfo sonuçlarına göre PDF’lerin çoğunda açık meta veri ya da XMP akışı bulunmuyor
- Ancak bazı dosyalarda orphaned Info dictionary mevcut ve
/Info öğesi birden fazla kez görünüyor
- Yalnızca
EFTA00003212.pdf dosyasında Title, Author, Subject, Keywords, Creator alanları bulunuyor
/Producer değeri “pypdf” olan 215 dosya tespit edildi
- Oluşturulma tarihi (
CreationDate) ile değiştirilme tarihi (ModDate) tamamen aynı ve 18–19 Aralık 2025 aralığında
- Bu da DoJ’nin toplu işleme sürecinin yaklaşık 36 saat sürdüğünü düşündürüyor
Görüntü ve tarama özellikleri
- Tüm PDF’lerde JPEG (DCTDecode) görüntü bulunmuyor; bunun yerine FLATE sıkıştırmalı bitmap kullanılıyor
- Çözünürlük yaklaşık 96 DPI, renk paleti ise 256 renkle sınırlı
- Bunun EXIF, IPTC ve XMP meta verilerini kaldırma amacıyla yapıldığı tahmin ediliyor
- Bazı belgelerde gerçek tarama izleri (kâğıt kenarları, delikler, karalamalar vb.) görülürken, bazıları dijital olarak oluşturulup ardından taranmış gibi simüle edilmiş görüntüler izlenimi veriyor
- Bu ayrım, aynı eğiklik (skew) ve gürültü yokluğu üzerinden yapılabiliyor
- Courier sabit genişlikli yazı tipi kullanımı, redakte edilen karakter sayısının sayılarak tahmin edilmesi riskini doğuruyor
OCR kalitesi ve redaksiyon doğruluğu
- OCR sonuçlarının doğruluğu düşük ve dil tanıma özelliği yok; yalnızca basit karakter tanıma düzeyinde çalışıyor
- İlk PDF’nin (
EFTA00000001.pdf) OCR metni büyük ölçüde hatalı
- “Kara kutu” redaksiyon, görüntü pikselleri düzeyinde doğrudan uygulanmış; metin nesnelerinin üstüne çizilen bir kaplama (
rectangle) değil
- Bu nedenle geri getirilebilir bir metin bulunmuyor
Sonuç ve çıkarımlar
- DoJ’nin PDF üretim hattı; JPEG kaldırma, meta veriyi en aza indirme, görüntü tabanlı işleme dönüştürme ve OCR uygulama adımlarından oluşuyor
- Ancak gereksiz nesneler, boş akışlar ve artımlı güncelleme kalıntıları dosya boyutunu ve karmaşıklığı artırıyor
- Bazı PDF yorumları (comment) ve yetim nesneler (orphaned object) kaldığından bilgi sızıntısı ihtimali var
- PDF adli incelemesinde, araçlar arası sonuç farkları ve biçim karmaşıklığı nedeniyle yanlış değerlendirme riski yüksek
- PDF Association bu amaçla PDF Forensic Liaison Working Group grubunu işletiyor ve sektör standardizasyonu ile eğitim çalışmalarını sürdürüyor
1 yorum
Hacker News yorumları
Bazı belgelerin gerçek tarama gibi göründüğü ama hiç fiziksel gürültü içermeyen yapay PDF'ler olduğu fark edilmiş
Her sayfada aynı eğim (skew) ve kusursuz kenarlar görülmesi, özgün dijital belgenin görüntüye dönüştürülüp ardından eğme, küçültme, renk azaltma gibi işlemlerden geçirildiğini düşündürüyor
Birinin bunu yapma nedeni muhtemelen AI tarafından üretilmiş görüntüleri ya da manipüle edilmiş materyalleri gerçekmiş gibi göstermek istemesi
~/.local/share/nautilus/içine koyup sağ tık menüsünden doğrudan sahte tarama PDF oluşturabilirAsıl kaynağı hatırlamıyorum ama sanırım Stack Exchange'de görmüştüm.
magickkomutuyla döndürme, gürültü ekleme, gri tonlamaya çevirme gibi işlemler uygulanıyorEğer gerçekse FBI neden bunu taranmış gibi gizledi diye insan merak ediyor. Acaba Epstein ile Acosta arasındaki anlaşmada kamuya açılmasını istemedikleri bir bölüm mü var
İlgili PDF bağlantısı
DOJ'nin orijinal yerine düzenlenmiş bir kopya yayımlamış olması bence hukuken sorunlu
Kullanılan yazılım olan OmniPage CSDK 21.1 tüm meta verileri kaldırıyor ve şifrelenmiş dosyaları da siliyor
Birinin Epstein'ın (JE) yazı stilini analiz edip 4chan gibi yerlerdeki gönderilerle karşılaştırıp karşılaştırmadığını merak ediyorum
Ghislaine için de yeterli veri vardır muhtemelen; MaxwellHill iddialarına inanmıyorum ama yine de bazı ipuçları çıkabilir gibi
İlgili yazı
Gizlilik sorunları nedeniyle site kapatıldı ama doğruluğu yüksekti. Ben de yorumlarımı rastgele yeniden stilize eden bir AI tarayıcı yardımcısı yapmak istiyorum
Yine de Epstein'ın e-postaları çok kendine özgü olduğundan bir istisna olabilir
HN demo bağlantısı
Bu yöntem AI üretimi yazıları da iyi ayırt ediyor. “AI tespiti için transformer” eğitme yaklaşımından çok daha iyi olduğunu düşünüyorum
Üst düzey kişilerin neredeyse hiç doğrudan yazı yazmaması yüzünden cümle kurma becerilerini kaybetmiş olmaları da mümkün, ya da bu kendi aralarındaki bir iç dil olabilir
Bu sayfadaki çerez açılır penceresinde reddet düğmesinin “Continue without consent” olması komikti
Bilgi, PDF açıklamaları ya da sıkıştırılmış nesne akışlarının içindeki sahipsiz nesneler üzerinden sızıyor olabilir
Umarım biri tüm belgeleri bağımsız şekilde arşivliyordur. Bazılarının zaten silinmiş olduğu anlaşılıyor
Ama Lemmy topluluğunda tartışma hâlâ sürüyor
bir ara hepsi kayboldu ama şimdi çoğu geri gelmiş durumda
Şu anda allenai/olmocr-2-7b modeliyle DOJ'nin sağladığı OCR sonuçlarını karşılaştırıyorum
Yaklaşık 500 bin görüntü var, bu yüzden epey zaman alıyor. Yine de olmocr-2-7b'nin tanıma oranı oldukça yüksek
Hangi boyutun altına inilince metin tanımanın zorlaştığını da merak ediyorum
Bazı yeni dosyalarda neden rastgele ‘=’ karakterleri bulunduğunu merak etmiştim
OCR hatasına benzemiyor, daha çok aramayı zorlaştırma niyeti varmış gibi duruyor
gnus geliştiricisi Lars Ingebrigtsen bunu blogunda açıklamıştı
Bazı PDF'lerde Base64 ile kodlanmış ekler doğrudan gövdenin içinde duruyor
OCR kalitesi o kadar kötü ki bunları geri getirmek ciddi emek gerektiriyor
Örnek PDF,
İlgili Reddit başlığı
Bana göre daha ilginç olan şey Epstein'ın banka hesapları
Ona kimin para verdiği ve onun kimlere ödeme yaptığı asıl mesele
Bunun yerine yalnızca gerektiği kadar bilgi yayımlanıyor ve kamuoyu belli gruplar arasında nefrete yönlendiriliyor
Cloudflare tarafından erişim engellendi