Dir2md + Spicy: LLM için Markdown/JSONL bağlamı ve güvenlik raporunu tek seferde çıkaran depo tarayıcısı

(github.com/flamehaven01)

3 puan yazan flamehaven01 2025-12-05 | 2 yorum | WhatsApp'ta paylaş

Merhaba. Yaklaşık üç ay önce Dir2md’yi ilk kez tanıtmıştım.
O zamandan beri bunu çeşitli projelerde uygularken yapısal sınırlar ortaya çıktı; buna göre algoritma, güvenlik ve çıktı hattının tamamını yeniden düzenledim.

❔Dir2md nedir?

Dir2md, karmaşık dizin yapısını akıllı örnekleme, güvenlik maskeleme ve token bütçesi kontrolüne sahip, AI-friendly Markdown·JSONL bağlamına dönüştüren bir araçtır. AI-assisted development için optimize edilmiş biçimde depoyu otomatik olarak düzenler.

🔧 Neler değişti — 3 aylık kapsamlı yeniden düzenlemenin sonucu

1) Yapay zeka optimizasyon motoru yeniden tasarlandı

Dosya bazında head/tail akıllı örnekleme eklendi
Token bütçesinin otomatik dağıtımı mantığı daha da geliştirildi
Önemli dosyaları öncelikli seçme yapısı yeniden düzenlendi
Markdown, JSON, JSONL, manifest için çoklu çıktı hattı oluşturuldu

2) Spicy (güvenlik·risk analizörü) eklendi

Çalıştırıldığında varsayılan olarak etkinleşen yerleşik risk tarayıcısı eklendi
ok → critical arası 5 seviyeli önem derecesi sistemi uygulandı
Depo bazında 0~100 risk puanı hesaplanıyor
Dosya/satır/kategori/müdahale rehberi içeren Actionable Risk Table çıktısı üretiliyor

3) Güvenlik maskeleme motoru güçlendirildi

API key, JWT, OAuth, DB URL, PEM gibi başlıca kalıplar otomatik olarak maskeleniyor
Kullanıcı tanımlı regex ve kalıp dosyası yükleme özelliği eklendi

4) SimHash tabanlı tekrar kaldırma eklendi

Benzer dosyalar ve build çıktıları kaldırılıyor
LLM giriş bağlamında yinelenen token israfı en aza indiriliyor

5) Preset sistemi genişletildi

raw, pro, ai, fast olmak üzere dört mod sunuluyor
ai moduna 6000 token bütçesi + sorgu tabanlı dosya sıralaması eklendi

🌶️ Acı seviye (Spicy) nedir?

Spicy kısaca, “güvenlik konusunda asla gevşek davranmayan, bakışı sert kıdemli bir geliştirici gibi otomatik bir gözden geçirici”dir.

Dir2md sadece “dizini belgelendiren” bir araç değil; depoyu yapay zekaya vermeden önce mutlaka gereken güvenlik ve kalite kontrollerini de tek seferde gerçekleştirir.

1) Hassas bilgi tespiti

API Key, OAuth Client Secret, JWT, DB URL, PEM key gibi gerçek kazalara yol açabilecek kalıplar tespit edilir

2) Zayıf şifreleme ve güvensiz güvenlik kullanımı analizi

Zayıf algoritmalar, güvensiz anahtar işleme gibi güvenlik sorunu taşıyan kodlar tespit edilir

3) Enjeksiyon olasılığı teşhisi

SQL/Command/Code Injection benzeri kalıplar tespit edilir

4) Log·debug üzerinden veri ifşası

Hassas bilgileri çıktıya veren kodlar/ayarlar tespit edilir

5) Erişim kontrolü sorunları

Kimlik doğrulama ve yetkiyle ilgili boşluk içeren kalıplar analiz edilir
README’de bahsedilen yapılandırma kaynaklı risk sinyalleri de birlikte tespit edilir

📊 Dahili prodüksiyondaki 9 depo bazında ölçülen sonuçlar

Dir2md + Spicy yeniden tasarımından sonra, dün itibarıyla ölçülen gerçek sayılar şöyle:

Depo başına ortalama 2,4 adet high·critical seviyesinde hassas bilgi tespiti
- API key, PEM özel anahtarı, DB URL, bearer token vb.
Bağlam boyutunda ortalama %68 azalma
- 128k → ~41k tokens (anlamlı tüm dosyalar korunarak)
Reklam
Güvenlik inceleme süresi: önce 3,5 saat → 11 saniye
Devreye alındıktan sonra LLM prompt’ları üzerinden sızan gizli bilgi: 0 vaka

Bu sonuçlar, akıllı örnekleme · SimHash tekrar kaldırma · Spicy risk analizi · maskeleme motoru birlikte kullanıldığında gerçek operasyon ortamında elde edilen performansı gösterir.

⭐ Projeye katkı sağladıysa

Dir2md + Spicy açık kaynaklıdır.
Şu anda gördüğünüz özelliklerin çoğu, kullanıcı geri bildirimi ve yıldızlar (⭐) sayesinde gelişebildi. Bunun için tekrar teşekkür ederim.

👉 GitHub’da vereceğiniz bir Star büyük destek olur!
👉 Hata bildirimi ve fikir önerileri de her zaman memnuniyetle karşılanır.

2 yorum

flamehaven01 2025-12-19

📌 dir2md v1.1.2 sonrası başlıca güncellemelerin özeti

v1.2.1 (güvenlik/güvenilirlik yaması)
- Markdown ``` enjeksiyonu açığı düzeltildi → fence otomatik escape ediliyor
- Harici araç (vulture) için subprocess kaldırıldı → RCE vektörü engellendi
- silent exception kaldırıldı, uyarı logları güçlendirildi
- glob işleme sadeleştirildi (gitignore kurallarına uyumlu)
- varsayılan exclude, defaults.json içine ayrıldı + öncelik sistemi eklendi
v1.2.0 (akıllı otomatik optimizasyon)
- Ayar gerektirmeden çalışan token tasarrufunda %60~70 sağlayan pipeline
  - Gravitas sıkıştırması (sembol değiştirme)
  - Python AST tabanlı semantic sampling
- --query kullanıldığında otomatik yazım hatası düzeltme + arama genişletme
- preset odaklı tasarımla flag'ler büyük ölçüde azaltıldı (raw/fast/pro/ai)
- Harici NLP/LLM bağımlılığı olmadan geliştirildi
v1.1.3
- Phantom code tespiti: PATH üzerindeki dead code analiz araçları otomatik algılanıyor

👉 Özetle, 1.2.x itibarıyla odak “daha az ayar, daha fazla güvenlik·deterministiklik·AI dostu yapı” olan bir sürüm serisi.
(geriye dönük uyumluluk korunuyor, CLI breaking change yok)

Kaynak: CHANGELOG

flamehaven01 2025-12-09

🚂 dir2md 1.1.2 yayında!
Bu güncelleme dışarıdan küçük görünebilir, ancak yalnızca gerçek kullanımda kararlılığı doğrudan etkileyen değişiklikleri topladık.

🛡 Security

🔸Varsayılan/gelişmiş maskeleme regex’leri önceden derlendi → ReDoS riski azaltıldı
🔸1MB üzerindeki dosyalar okunmadan atlanıyor ve yalnızca manifest’e kaydediliyor

⚙️ Performance
🔸Token tahmini için LRU cache (2048) uygulandı → büyük repo’larda hız artışı
🔸Boş string’ler de en az 1 token olarak işleniyor → “0 token” belirsizliği giderildi

🧩 UX / Behavior
🔸Atlanan dosyalar için placeholder hash/özet bırakılıyor, böylece şeffaflık artırılıyor
🔸Özel maskeleme pattern’leri derlenemezse uyarı verilip yok sayılıyor (sessiz hataları önler)

✅ Tests
🔸22 geçti, 2 atlandı

Küçük bir sürüm olsa da tüm testleri çalıştırdık.

Bu sürümün tek bir hedefi var:
“CI ve gerçek production kodunda her gün çalıştırılabilir mi?”
Buna bir adım daha yaklaştık.

https://github.com/flamehaven01/Dir2md/releases/tag/v1.1.2