Dir2md + Spicy: LLM için Markdown/JSONL bağlamı ve güvenlik raporunu tek seferde çıkaran depo tarayıcısı
(github.com/flamehaven01)Merhaba. Yaklaşık üç ay önce Dir2md’yi ilk kez tanıtmıştım.
O zamandan beri bunu çeşitli projelerde uygularken yapısal sınırlar ortaya çıktı; buna göre algoritma, güvenlik ve çıktı hattının tamamını yeniden düzenledim.
❔Dir2md nedir?
Dir2md, karmaşık dizin yapısını akıllı örnekleme, güvenlik maskeleme ve token bütçesi kontrolüne sahip, AI-friendly Markdown·JSONL bağlamına dönüştüren bir araçtır. AI-assisted development için optimize edilmiş biçimde depoyu otomatik olarak düzenler.
🔧 Neler değişti — 3 aylık kapsamlı yeniden düzenlemenin sonucu
1) Yapay zeka optimizasyon motoru yeniden tasarlandı
- Dosya bazında head/tail akıllı örnekleme eklendi
- Token bütçesinin otomatik dağıtımı mantığı daha da geliştirildi
- Önemli dosyaları öncelikli seçme yapısı yeniden düzenlendi
- Markdown, JSON, JSONL, manifest için çoklu çıktı hattı oluşturuldu
2) Spicy (güvenlik·risk analizörü) eklendi
- Çalıştırıldığında varsayılan olarak etkinleşen yerleşik risk tarayıcısı eklendi
- ok → critical arası 5 seviyeli önem derecesi sistemi uygulandı
- Depo bazında 0~100 risk puanı hesaplanıyor
- Dosya/satır/kategori/müdahale rehberi içeren Actionable Risk Table çıktısı üretiliyor
3) Güvenlik maskeleme motoru güçlendirildi
- API key, JWT, OAuth, DB URL, PEM gibi başlıca kalıplar otomatik olarak maskeleniyor
- Kullanıcı tanımlı regex ve kalıp dosyası yükleme özelliği eklendi
4) SimHash tabanlı tekrar kaldırma eklendi
- Benzer dosyalar ve build çıktıları kaldırılıyor
- LLM giriş bağlamında yinelenen token israfı en aza indiriliyor
5) Preset sistemi genişletildi
raw,pro,ai,fastolmak üzere dört mod sunuluyoraimoduna 6000 token bütçesi + sorgu tabanlı dosya sıralaması eklendi
🌶️ Acı seviye (Spicy) nedir?
Spicy kısaca, “güvenlik konusunda asla gevşek davranmayan, bakışı sert kıdemli bir geliştirici gibi otomatik bir gözden geçirici”dir.
Dir2md sadece “dizini belgelendiren” bir araç değil; depoyu yapay zekaya vermeden önce mutlaka gereken güvenlik ve kalite kontrollerini de tek seferde gerçekleştirir.
1) Hassas bilgi tespiti
- API Key, OAuth Client Secret, JWT, DB URL, PEM key gibi gerçek kazalara yol açabilecek kalıplar tespit edilir
2) Zayıf şifreleme ve güvensiz güvenlik kullanımı analizi
- Zayıf algoritmalar, güvensiz anahtar işleme gibi güvenlik sorunu taşıyan kodlar tespit edilir
3) Enjeksiyon olasılığı teşhisi
- SQL/Command/Code Injection benzeri kalıplar tespit edilir
4) Log·debug üzerinden veri ifşası
- Hassas bilgileri çıktıya veren kodlar/ayarlar tespit edilir
5) Erişim kontrolü sorunları
- Kimlik doğrulama ve yetkiyle ilgili boşluk içeren kalıplar analiz edilir
- README’de bahsedilen yapılandırma kaynaklı risk sinyalleri de birlikte tespit edilir
📊 Dahili prodüksiyondaki 9 depo bazında ölçülen sonuçlar
Dir2md + Spicy yeniden tasarımından sonra, dün itibarıyla ölçülen gerçek sayılar şöyle:
- Depo başına ortalama 2,4 adet high·critical seviyesinde hassas bilgi tespiti
- API key, PEM özel anahtarı, DB URL, bearer token vb.
- Bağlam boyutunda ortalama %68 azalma
- 128k → ~41k tokens (anlamlı tüm dosyalar korunarak)
- Güvenlik inceleme süresi: önce 3,5 saat → 11 saniye
- Devreye alındıktan sonra LLM prompt’ları üzerinden sızan gizli bilgi: 0 vaka
Bu sonuçlar, akıllı örnekleme · SimHash tekrar kaldırma · Spicy risk analizi · maskeleme motoru birlikte kullanıldığında gerçek operasyon ortamında elde edilen performansı gösterir.
⭐ Projeye katkı sağladıysa
Dir2md + Spicy açık kaynaklıdır.
Şu anda gördüğünüz özelliklerin çoğu, kullanıcı geri bildirimi ve yıldızlar (⭐) sayesinde gelişebildi. Bunun için tekrar teşekkür ederim.
- 👉 GitHub’da vereceğiniz bir Star büyük destek olur!
- 👉 Hata bildirimi ve fikir önerileri de her zaman memnuniyetle karşılanır.
2 yorum
📌 dir2md v1.1.2 sonrası başlıca güncellemelerin özeti
v1.2.1 (güvenlik/güvenilirlik yaması)
vulture) için subprocess kaldırıldı → RCE vektörü engellendidefaults.jsoniçine ayrıldı + öncelik sistemi eklendiv1.2.0 (akıllı otomatik optimizasyon)
Ayar gerektirmeden çalışan token tasarrufunda %60~70 sağlayan pipeline
--querykullanıldığında otomatik yazım hatası düzeltme + arama genişletmepreset odaklı tasarımla flag'ler büyük ölçüde azaltıldı (raw/fast/pro/ai)
Harici NLP/LLM bağımlılığı olmadan geliştirildi
v1.1.3
👉 Özetle, 1.2.x itibarıyla odak “daha az ayar, daha fazla güvenlik·deterministiklik·AI dostu yapı” olan bir sürüm serisi.
(geriye dönük uyumluluk korunuyor, CLI breaking change yok)
Kaynak: CHANGELOG
🚂 dir2md 1.1.2 yayında!
Bu güncelleme dışarıdan küçük görünebilir, ancak yalnızca gerçek kullanımda kararlılığı doğrudan etkileyen değişiklikleri topladık.
🛡 Security
🔸Varsayılan/gelişmiş maskeleme regex’leri önceden derlendi → ReDoS riski azaltıldı
🔸1MB üzerindeki dosyalar okunmadan atlanıyor ve yalnızca manifest’e kaydediliyor
⚙️ Performance
🔸Token tahmini için LRU cache (2048) uygulandı → büyük repo’larda hız artışı
🔸Boş string’ler de en az 1 token olarak işleniyor → “0 token” belirsizliği giderildi
🧩 UX / Behavior
🔸Atlanan dosyalar için placeholder hash/özet bırakılıyor, böylece şeffaflık artırılıyor
🔸Özel maskeleme pattern’leri derlenemezse uyarı verilip yok sayılıyor (sessiz hataları önler)
✅ Tests
🔸22 geçti, 2 atlandı
Küçük bir sürüm olsa da tüm testleri çalıştırdık.
Bu sürümün tek bir hedefi var:
“CI ve gerçek production kodunda her gün çalıştırılabilir mi?”
Buna bir adım daha yaklaştık.
https://github.com/flamehaven01/Dir2md/releases/tag/v1.1.2