6 puan yazan GN⁺ 2024-02-17 | 1 yorum | WhatsApp'ta paylaş
  • Google, yapay zeka tabanlı dosya türü tanımlama sistemi Magika'yı açık kaynak olarak yayımladı
  • Magika, özelleştirilmiş ve optimize edilmiş bir derin öğrenme modeli kullanarak CPU üzerinde bile birkaç milisaniye içinde doğru dosya tanımlaması yapabiliyor
  • Magika web demosu denenebilir; pip install magika komutuyla Python kütüphanesi ve bağımsız bir komut satırı aracı olarak kurulabilir

Dosya türünü tanımlamak neden zor?

  • Bilgi işlemin ilk günlerinden bu yana, dosya türünü doğru tespit etmek dosyanın nasıl işleneceğine karar vermek açısından önemli oldu.
  • Linux, libmagic ve file yardımcı aracını içeriyor; bunlar 50 yılı aşkın süredir dosya türü tanımlamada fiili standart olarak kullanılıyor.
  • Dosya türü tespiti, web tarayıcıları ve kod editörleri gibi çeşitli yazılımlarda dosyaların doğru şekilde işlenmesi için vazgeçilmezdir.
  • Her dosya biçiminin yapısı farklı olduğu ya da hiç yapısı olmadığı için, doğru dosya türü tespiti kötü şöhretli bir problemdir.
  • libmagic ve dosya türü tanımlama yazılımlarının çoğu, her dosya biçimini tespit etmek için elle hazırlanmış sezgisel yöntemlere ve kurallara dayanır.
  • Bu elle yapılan yaklaşım hem zaman alıcıdır hem de hataya açıktır.

Magika performansı

  • Magika, yapay zeka modeli ve büyük eğitim veri seti sayesinde 100'den fazla dosya türünü içeren 1 milyon dosyalık benchmark'ta mevcut araçlardan yaklaşık %20 daha iyi performans gösteriyor.
  • Özellikle metin dosyaları, kod dosyaları ve yapılandırma dosyaları gibi diğer araçların zorlandığı dosya türlerinde daha büyük performans artışı sağlıyor.

Magika'nın Google içindeki kullanımı

  • Magika, Google içinde Gmail, Drive ve Safe Browsing dosyalarını uygun güvenlik ve içerik politikası tarayıcılarına yönlendirerek kullanıcı güvenliğini artırmak için kullanılıyor.
  • Haftalık ortalamada yüz milyarlarca dosya ölçeğinde bakıldığında, Magika dosya türü tanımlama doğruluğunu elle yazılmış kurallara dayanan önceki sisteme kıyasla %50 artırıyor.
  • Magika, VirusTotal entegrasyonu üzerinden mevcut Code Insight özelliğini tamamlayacak ve küresel siber güvenlik ekosistemine katkı sağlayarak daha güvenli bir dijital ortam oluşturacak.

Magika'nın açık kaynak olarak yayımlanması

  • Magika'nın açık kaynak yapılmasıyla, diğer yazılımlarda dosya tanımlama doğruluğunu artırmak ve araştırmacılara büyük ölçekte dosya türlerini tanımlamak için güvenilir bir yöntem sunmak amaçlanıyor.
  • Magika'nın kodu ve modeli, GitHub'da Apache2 lisansı altında ücretsiz olarak sunuluyor ve PyPI paket yöneticisi üzerinden kolayca kurulabiliyor.
  • Magika'nın kullanımıyla ilgili ayrıntılar için Magika dokümantasyon sitesine bakılabilir.

GN⁺ görüşü

  • Magika'nın açık kaynak olarak yayımlanması, dosya türü tanımlamadaki doğruluğu artırmada büyük fayda sağlayacak gibi görünüyor.
  • Özellikle güvenlik alanında doğru dosya tanımlama çok önemlidir ve Magika bu amaç için güçlü bir araç olabilir.
  • Google'ın teknik yetkinliği ve açık kaynak topluluğuna katkısının, küresel siber güvenlik ekosistemini güçlendirmede önemli rol oynaması bekleniyor.

1 yorum

 
GN⁺ 2024-02-17

Hacker News görüşleri

  • Yeni dosya türü algılama aracı web tarama verilerine uygulanmış.

    • Basit HTML dosyalarını yanlış algıladığı durumlar yaşanıyor.
    • Bazı WOFF ve WOFF2 dosyaları da yanlış algılanıyor.
    • Otomasyon için henüz güvenilir bir uygulama olmadığı değerlendirmesi yapılıyor.
    • Çıktı pipe edildiğinde shell renk kaçışlarını kaldırmamasından da şikayet ediliyor.
  • 10 yıl önce elektronik tablo dosya türü algılamayla ilgili deneyim paylaşılmış.

    • Dosya türünü magic ile algılayan bir patch önerilmiş ama reddedilmiş.
    • Şimdi ise derin öğrenmeyle dosya türü algılamadan söz ediliyor.
    • Google'ın performans benchmark'larını yayımlaması isteniyor.
  • 100 dosya üzerinde yapılan algılama testi sonuçları paylaşılmış.

    • Çoğunu doğru algılasa da bazılarını yanlış ya da belirsiz tür olarak algılıyor.
    • Hatalar çoğunlukla Magika'nın desteklemediği dosya türlerinde ortaya çıkıyor.
    • Mevcut file yardımcı programıyla karşılaştırıldığında benzer doğruluk gösteriyor.
  • Dosya türü algılama alanında yeni bir aracın ortaya çıkmasına olumlu yaklaşılmış.

    • Node modülünün neden yayımlandığı sorgulanıyor.
    • Belgelerde yavaş olduğunun söylendiği ve modeli çalışma zamanında yüklediği belirtiliyor.
    • Deneysel etiketi ve sınırlı dosya türü desteğine de değiniliyor.
  • Google'ın libmagic'i iyileştirmek yerine sinir ağı tabanlı bir dosya türü algılama aracına kaynak ayırmış olması kafa karıştırıcı bulunuyor.

    • Sinir ağlarının daha doğru olabildiği ama daha az dosya türünü desteklediği ve adversarial durumlarda daha zayıf kaldığı belirtiliyor.
  • Birden fazla biçimde geçerli olan polyglot dosyaların nasıl algılanacağı merak ediliyor.

    • Gerçek test sonucunda yalnızca ZIP katmanının algılandığı söyleniyor.
  • APK veya JAR dosyalarının doğru algılanmasında diğer araçların precision ya da recall değerleri sorgulanıyor.

    • Belirli dosyaların precision ya da recall'ı etkilediği örneklerin açıklanması isteniyor.
  • Racket'ta libmagic gerçekleştirme deneyimi paylaşılmış.

    • libmagic'in daha fazla dosya türünü algıladığı, ancak Magika'nın metin dosyalarını algılamada faydalı olabileceği belirtiliyor.
  • Dosya türü algılamanın özünde deterministik olduğu savunuluyor.

    • "magic byte" değerlerinin tutarlı olması gerektiği ve heuristik ya da olasılıksal çıkarıma neden ihtiyaç duyulduğu sorgulanıyor.