- Google, yapay zeka tabanlı dosya türü tanımlama sistemi Magika'yı açık kaynak olarak yayımladı
- Magika, özelleştirilmiş ve optimize edilmiş bir derin öğrenme modeli kullanarak CPU üzerinde bile birkaç milisaniye içinde doğru dosya tanımlaması yapabiliyor
- Magika web demosu denenebilir;
pip install magika komutuyla Python kütüphanesi ve bağımsız bir komut satırı aracı olarak kurulabilir
Dosya türünü tanımlamak neden zor?
- Bilgi işlemin ilk günlerinden bu yana, dosya türünü doğru tespit etmek dosyanın nasıl işleneceğine karar vermek açısından önemli oldu.
- Linux, libmagic ve file yardımcı aracını içeriyor; bunlar 50 yılı aşkın süredir dosya türü tanımlamada fiili standart olarak kullanılıyor.
- Dosya türü tespiti, web tarayıcıları ve kod editörleri gibi çeşitli yazılımlarda dosyaların doğru şekilde işlenmesi için vazgeçilmezdir.
- Her dosya biçiminin yapısı farklı olduğu ya da hiç yapısı olmadığı için, doğru dosya türü tespiti kötü şöhretli bir problemdir.
- libmagic ve dosya türü tanımlama yazılımlarının çoğu, her dosya biçimini tespit etmek için elle hazırlanmış sezgisel yöntemlere ve kurallara dayanır.
- Bu elle yapılan yaklaşım hem zaman alıcıdır hem de hataya açıktır.
Magika performansı
- Magika, yapay zeka modeli ve büyük eğitim veri seti sayesinde 100'den fazla dosya türünü içeren 1 milyon dosyalık benchmark'ta mevcut araçlardan yaklaşık %20 daha iyi performans gösteriyor.
- Özellikle metin dosyaları, kod dosyaları ve yapılandırma dosyaları gibi diğer araçların zorlandığı dosya türlerinde daha büyük performans artışı sağlıyor.
Magika'nın Google içindeki kullanımı
- Magika, Google içinde Gmail, Drive ve Safe Browsing dosyalarını uygun güvenlik ve içerik politikası tarayıcılarına yönlendirerek kullanıcı güvenliğini artırmak için kullanılıyor.
- Haftalık ortalamada yüz milyarlarca dosya ölçeğinde bakıldığında, Magika dosya türü tanımlama doğruluğunu elle yazılmış kurallara dayanan önceki sisteme kıyasla %50 artırıyor.
- Magika, VirusTotal entegrasyonu üzerinden mevcut Code Insight özelliğini tamamlayacak ve küresel siber güvenlik ekosistemine katkı sağlayarak daha güvenli bir dijital ortam oluşturacak.
Magika'nın açık kaynak olarak yayımlanması
- Magika'nın açık kaynak yapılmasıyla, diğer yazılımlarda dosya tanımlama doğruluğunu artırmak ve araştırmacılara büyük ölçekte dosya türlerini tanımlamak için güvenilir bir yöntem sunmak amaçlanıyor.
- Magika'nın kodu ve modeli, GitHub'da Apache2 lisansı altında ücretsiz olarak sunuluyor ve PyPI paket yöneticisi üzerinden kolayca kurulabiliyor.
- Magika'nın kullanımıyla ilgili ayrıntılar için Magika dokümantasyon sitesine bakılabilir.
GN⁺ görüşü
- Magika'nın açık kaynak olarak yayımlanması, dosya türü tanımlamadaki doğruluğu artırmada büyük fayda sağlayacak gibi görünüyor.
- Özellikle güvenlik alanında doğru dosya tanımlama çok önemlidir ve Magika bu amaç için güçlü bir araç olabilir.
- Google'ın teknik yetkinliği ve açık kaynak topluluğuna katkısının, küresel siber güvenlik ekosistemini güçlendirmede önemli rol oynaması bekleniyor.
1 yorum
Hacker News görüşleri
Yeni dosya türü algılama aracı web tarama verilerine uygulanmış.
10 yıl önce elektronik tablo dosya türü algılamayla ilgili deneyim paylaşılmış.
magicile algılayan bir patch önerilmiş ama reddedilmiş.100 dosya üzerinde yapılan algılama testi sonuçları paylaşılmış.
fileyardımcı programıyla karşılaştırıldığında benzer doğruluk gösteriyor.Dosya türü algılama alanında yeni bir aracın ortaya çıkmasına olumlu yaklaşılmış.
Google'ın libmagic'i iyileştirmek yerine sinir ağı tabanlı bir dosya türü algılama aracına kaynak ayırmış olması kafa karıştırıcı bulunuyor.
Birden fazla biçimde geçerli olan polyglot dosyaların nasıl algılanacağı merak ediliyor.
APK veya JAR dosyalarının doğru algılanmasında diğer araçların precision ya da recall değerleri sorgulanıyor.
Racket'ta libmagic gerçekleştirme deneyimi paylaşılmış.
Dosya türü algılamanın özünde deterministik olduğu savunuluyor.