IBM ve NASA, bilimsel bilgiye erişimi artırmak için dil modeli geliştiriyor

(research.ibm.com)

4 puan yazan GN⁺ 2024-03-15 | Henüz yorum yok. | WhatsApp'ta paylaş

IBM ve NASA, bilimsel literatür üzerinden verimli dil modelleri oluşturmak için yeni bir iş birliği başlattı.
Transformer mimarisine dayanan bu modeller; sınıflandırma, varlık çıkarımı, soru yanıtlama ve bilgi erişimi gibi çeşitli uygulamalarda kullanılabiliyor.
Çeşitli alanlarda yüksek performans elde eden ve hızlı yanıt verebilen bu modeller, bilimsel ve akademik topluluğun yararı için Hugging Face üzerinde açık kaynak olarak yayımlandı.

Transformer tabanlı dil modelleri

BERT, RoBERTa, IBM'in Slate ve Granite model aileleri dahil olmak üzere transformer tabanlı dil modelleri, doğal dil anlama görevleri açısından büyük önem taşıyor.
Bu modeller, dilin nasıl çalıştığına dair istatistiksel bir anlayışa dayanıyor ve maskelenmiş dil modelleme görevi aracılığıyla, gizlenmiş kelimeleri geri getirip cümleleri yeniden oluşturarak eğitiliyor.
Kelimeleri modelin kullanabileceği birimlere ayıran tokenizer, geniş bir söz varlığını öğrenmede önemli bir rol oynuyor.

IBM ve NASA, astrofizik, gezegen bilimi, yer bilimleri, güneş fiziği ile biyolojik ve fiziksel bilim verilerinden oluşan bir korpusta 60 milyar token üzerinde modelleri eğitti.
Geliştirilen özel tokenizer, genel amaçlı tokenizer'ların aksine, axes ve polycrystalline gibi bilimsel terimleri tanıyabiliyor.
Modelin işlediği 50.000 token'ın yarısından fazlası, Hugging Face'in RoBERTa modeliyle karşılaştırıldığında benzersizdi.

Alan odaklı söz varlığıyla eğitilen IBM-NASA modeli, biyomedikal görevleri değerlendiren popüler BLURB benchmark'ında açık RoBERTa modelini %5 geride bıraktı.
Dahili bilimsel soru yanıtlama benchmark'ında F1 skorunda %2,4, dahili yer bilimi varlık tanıma testinde ise %5,5 artış gösterdi.

Eğitilen encoder modeli, birçok üretken olmayan dil görevi için ince ayar yapılabilecek yapıda ve belge arama için bilgi açısından zengin embedding'ler üretebiliyor.

Bu modeller, yaklaşık 268 milyon metin çifti kullanılarak, NASA'nın kürasyonunu yaptığı yaklaşık 400 soruluk test setinde ilgili pasajları getirme konusunda üstün performans gösterdi.
Uzmanlaşmış eğitim verileri, özelleştirilmiş tokenizer ve eğitim metodolojisi sayesinde modelde kayda değer iyileşmeler sağlandı.

IBM ve NASA'nın şeffaf yapay zekaya olan bağlılığı doğrultusunda, her iki model de Hugging Face üzerinde erişime açık.
Encoder modeli uzay alanındaki uygulamalar için daha fazla ince ayar alabilirken, retrieval modeli RAG için bilgi erişimi uygulamalarında kullanılabiliyor.

Bu iş birliği, bilimsel bilgiye erişimi iyileştirmede büyük fayda sağlayacak gibi görünüyor. Özellikle bilim alanındaki uzman terminolojiyi anlayıp işleyebilen dil modellerinin geliştirilmesi, araştırmacılar için oldukça yararlı olabilir.
Modelin açık kaynak olarak sunulması, farklı araştırmacı ve geliştiricilere onu serbestçe kullanma ve geliştirme fırsatı vererek yapay zeka araştırmalarının demokratikleşmesine katkı sağlayabilir.
Ancak bu tür gelişmiş modelleri etkili biçimde kullanmak için yeterli hesaplama kaynağına ve yapay zeka modelleme konusunda uzmanlığa ihtiyaç duyulabilir. Bu da bazı araştırmacılar veya kurumlar için giriş engeli oluşturabilir.
Bu teknolojiyi benimserken dikkate alınması gereken unsurlar arasında modelin karmaşıklığı, eğitim için gereken veri miktarı ve bunu işleyebilecek donanımın performansı yer alıyor. Bu modelin sağlayabileceği avantajlar, bilimsel literatürün daha derin anlaşılması ve daha hızlı bilgi erişimi olsa da bunun için maliyet ve kaynak yatırımı gerekiyor.