Giriş
Bu yazıyı kimler okumalı
- AlphaFold3'ün nasıl çalıştığını anlamak isteyenler
- Karmaşık yapıları görsel olarak kavramak isteyenler
- Makine öğrenimine aşina olanlar
Mimariye genel bakış
- AlphaFold3; proteinler, nükleik asitler, küçük moleküller ve benzerlerinin yapısını tahmin eder
- Karmaşık girdi türlerini işlemek için daha karmaşık öznitelik çıkarma/tokenizasyon yöntemleri kullanır
Girdi hazırlığı
Tokenizasyon
- Standart amino asitler: 1 token
- Standart nükleotidler: 1 token
- Standart olmayan amino asitler/nükleotidler: atom başına 1 token
- Diğer moleküller: atom başına 1 token
Arama (MSA ve şablon oluşturma)
- Benzer diziler bulunarak MSA ve şablonlar oluşturulur
- Öklid uzaklığı hesaplanır ve ardından distograma dönüştürülür
Atom düzeyinde gösterim oluşturma
- Her amino asit, nükleotid ve ligand için "referans yapı" oluşturulur
- Atom düzeyinde tekil gösterim (
q) ve çiftli gösterim (p) üretilir
Atom düzeyinde gösterimi güncelleme (Atom Transformer)
- Daha iyi gösterimler üretmek için
q ve p güncellenir
- Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition kullanılır
Atom düzeyinden token düzeyine toplulaştırma
- Atom düzeyindeki gösterimler token düzeyine dönüştürülür
- MSA ve kullanıcı tarafından sağlanan bilgiler eklenir
Gösterim öğrenimi
Şablon modülü
- Şablonlar kullanılarak
z güncellenir
MSA modülü
- MSA ve
z güncellenir
- Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias kullanılır
Pairformer modülü
s ve z güncellenir
- Triangle Updates, Triangle Attention kullanılır
Yapı tahmini
Difüzyonun temel ilkeleri
- Yapı tahmini için difüzyon modeli kullanılır
- Nihai yapıyı oluşturmak için gürültü eklenir ve ardından kaldırılır
GN⁺ özeti
- AlphaFold3; proteinler, nükleik asitler, küçük moleküller ve benzerlerinin karmaşık yapılarını tahmin eder
- Karmaşık model yapısını görsel diyagramlarla açıklayarak anlaşılmasını kolaylaştırır
- Makine öğrenimi ve biyomühendislik alanlarında önemli bir ilerleme sağlayan bir modeldir
- Benzer işlevlere sahip projeler arasında RosettaFold da bulunur
1 yorum
Hacker News yorumu
Bu yazı, yapısal biyologların anlayabilmesi için makaleyi adeta çevirmiş; bunun için minnettarım
PTM sayısı sınırlı olan AF3'ün tüm atomları ayrı ayrı token olarak ele alması gerektiğini öğrendim
Bunun nedeni muhtemelen PTM'lerin PDB'de çok seyrek görülmesi
Bu, sinir ağları ve yapay zeka teknolojisinin gelecekte nasıl hayata geçirileceğine dair bir fikir veriyor
Yoğun mühendislik ve mevcut tekniklerin zekice kullanımı, güçlü ve iyi eğitilmiş bir modelle birleşiyor
Şu anda ChatGPT gibileri, veriyi genelleştiren ve işleyen temel modeli oluşturmanın ilk aşamasında
Girdiyi modelin en iyi şekilde anlayabileceği hale getirmek için henüz çok fazla iş yapılmıyor
Bu alanda temel düzeyde araştırmalar var, ancak AlphaFold kadar sofistike bir şey henüz yok
İnsanlar, girdi işlemeye yardımcı olmak için LLM'leri birleştirip sistem prompt'ları kullanıyor
Daha karmaşık sistemler ortaya çıktığında, gerçek AGI'ye benzer bir şey görebiliriz
Son derece karmaşık
Protein dizilerini hizalamakta kullanılan MSA algoritması hakkında bir şey duymamıştım
Harika bir yazı, teşekkürler
Daha ayrıntılı okumayı planlıyorum