İllüstrasyonlu AlphaFold

(elanapearl.github.io)

1 puan yazan GN⁺ 2024-07-14 | Henüz yorum yok. | WhatsApp'ta paylaş

AlphaFold3, tek bir proteinin ötesine geçerek proteinler, nükleik asitler ve küçük moleküllerin birlikte bulunduğu kompleksleri yalnızca diziden tahmin etmeyi hedefler; bu nedenle girdi gösterimi ve tokenleştirme AF2'ye kıyasla çok daha karmaşıktır
Girdi; token düzeyinde single/pair gösterimleri, atom düzeyinde gösterimler, MSA ve şablonlara ayrılır; standart amino asitler ve nükleotitler 1 token, standart dışı kalıntılar ve diğer moleküller ise atom başına 1 token olarak işlenir
Gösterim öğrenme trunk'ı, şablon modülü, MSA modülü ve Pairformer üzerinden pair-bias attention, triangle işlemleri ve recycling ile single gösterim s ile pair gösterim z'yi yinelemeli olarak iyileştirir
Yapı tahmini, AF2'deki Invariant Point Attention yerine atom koordinatları üzerinde koşullu difüzyon modeli kullanır ve dönme/kaydırma artırımı ile denoising sayesinde tüm atomların koordinat güncellemelerini üretir
Eğitim, distogram, diffusion ve confidence loss'u birleştirir; ayrıca AF2 ve AF-Multimer çıktılarından yararlanan cross-distillation ile düşük güvenli bölgelerdeki unfolded gösterimleri de yeniden öğrenir

AlphaFold3 girdi kapsamı ve genel boru hattı

AlphaFold3'ün amacı, AF2 gibi yalnızca tekil protein dizilerini tahmin etmekle ya da AF-Multimer gibi yalnızca protein komplekslerini ele almakla sınırlı kalmayıp, proteinlerin isteğe bağlı olarak başka proteinler, nükleik asitler ve küçük moleküllerle bağlandığı yapıları yalnızca diziden tahmin etmektir
“Token”ın anlamı girdi türüne göre değişir
- Protein: 1 standart amino asit = 1 token
- DNA/RNA: 1 standart nükleotit = 1 token
- Standart dışı amino asitler ve nükleotitler: 1 atom = 1 token
- Diğer moleküller: 1 atom = 1 token
35 standart amino asitten oluşan bir protein gerçekte 600'den fazla atoma sahip olabilir ama 35 token olarak temsil edilir; 35 atomlu bir ligand ise 35 token olarak temsil edilir
Model genel olarak üç aşamadan oluşur
- Input Preparation: kullanıcının girdi dizileri ile aramayla bulunan ilgili dizileri ve yapıları sayısal tensörlere dönüştürür
- Representation Learning: single gösterimi ve pair gösterimini çeşitli attention türevleriyle günceller
- Structure Prediction: koşullu difüzyon ile yapıyı tahmin eder
Protein kompleksleri ağırlıklı olarak iki gösterimde saklanır
- single representation: kompleksin tüm tokenlarını kendi başlarına temsil eder
- pair representation: tüm token çiftleri arasındaki mesafe ve olası etkileşimler gibi ilişkileri temsil eder
Başlıca kanal boyutları c_z=128, c_m=64, c_atom=128, c_atompair=16, c_token=768, c_s=384 şeklindedir

Girdi hazırlığı: diziyi 6 tensöre dönüştürme süreci

Kullanıcının sağladığı girdiler, model trunk'ına girecek 6 tensöre dönüştürülür
- s: token düzeyinde single representation
- z: token düzeyinde pair representation
- q: atom düzeyinde single representation
- p: atom düzeyinde pair representation
- m: MSA representation
- t: template representation
MSA ve şablon arama
- AF3, protein ve RNA dizileri için benzer diziler arar, bunları MSA olarak oluşturur ve ilgili yapıları template olarak dahil eder
- MSA, farklı türlerde bulunan benzer protein dizilerini hizalayarak modele belirli konumlardaki korunma örüntülerini ve farklı konumlar arasındaki değişim korelasyonlarını sağlar
- Benzer proteinlerin bilinen yapıları, homology modeling'de olduğu gibi sorgu proteinin yapısını tahmin etmek için kullanılır
- Arama süreci eğitim içermez ve HMM tabanlı yöntemler kullanılır
- jackhmmer, HHBlits, nhmmer ile çeşitli protein ve RNA veritabanları taranır, hmmsearch ile de Protein Data Bank içindeki benzer diziler bulunur
- MSA boyutu, hesaplama karmaşıklığı nedeniyle N_MSA < 2^14 ile sınırlandırılır
- Her protein chain'i için yüksek kaliteli yapılar seçilir ve en fazla 4 tanesi template olarak örneklenir
- AF-Multimer ile karşılaştırıldığında yeni eklenen arama unsuru, RNA dizilerinin de arama kapsamına dahil edilmesidir
Şablon gösterim biçimi
- Template'in 3D yapısından her token çifti arasındaki Öklid uzaklığı hesaplanır
- Birden çok atom içeren tokenlarda temsilci bir “center atom” kullanılır
  - Amino asit: Cα atomu
  - Standart nükleotit: C1' atomu
- Uzaklık değerleri sürekli değer olarak değil, distogram olarak ayrıklaştırılır
  - 3.15Å ile 50.75Å arasında 38 bin
  - Daha büyük uzaklıklar için 1 ek bin
- Distogram'a chain bilgisi, kristal yapıda ilgili tokenın resolved olup olmadığı ve her amino asit içindeki yerel mesafe bilgileri eklenir
- Template matrisi yalnızca aynı chain içindeki mesafeleri görecek şekilde maskelenir; template seçimiyle chainler arası etkileşim bilgisi elde edilmeye çalışılmaz

Atom düzeyinde gösterimler ve Atom Transformer

reference conformer ve atom düzeyinde gösterimler
- Atom düzeyindeki single gösterim q’yu oluşturmak için her amino asit, nükleotit ve ligand için reference conformer hesaplanır
- conformer, tekli bağlar etrafındaki dönmeler örneklenerek oluşturulan molekülün 3B atom düzenidir
- Standart amino asitler için lookup ile elde edilebilen düşük enerjili conformer’lar kullanılırken, küçük moleküller için RDKit’s ETKDGv3 ile 3B conformer üretilir
- conformer’ın göreli konumları, atom yükü, atom numarası ve tanımlayıcıları birleştirilerek atom düzeyinde single representation c oluşturulur
- c ile atom düzeyinde pair representation p başlatılır ve yalnızca reference conformer’dan hesaplanan atomlar arası mesafeleri içermesi için mask v kullanılır
- q, c’nin bir kopyası olarak başlar ve ardından Atom Transformer içinde güncellenir
Atom Transformer’ın rolü
- Atom Transformer, atom düzeyinde attention gerçekleştiren bir modüldür; p ve özgün gösterim c kullanılarak q güncellenir
- c güncellenmez; başlangıç gösterimine yönelen bir residual connection gibi kullanılır
- Temel yapı transformer’a benzer biçimde LayerNorm, attention ve MLP transition içerir, ancak her adım c ve p’den gelen ek girdilerle ayarlanır
Adaptive LayerNorm
- Adaptive LayerNorm, sabit gamma ve beta öğrenmek yerine yardımcı girdiden gamma ve beta üretir
- Atom Transformer’da yeniden ölçeklenen hedef q’dur ve yeniden ölçekleme parametreleri yardımcı girdi c’den tahmin edilir
Pair Bias ile Attention
- Pair bias içeren atom düzeyinde attention, self-attention’ın bir genişletmesidir
- query, key ve value’nin tümü single representation q’dan gelir, ancak query-key dot product sonrasına bias olarak pair representation p’nin lineer projeksiyonu eklenir
- Bilgi akışı pair representation’dan q’ya doğrudur, ancak bu adımda q bilgisiyle p güncellenmez
- Ek bir projeksiyon sigmoid’den geçirilerek oluşturulan gate, attention sonucuyla çarpılır ve residual stream’de hangi bilginin kalacağını kontrol eder
- Atom sayısı token sayısından çok daha fazla olabileceği için full attention yerine Sequence-local atom attention kullanılır
- 32 atomluk bir local group, 128 başka atoma attend edebilir
Conditioned Gating ve Transition
- Conditioned Gating, özgün atom düzeyindeki single matrix c’den üretilen gate’i veriye uygular
- Conditioned Transition, transformer’daki MLP’nin karşılığıdır; Adaptive LayerNorm ve Conditional Gating, c’ye bağlı olduğu için conditioned olarak adlandırılır
- AF3, transition block içinde ReLU yerine SwiGLU kullanır
- AF2’nin ReLU tabanlı transition’ı 4 kat up-projection, ReLU ve down-projection yapısındadır
- AF3’ün SwiGLU yapısında iki up-projection’dan birine swish doğrusal olmayanlığı uygulanır, ardından çarpılır ve down-project edilir

Atom gösterimlerinin token gösterimlerine toplanması

Gösterim öğrenme aşaması daha sonra token düzeyinde çalıştığı için, atom düzeyindeki gösterimler token düzeyindeki gösterimlere toplanır
atom-level representation daha büyük bir boyuta projection edildikten sonra, aynı token’a ait atomların ortalaması alınır
Bu ortalama toplama işlemi, standart amino asitler ve nükleotitler gibi bir token’a birden fazla atomun bağlı olduğu durumlarda uygulanır; atom başına 1 token olan girdiler ise olduğu gibi korunur
token düzeyindeki single girdiye MSA’dan elde edilen istatistikler de eklenir
- amino asit türü
- ilgili konumdaki MSA amino asit dağılımı
- ilgili token’ın deletion mean değeri
ligand atomları gibi MSA’sı olmayan token’larda bu değerler 0 olur
Bu şekilde oluşturulan s_inputs, projection’dan geçirilerek s_init olur ve gösterim öğrenme aşamasında güncellenir
pair representation z_init, token çiftleri arasındaki ilişkileri saklayan 3 boyutlu bir tensördür ve her z_i,j, c_z=128 boyutlu bir vektördür
z_i,j başlatılırken s_i, s_j projeksiyonları, relative positional encoding ve kullanıcının belirttiği token’lar arası bağ bilgisi eklenir

Gösterim öğrenimi: Template, MSA, Pairformer

representation learning, model hesaplamasının büyük kısmını oluşturan trunk bölümüdür ve amacı token düzeyindeki single gösterim s ile pair gösterimi z’yi iyileştirmektir
single sequence representation, yalnızca tek bir protein dizisini değil, yapının içindeki tüm atom veya token’ların art arda bağlandığı sequence’i ifade eder
Template Module
- Her template lineer projection’dan geçirilir ve pair representation z’nin lineer projeksiyonuyla toplanır
- Birleştirilen matrix, Pairformer Stack içinden geçirilir
- Birden fazla template sonucu ortalanır ve ardından yeniden lineer layer’dan geçirilir
- Son lineer layer’da ReLU kullanılır; bu, AF3’te ReLU’nun doğrusal olmayanlık olarak kullanıldığı nadir yerlerden biridir
MSA Module
- MSA Module, AF2’deki Evoformer’a çok benzer ve MSA representation m ile pair representation z’yi aynı anda iyileştirir
- Tüm MSA row’ları kullanılmaz; önce subsampling yapılır, ardından single representation’ın projeksiyonu MSA’ya eklenir
- Outer Product Mean, MSA bilgisini pair representation’a aktaran işlemdir
  - her token indeksi i,j için tüm evolutionary sequence’lerde m_s,i ile m_s,j’nin outer product’ı hesaplanır
  - bu değerler tüm sequence boyunca ortalanır, flatten edilir ve projection’dan geçirilerek z_i,j’ye eklenir
  - modelde evolutionary sequence’ler arasında bilginin paylaşıldığı tek noktadır
- Yalnızca pair bias kullanan satır bazlı gated self-attention, pair representation’ı kullanarak MSA’yı günceller
  - attention score’u query ve key ile oluşturmak yerine, pair representation z bir matrix’e projection edilerek token’lar arası attention score’u olarak kullanılır
  - her MSA row’suna bağımsız biçimde uygulandığı için bu adımda evolutionary sequence’ler arasında bilgi paylaşılmaz
- MSA module’ünün sonunda triangle update ve triangle attention ile pair representation yeniden güncellenir

Pairformer ve triangle işlemleri

z, template ve MSA ile güncellendikten sonra template ve MSA artık kullanılmaz; Pairformer'a yalnızca s ve z girilir
Pairformer, 48 blok tekrarıyla nihai s_trunk ve z_trunk üretir
triangle işlemlerinin sezgisi
- triangle update ve triangle attention, üçgen eşitsizliği sezgisini modele yansıtmayı amaçlayan bir yapıdır
- pair tensoründeki z_i,j doğrudan fiziksel mesafenin kendisi olmasa da, i ve j token'ları arasındaki ilişkiyi taşıdığı için i-j, j-k, i-k arasındaki üç ilişkinin birbiriyle tutarlı olacak şekilde güncellenmesini sağlar
- üçgen eşitsizliği model içinde doğrudan zorlanmaz; bunun yerine tüm (i,j,k) üçlülerine bakılarak z_i,j güncellenmesi üzerinden dolaylı olarak teşvik edilir
- z, directed adjacency matrix gibi düşünülebilir; bu yüzden outgoing edge ve incoming edge yönleri ayrı işlenir
Triangle Updates
- outgoing update'te her z_i,j, aynı satırdaki başka bir öğe olan z_i,k ve üçüncü edge z_j,k kullanılarak güncellenir
- uygulamada z için üç projection a, b, g oluşturulur; ardından i satırı ve j satırının element-wise multiplication sonucu k boyunca toplanır ve sonrasında gate g uygulanır
- incoming update, satır ve sütunun yer değiştirmiş hali olup z_i,j aynı sütundaki başka öğeler z_k,j ve z_k,i üzerinden güncellenir
Triangle Attention
- triangle attention, 2D matrisin satır ve sütunlarına bağımsız attention uygulayan axial attention'a triangle ilkesinin eklenmiş halidir
- “starting node” durumunda, z_i,j ile z_i,k arasındaki query-key karşılaştırmasına bias olarak z_j,k eklenir
- “ending node” durumunda işlem sütun bazında yürür ve z_i,j ile z_k,i arasındaki attention score, z_k,j ile bias'lanır
Single Attention with Pair Bias
- triangle adımı ve transition block'tan sonra, single representation s, güncellenmiş pair representation z kullanan single attention with pair bias ile güncellenir
- token düzeyinde çalıştığı için atom düzeyinde kullanılan block-wise sparse attention yerine full attention kullanılır

Yapı tahmini: atom koordinatlarını diffusion ile denoising

diffusion modelinin temel çalışma biçimi
- AF3, nihai yapı tahminini atom-level diffusion ile yapar
- diffusion model, gerçek veriye aşamalı olarak random noise ekler ve model, hangi noise'un eklendiğini tahmin edecek şekilde eğitilir
- inference sırasında tamamen random noise'tan başlanır; modelin her adımda tahmin ettiği noise kaldırılarak denoised veri noktası üretilir
- koşullu diffusion, mevcut noisy generation, mevcut timestep gösterimi ve koşul vektörünü girdi olarak alıp koşula uygun sonuç üretir
- AF3'te denoising hedefi, tüm atomların x,y,z koordinatlarını içeren x matrisidir
AF2'nin IPA'sı yerine rotation ve translation augmentation
- AF3, AF2'nin Invariant Point Attention'ını kullanmaz; bunun yerine her timestep'te tahmin edilmekte olan tüm kompleksi rastgele rotation ve translation'a tabi tutar
- bu augmentation, modelin her türlü rotation ve translation'ın aynı yapı için geçerli olduğunu öğrenmesini sağlar ve AF2'nin IPA'sından daha basit bir yaklaşımdır
- rotation, mevcut generation'daki tüm atom koordinatlarının ortalaması merkez alınarak uygulanır; translation ise her boyutta N(0,1) Gaussian'dan örneklenir
- koordinatlara küçük miktarda noise da eklenerek daha çeşitli generation'lar teşvik edilir
- inference sırasında birden fazla generation confidence head ile puanlanabilir ve en yüksek puanlı generation döndürülebilir
Diffusion Module'ün dört aşaması
- her denoising adımı birden fazla conditioning representation kullanır
  - trunk çıktıları s_trunk, z_trunk
  - input embedder'ın oluşturduğu ilk gösterimler s_inputs, c_inputs
- diffusion süreci token ve atom uzayı arasında gidip gelerek dört aşamadan oluşur
  - 1. token-level conditioning tensorünün hazırlanması
  - 1. atom-level conditioning tensorünün hazırlanması, Atom Transformer'ın uygulanması ve token düzeyine agregasyon
  - 1. token-level attention uygulanması
  - 1. atom-level attention ile atom başına noise update tahmini
- token-level conditioning aşamasında z_trunk, relative positional encoding ile birleştirilir ve transition block'tan geçirilir
- single representation için s_inputs ile s_trunk birleştirilir ve diffusion timestep'ine karşılık gelen Fourier embedding eklenir
- atom-level aşamada ilk c ve p, mevcut token-level representation ile güncellenir; mevcut koordinatlar x ise data variance ile ölçeklenerek boyutsuz koordinat r elde edilir
- son atom-level aşamada linear layer, q'yu R^3'e map ederek tüm atomlar için coordinate update r_update üretir
- bu update, data variance ve noise schedule dikkate alınarak x_update olarak yeniden ölçeklendirilir ve mevcut koordinat x_l üzerine uygulanır

Kayıp fonksiyonu ve confidence head

toplam loss, üç terimin ağırlıklı toplamıdır

L_loss = L_distogram * α_distogram + L_diffusion * α_diffusion + L_confidence * α_confidence

L_distogram
- L_distogram, token düzeyinde tahmin edilen distogramın doğruluğunu değerlendirir
- Atom koordinatlarından token koordinatları oluşturulurken her tokenın merkez atom koordinatı kullanılır
- Distogram uzaklığı kategorik bir değer olarak ele alınır ve tahmin edilen distogram ile gerçek distogram cross entropy ile karşılaştırılır
L_diffusion
- L_diffusion, atom konumlarını hedefleyen birden fazla terimin ağırlıklı toplamıdır
- L_MSE, merkez atom değil tüm atomlar için konumlar arasındaki mean squared error'u hesaplar; DNA, RNA ve ligand atomları daha yüksek ağırlıklandırılır
- L_bond, protein-ligand bağına dahil olan atom çiftlerinde bağ uzunluğu doğruluğunu artırmak için ek bir MSE terimidir
- İlk eğitim aşamasında α_bond=0 olduğundan daha sonra devreye alınır
- L_smooth_LDDT, yerel mesafe doğruluğunu yumuşak ve türevlenebilir hale getiren bir loss'tur
  - 4Å, 2Å, 1Å ve 0.5Å olmak üzere dört eşik kullanılır
  - Nükleotid atom çiftleri 30Å'den uzaktaysa yok sayılır
  - Protein veya ligand atom çiftleri 15Å'den uzaktaysa yok sayılır
L_confidence
- L_confidence, yapı doğruluğunu doğrudan artırmaktan çok, modelin kendi tahminlerinin doğruluğunu kestirmeyi öğrenmesini sağlar
- Dört confidence metriğine karşılık gelen loss'lardan oluşur
  - pLDDT: yakın atomlar için yerel mesafe doğruluğu
  - PAE: token çiftinin predicted alignment error'u
  - PDE: token çiftleri arasındaki predicted distance error
  - experimentally resolved prediction: her atomun deneysel yapıda resolve edilip edilmediğinin tahmini
- Tahmin edilen yapı hatalı olup PAE yüksek olsa bile, model PAE'nin de yüksek olacağını doğru tahmin ederse ilgili PAE loss'u düşebilir
- Confidence prediction, diffusion'un ara aşamalarında üretilir
- Confidence loss'un gradient'i yalnızca confidence prediction head'i günceller, modelin geri kalanını etkilemez

Ek eğitim teknikleri ve verimlilik

Recycling
- AF3, AF2 gibi weight recycling kullanır
- Modeli daha derin hale getirmek yerine aynı weight'leri birden çok kez yeniden kullanarak temsilini kademeli olarak iyileştirir
- Diffusion da inference sırasında timestep bilgisini kullanır ve aynı weight'leri her timestep'te yeniden kullandığı için recycling'i doğal olarak içerir
Cross-distillation
- AF3, yalnızca kendi ürettiği synthetic training data'yı değil, AF2 ve AF-Multimer'ın ürettiği synthetic data'yı da kullanır
- Diffusion tabanlı generation'a geçildikten sonra, AF2'de düşük güvenli ve düzensiz bölgeleri görsel olarak ayırt etmeyi sağlayan “spaghetti” biçiminin ortadan kalkması bir sorun olmuştu
- AF2 ve AF-Multimer generation'larını AF3 eğitim verisine dahil ederek, AF2'nin emin olamadığı bölgelerde unfolded region üretme yaklaşımını AF3'ün öğrenmesi sağlanır
- Distillation veri kümesinde, AF2 ve AF-Multimer'ın işleyemediği nükleik asitler ve küçük moleküller çıkarılır
- Önceki modeller tahmini yapıyı oluşturup ardından orijinal yapı ile alignment yapınca, çıkarılmış moleküller tekrar eklenir
- Yeniden eklenen moleküller atom clash oluşturuyorsa tüm yapı hariç tutulur; böylece modelin clash'lere izin vermeyi öğrenmesi önlenir
Cropping ve eğitim aşamaları
- Modelin kendisinde giriş dizi uzunluğu için açık bir sınır yoktur, ancak birçok işlem N_tokens^3 ölçeğinde arttığı için bellek ve hesaplama gereksinimi büyür
- Verimlilik için proteinler random crop uygulanarak kırpılır
- Birden fazla chain arasındaki etkileşimi modellemek gerektiğinden, crop işlemi chain'leri birlikte içermelidir
- Üç kırpma yöntemi kullanılır
  - contiguous cropping: her chain'den ardışık amino asit dizileri seçilir
  - spatial cropping: referans atoma olan uzaklığa göre amino asitler seçilir
  - spatial interface cropping: bağlanma arayüzündeki atomlara olan uzaklığa göre seçim yapılır
- Random crop 384 ile eğitilen model daha uzun dizilere uygulanabilse de, daha uzun dizileri işleme yeteneğini artırmak için daha büyük dizi uzunluklarıyla tekrar tekrar fine-tune edilir
Clashing ve batch size
- AF3 loss'unda üst üste binen atomlar için clash penalty bulunmaz
- Diffusion tabanlı structure module teorik olarak iki atomu aynı konumda tahmin edebilir, ancak eğitimden sonra bu sorun küçüktür
- Üretilen yapıların sıralanmasında clashing penalty kullanılır
- Diffusion süreci karmaşık görünse de trunk'a kıyasla hesaplama maliyeti daha düşüktür
- Eğitim verimliliği için trunk sonrasında batch size büyütülür
- Her giriş yapısı embedding ve trunk'tan bir kez geçer; ardından data augmentation uygulanmış 48 bağımsız yapı paralel olarak eğitilir

ML bakış açısından AF3 tasarımı

Retrieval-Augmented Generation'a benzer yapı
- AF3'ün MSA ve template araması, dil modellerindeki RAG ile benzer bir karakter taşır
- AlphaFold alanında yapı template'lerini kullanma yaklaşımı, RAG teriminden çok daha önce homology modeling olarak kullanılıyordu
- AF3, AF2'ye kıyasla MSA işleme ağırlığını azaltmış olsa da MSA ve template'leri hâlâ içerir
- ESMFold gibi bazı protein tahmin modelleri retrieval'ı kaldırıp fully parametric inference kullanır
Pair-Bias Attention
- AF2'nin ana bileşenlerinden biri olan Pair-Bias Attention, AF3'te daha geniş ölçüde kullanılır
- query, key ve value aynı kaynaktan gelir, ancak attention map'e başka bir kaynaktan gelen bir bias terimi eklenir
- Bu, full cross-attention'a göre daha hafif bir bilgi paylaşımı yöntemidir
- pair representation, attention map ile doğal olarak benzerlik taşıdığı için bu yapı protein modellemeye iyi uyuyor olabilir
Self-supervised training'in küçülen rolü
- ESM ailesi modeller, self-supervised pre-training ile MSA embedding'in yerini alma yaklaşımında güçlü yönler gösterdi
- AF2'de MSA'nin masked token'ını tahmin eden ek bir görev vardı, ancak AF3'te bu kaldırıldı
- AF3, MSA işleme compute'unu azalttı ve MSA için self-supervised language modeling pre-training kullanmıyor
- Bunun olası nedenleri; massive pre-training'in compute kullanımı açısından verimsiz olması, küçük bir MSA modülünün pre-trained embedding'den daha iyi olması ya da amino asit·DNA/RNA·ligand karışımı hibrit atom-token yapısının pre-trained embedding ile iyi uyuşmaması olabilir
Classification ve Regression karışımı
- AF3, AF2'de olduğu gibi MSE ile binned classification loss'u birlikte kullanır
- classification loss'un bir özelliği, distogram bin'i yalnızca bir tane yanlış tahmin etseniz bile bunun çok uzaktaki bir hatayla aynı şekilde credit sağlamamasıdır
- Bu tasarım seçiminin gerekçesi net değil, ancak birden fazla MSE loss'a kıyasla gradient'in daha stabil olmasını sağlamış olabilir
recurrent architecture'ı andıran öğeler
- AF3'te, standart transformer'lardan çok recurrent network'leri çağrıştıran birçok öğe bulunur
- gating, residual stream içindeki bilgi akışını kontrol eder ve LSTM ya da GRU gate'lerine benzer
- recycling ve diffusion, aynı weight'leri tekrar tekrar uygulayarak tahmini kademeli biçimde iyileştirir
- adaptive compute time'a benzer şekilde, yinelemeli güncellemeler zor girdilere daha fazla işlem uygulanabilen yapılarla ilişkilidir
- AF2 ablation çalışmalarında recycling'in önemi ortaya çıkmıştı, ancak gating'in önemi hakkında fazla tartışma olmadı

İllüstrasyonlu AlphaFold

AlphaFold3 girdi kapsamı ve genel boru hattı

Girdi hazırlığı: diziyi 6 tensöre dönüştürme süreci

MSA ve şablon arama

Şablon gösterim biçimi

Atom düzeyinde gösterimler ve Atom Transformer

reference conformer ve atom düzeyinde gösterimler

Atom Transformer’ın rolü

Adaptive LayerNorm

Pair Bias ile Attention

Conditioned Gating ve Transition

Atom gösterimlerinin token gösterimlerine toplanması

Gösterim öğrenimi: Template, MSA, Pairformer

Template Module

MSA Module

Pairformer ve triangle işlemleri

triangle işlemlerinin sezgisi

Triangle Updates

Triangle Attention

Single Attention with Pair Bias

Yapı tahmini: atom koordinatlarını diffusion ile denoising

diffusion modelinin temel çalışma biçimi

AF2'nin IPA'sı yerine rotation ve translation augmentation

Diffusion Module'ün dört aşaması

Kayıp fonksiyonu ve confidence head

L_distogram

L_diffusion

L_confidence

Ek eğitim teknikleri ve verimlilik

Recycling

Cross-distillation

Cropping ve eğitim aşamaları

Clashing ve batch size

ML bakış açısından AF3 tasarımı

Retrieval-Augmented Generation'a benzer yapı

Pair-Bias Attention

Self-supervised training'in küçülen rolü

Classification ve Regression karışımı

recurrent architecture'ı andıran öğeler

İlgili okumalar

Henüz yorum yok.