İllüstrasyonlu AlphaFold
(elanapearl.github.io)- AlphaFold3, tek bir proteinin ötesine geçerek proteinler, nükleik asitler ve küçük moleküllerin birlikte bulunduğu kompleksleri yalnızca diziden tahmin etmeyi hedefler; bu nedenle girdi gösterimi ve tokenleştirme AF2'ye kıyasla çok daha karmaşıktır
- Girdi; token düzeyinde single/pair gösterimleri, atom düzeyinde gösterimler, MSA ve şablonlara ayrılır; standart amino asitler ve nükleotitler 1 token, standart dışı kalıntılar ve diğer moleküller ise atom başına 1 token olarak işlenir
- Gösterim öğrenme trunk'ı, şablon modülü, MSA modülü ve Pairformer üzerinden pair-bias attention, triangle işlemleri ve recycling ile single gösterim s ile pair gösterim z'yi yinelemeli olarak iyileştirir
- Yapı tahmini, AF2'deki Invariant Point Attention yerine atom koordinatları üzerinde koşullu difüzyon modeli kullanır ve dönme/kaydırma artırımı ile denoising sayesinde tüm atomların koordinat güncellemelerini üretir
- Eğitim, distogram, diffusion ve confidence loss'u birleştirir; ayrıca AF2 ve AF-Multimer çıktılarından yararlanan cross-distillation ile düşük güvenli bölgelerdeki unfolded gösterimleri de yeniden öğrenir
AlphaFold3 girdi kapsamı ve genel boru hattı
- AlphaFold3'ün amacı, AF2 gibi yalnızca tekil protein dizilerini tahmin etmekle ya da AF-Multimer gibi yalnızca protein komplekslerini ele almakla sınırlı kalmayıp, proteinlerin isteğe bağlı olarak başka proteinler, nükleik asitler ve küçük moleküllerle bağlandığı yapıları yalnızca diziden tahmin etmektir
- “Token”ın anlamı girdi türüne göre değişir
- Protein: 1 standart amino asit = 1 token
- DNA/RNA: 1 standart nükleotit = 1 token
- Standart dışı amino asitler ve nükleotitler: 1 atom = 1 token
- Diğer moleküller: 1 atom = 1 token
- 35 standart amino asitten oluşan bir protein gerçekte 600'den fazla atoma sahip olabilir ama 35 token olarak temsil edilir; 35 atomlu bir ligand ise 35 token olarak temsil edilir
- Model genel olarak üç aşamadan oluşur
- Input Preparation: kullanıcının girdi dizileri ile aramayla bulunan ilgili dizileri ve yapıları sayısal tensörlere dönüştürür
- Representation Learning: single gösterimi ve pair gösterimini çeşitli attention türevleriyle günceller
- Structure Prediction: koşullu difüzyon ile yapıyı tahmin eder
- Protein kompleksleri ağırlıklı olarak iki gösterimde saklanır
- single representation: kompleksin tüm tokenlarını kendi başlarına temsil eder
- pair representation: tüm token çiftleri arasındaki mesafe ve olası etkileşimler gibi ilişkileri temsil eder
- Başlıca kanal boyutları
c_z=128,c_m=64,c_atom=128,c_atompair=16,c_token=768,c_s=384şeklindedir
Girdi hazırlığı: diziyi 6 tensöre dönüştürme süreci
- Kullanıcının sağladığı girdiler, model trunk'ına girecek 6 tensöre dönüştürülür
- s: token düzeyinde single representation
- z: token düzeyinde pair representation
- q: atom düzeyinde single representation
- p: atom düzeyinde pair representation
- m: MSA representation
- t: template representation
-
MSA ve şablon arama
- AF3, protein ve RNA dizileri için benzer diziler arar, bunları MSA olarak oluşturur ve ilgili yapıları template olarak dahil eder
- MSA, farklı türlerde bulunan benzer protein dizilerini hizalayarak modele belirli konumlardaki korunma örüntülerini ve farklı konumlar arasındaki değişim korelasyonlarını sağlar
- Benzer proteinlerin bilinen yapıları, homology modeling'de olduğu gibi sorgu proteinin yapısını tahmin etmek için kullanılır
- Arama süreci eğitim içermez ve HMM tabanlı yöntemler kullanılır
jackhmmer,HHBlits,nhmmerile çeşitli protein ve RNA veritabanları taranır,hmmsearchile de Protein Data Bank içindeki benzer diziler bulunur- MSA boyutu, hesaplama karmaşıklığı nedeniyle
N_MSA < 2^14ile sınırlandırılır - Her protein chain'i için yüksek kaliteli yapılar seçilir ve en fazla 4 tanesi template olarak örneklenir
- AF-Multimer ile karşılaştırıldığında yeni eklenen arama unsuru, RNA dizilerinin de arama kapsamına dahil edilmesidir
-
Şablon gösterim biçimi
- Template'in 3D yapısından her token çifti arasındaki Öklid uzaklığı hesaplanır
- Birden çok atom içeren tokenlarda temsilci bir “center atom” kullanılır
- Amino asit:
Cαatomu - Standart nükleotit:
C1'atomu
- Amino asit:
- Uzaklık değerleri sürekli değer olarak değil, distogram olarak ayrıklaştırılır
- 3.15Å ile 50.75Å arasında 38 bin
- Daha büyük uzaklıklar için 1 ek bin
- Distogram'a chain bilgisi, kristal yapıda ilgili tokenın resolved olup olmadığı ve her amino asit içindeki yerel mesafe bilgileri eklenir
- Template matrisi yalnızca aynı chain içindeki mesafeleri görecek şekilde maskelenir; template seçimiyle chainler arası etkileşim bilgisi elde edilmeye çalışılmaz
Atom düzeyinde gösterimler ve Atom Transformer
-
reference conformer ve atom düzeyinde gösterimler
- Atom düzeyindeki single gösterim q’yu oluşturmak için her amino asit, nükleotit ve ligand için reference conformer hesaplanır
- conformer, tekli bağlar etrafındaki dönmeler örneklenerek oluşturulan molekülün 3B atom düzenidir
- Standart amino asitler için lookup ile elde edilebilen düşük enerjili conformer’lar kullanılırken, küçük moleküller için RDKit’s ETKDGv3 ile 3B conformer üretilir
- conformer’ın göreli konumları, atom yükü, atom numarası ve tanımlayıcıları birleştirilerek atom düzeyinde single representation c oluşturulur
- c ile atom düzeyinde pair representation p başlatılır ve yalnızca reference conformer’dan hesaplanan atomlar arası mesafeleri içermesi için mask v kullanılır
- q, c’nin bir kopyası olarak başlar ve ardından Atom Transformer içinde güncellenir
-
Atom Transformer’ın rolü
- Atom Transformer, atom düzeyinde attention gerçekleştiren bir modüldür; p ve özgün gösterim c kullanılarak q güncellenir
- c güncellenmez; başlangıç gösterimine yönelen bir residual connection gibi kullanılır
- Temel yapı transformer’a benzer biçimde LayerNorm, attention ve MLP transition içerir, ancak her adım c ve p’den gelen ek girdilerle ayarlanır
-
Adaptive LayerNorm
- Adaptive LayerNorm, sabit
gammavebetaöğrenmek yerine yardımcı girdidengammavebetaüretir - Atom Transformer’da yeniden ölçeklenen hedef q’dur ve yeniden ölçekleme parametreleri yardımcı girdi c’den tahmin edilir
- Adaptive LayerNorm, sabit
-
Pair Bias ile Attention
- Pair bias içeren atom düzeyinde attention, self-attention’ın bir genişletmesidir
- query, key ve value’nin tümü single representation q’dan gelir, ancak query-key dot product sonrasına bias olarak pair representation p’nin lineer projeksiyonu eklenir
- Bilgi akışı pair representation’dan q’ya doğrudur, ancak bu adımda q bilgisiyle p güncellenmez
- Ek bir projeksiyon sigmoid’den geçirilerek oluşturulan gate, attention sonucuyla çarpılır ve residual stream’de hangi bilginin kalacağını kontrol eder
- Atom sayısı token sayısından çok daha fazla olabileceği için full attention yerine Sequence-local atom attention kullanılır
- 32 atomluk bir local group, 128 başka atoma attend edebilir
-
Conditioned Gating ve Transition
- Conditioned Gating, özgün atom düzeyindeki single matrix c’den üretilen gate’i veriye uygular
- Conditioned Transition, transformer’daki MLP’nin karşılığıdır; Adaptive LayerNorm ve Conditional Gating, c’ye bağlı olduğu için conditioned olarak adlandırılır
- AF3, transition block içinde ReLU yerine SwiGLU kullanır
- AF2’nin ReLU tabanlı transition’ı 4 kat up-projection, ReLU ve down-projection yapısındadır
- AF3’ün SwiGLU yapısında iki up-projection’dan birine swish doğrusal olmayanlığı uygulanır, ardından çarpılır ve down-project edilir
Atom gösterimlerinin token gösterimlerine toplanması
- Gösterim öğrenme aşaması daha sonra token düzeyinde çalıştığı için, atom düzeyindeki gösterimler token düzeyindeki gösterimlere toplanır
- atom-level representation daha büyük bir boyuta projection edildikten sonra, aynı token’a ait atomların ortalaması alınır
- Bu ortalama toplama işlemi, standart amino asitler ve nükleotitler gibi bir token’a birden fazla atomun bağlı olduğu durumlarda uygulanır; atom başına 1 token olan girdiler ise olduğu gibi korunur
- token düzeyindeki single girdiye MSA’dan elde edilen istatistikler de eklenir
- amino asit türü
- ilgili konumdaki MSA amino asit dağılımı
- ilgili token’ın deletion mean değeri
- ligand atomları gibi MSA’sı olmayan token’larda bu değerler 0 olur
- Bu şekilde oluşturulan s_inputs, projection’dan geçirilerek s_init olur ve gösterim öğrenme aşamasında güncellenir
- pair representation z_init, token çiftleri arasındaki ilişkileri saklayan 3 boyutlu bir tensördür ve her z_i,j,
c_z=128boyutlu bir vektördür - z_i,j başlatılırken s_i, s_j projeksiyonları, relative positional encoding ve kullanıcının belirttiği token’lar arası bağ bilgisi eklenir
Gösterim öğrenimi: Template, MSA, Pairformer
- representation learning, model hesaplamasının büyük kısmını oluşturan trunk bölümüdür ve amacı token düzeyindeki single gösterim s ile pair gösterimi z’yi iyileştirmektir
- single sequence representation, yalnızca tek bir protein dizisini değil, yapının içindeki tüm atom veya token’ların art arda bağlandığı sequence’i ifade eder
-
Template Module
- Her template lineer projection’dan geçirilir ve pair representation z’nin lineer projeksiyonuyla toplanır
- Birleştirilen matrix, Pairformer Stack içinden geçirilir
- Birden fazla template sonucu ortalanır ve ardından yeniden lineer layer’dan geçirilir
- Son lineer layer’da ReLU kullanılır; bu, AF3’te ReLU’nun doğrusal olmayanlık olarak kullanıldığı nadir yerlerden biridir
-
MSA Module
- MSA Module, AF2’deki Evoformer’a çok benzer ve MSA representation m ile pair representation z’yi aynı anda iyileştirir
- Tüm MSA row’ları kullanılmaz; önce subsampling yapılır, ardından single representation’ın projeksiyonu MSA’ya eklenir
- Outer Product Mean, MSA bilgisini pair representation’a aktaran işlemdir
- her token indeksi
i,jiçin tüm evolutionary sequence’lerde m_s,i ile m_s,j’nin outer product’ı hesaplanır - bu değerler tüm sequence boyunca ortalanır, flatten edilir ve projection’dan geçirilerek z_i,j’ye eklenir
- modelde evolutionary sequence’ler arasında bilginin paylaşıldığı tek noktadır
- her token indeksi
- Yalnızca pair bias kullanan satır bazlı gated self-attention, pair representation’ı kullanarak MSA’yı günceller
- attention score’u query ve key ile oluşturmak yerine, pair representation z bir matrix’e projection edilerek token’lar arası attention score’u olarak kullanılır
- her MSA row’suna bağımsız biçimde uygulandığı için bu adımda evolutionary sequence’ler arasında bilgi paylaşılmaz
- MSA module’ünün sonunda triangle update ve triangle attention ile pair representation yeniden güncellenir
Pairformer ve triangle işlemleri
- z, template ve MSA ile güncellendikten sonra template ve MSA artık kullanılmaz; Pairformer'a yalnızca s ve z girilir
- Pairformer, 48 blok tekrarıyla nihai s_trunk ve z_trunk üretir
-
triangle işlemlerinin sezgisi
- triangle update ve triangle attention, üçgen eşitsizliği sezgisini modele yansıtmayı amaçlayan bir yapıdır
- pair tensoründeki z_i,j doğrudan fiziksel mesafenin kendisi olmasa da,
ivejtoken'ları arasındaki ilişkiyi taşıdığı içini-j,j-k,i-karasındaki üç ilişkinin birbiriyle tutarlı olacak şekilde güncellenmesini sağlar - üçgen eşitsizliği model içinde doğrudan zorlanmaz; bunun yerine tüm
(i,j,k)üçlülerine bakılarak z_i,j güncellenmesi üzerinden dolaylı olarak teşvik edilir - z, directed adjacency matrix gibi düşünülebilir; bu yüzden outgoing edge ve incoming edge yönleri ayrı işlenir
-
Triangle Updates
- outgoing update'te her z_i,j, aynı satırdaki başka bir öğe olan z_i,k ve üçüncü edge z_j,k kullanılarak güncellenir
- uygulamada z için üç projection
a,b,goluşturulur; ardındanisatırı vejsatırının element-wise multiplication sonucukboyunca toplanır ve sonrasında gateguygulanır - incoming update, satır ve sütunun yer değiştirmiş hali olup z_i,j aynı sütundaki başka öğeler z_k,j ve z_k,i üzerinden güncellenir
-
Triangle Attention
- triangle attention, 2D matrisin satır ve sütunlarına bağımsız attention uygulayan axial attention'a triangle ilkesinin eklenmiş halidir
- “starting node” durumunda, z_i,j ile z_i,k arasındaki query-key karşılaştırmasına bias olarak z_j,k eklenir
- “ending node” durumunda işlem sütun bazında yürür ve z_i,j ile z_k,i arasındaki attention score, z_k,j ile bias'lanır
-
Single Attention with Pair Bias
- triangle adımı ve transition block'tan sonra, single representation s, güncellenmiş pair representation z kullanan single attention with pair bias ile güncellenir
- token düzeyinde çalıştığı için atom düzeyinde kullanılan block-wise sparse attention yerine full attention kullanılır
Yapı tahmini: atom koordinatlarını diffusion ile denoising
-
diffusion modelinin temel çalışma biçimi
- AF3, nihai yapı tahminini atom-level diffusion ile yapar
- diffusion model, gerçek veriye aşamalı olarak random noise ekler ve model, hangi noise'un eklendiğini tahmin edecek şekilde eğitilir
- inference sırasında tamamen random noise'tan başlanır; modelin her adımda tahmin ettiği noise kaldırılarak denoised veri noktası üretilir
- koşullu diffusion, mevcut noisy generation, mevcut timestep gösterimi ve koşul vektörünü girdi olarak alıp koşula uygun sonuç üretir
- AF3'te denoising hedefi, tüm atomların
x,y,zkoordinatlarını içeren x matrisidir
-
AF2'nin IPA'sı yerine rotation ve translation augmentation
- AF3, AF2'nin Invariant Point Attention'ını kullanmaz; bunun yerine her timestep'te tahmin edilmekte olan tüm kompleksi rastgele rotation ve translation'a tabi tutar
- bu augmentation, modelin her türlü rotation ve translation'ın aynı yapı için geçerli olduğunu öğrenmesini sağlar ve AF2'nin IPA'sından daha basit bir yaklaşımdır
- rotation, mevcut generation'daki tüm atom koordinatlarının ortalaması merkez alınarak uygulanır; translation ise her boyutta
N(0,1)Gaussian'dan örneklenir - koordinatlara küçük miktarda noise da eklenerek daha çeşitli generation'lar teşvik edilir
- inference sırasında birden fazla generation confidence head ile puanlanabilir ve en yüksek puanlı generation döndürülebilir
-
Diffusion Module'ün dört aşaması
- her denoising adımı birden fazla conditioning representation kullanır
- trunk çıktıları s_trunk, z_trunk
- input embedder'ın oluşturduğu ilk gösterimler s_inputs, c_inputs
- diffusion süreci token ve atom uzayı arasında gidip gelerek dört aşamadan oluşur
-
- token-level conditioning tensorünün hazırlanması
-
- atom-level conditioning tensorünün hazırlanması, Atom Transformer'ın uygulanması ve token düzeyine agregasyon
-
- token-level attention uygulanması
-
- atom-level attention ile atom başına noise update tahmini
-
- token-level conditioning aşamasında z_trunk, relative positional encoding ile birleştirilir ve transition block'tan geçirilir
- single representation için s_inputs ile s_trunk birleştirilir ve diffusion timestep'ine karşılık gelen Fourier embedding eklenir
- atom-level aşamada ilk c ve p, mevcut token-level representation ile güncellenir; mevcut koordinatlar x ise data variance ile ölçeklenerek boyutsuz koordinat r elde edilir
- son atom-level aşamada linear layer, q'yu
R^3'e map ederek tüm atomlar için coordinate update r_update üretir - bu update, data variance ve noise schedule dikkate alınarak x_update olarak yeniden ölçeklendirilir ve mevcut koordinat x_l üzerine uygulanır
- her denoising adımı birden fazla conditioning representation kullanır
Kayıp fonksiyonu ve confidence head
- toplam loss, üç terimin ağırlıklı toplamıdır
L_loss = L_distogram * α_distogram + L_diffusion * α_diffusion + L_confidence * α_confidence
-
L_distogram
- L_distogram, token düzeyinde tahmin edilen distogramın doğruluğunu değerlendirir
- Atom koordinatlarından token koordinatları oluşturulurken her tokenın merkez atom koordinatı kullanılır
- Distogram uzaklığı kategorik bir değer olarak ele alınır ve tahmin edilen distogram ile gerçek distogram cross entropy ile karşılaştırılır
-
L_diffusion
- L_diffusion, atom konumlarını hedefleyen birden fazla terimin ağırlıklı toplamıdır
- L_MSE, merkez atom değil tüm atomlar için konumlar arasındaki mean squared error'u hesaplar; DNA, RNA ve ligand atomları daha yüksek ağırlıklandırılır
- L_bond, protein-ligand bağına dahil olan atom çiftlerinde bağ uzunluğu doğruluğunu artırmak için ek bir MSE terimidir
- İlk eğitim aşamasında
α_bond=0olduğundan daha sonra devreye alınır - L_smooth_LDDT, yerel mesafe doğruluğunu yumuşak ve türevlenebilir hale getiren bir loss'tur
- 4Å, 2Å, 1Å ve 0.5Å olmak üzere dört eşik kullanılır
- Nükleotid atom çiftleri 30Å'den uzaktaysa yok sayılır
- Protein veya ligand atom çiftleri 15Å'den uzaktaysa yok sayılır
-
L_confidence
- L_confidence, yapı doğruluğunu doğrudan artırmaktan çok, modelin kendi tahminlerinin doğruluğunu kestirmeyi öğrenmesini sağlar
- Dört confidence metriğine karşılık gelen loss'lardan oluşur
- pLDDT: yakın atomlar için yerel mesafe doğruluğu
- PAE: token çiftinin predicted alignment error'u
- PDE: token çiftleri arasındaki predicted distance error
- experimentally resolved prediction: her atomun deneysel yapıda resolve edilip edilmediğinin tahmini
- Tahmin edilen yapı hatalı olup PAE yüksek olsa bile, model PAE'nin de yüksek olacağını doğru tahmin ederse ilgili PAE loss'u düşebilir
- Confidence prediction, diffusion'un ara aşamalarında üretilir
- Confidence loss'un gradient'i yalnızca confidence prediction head'i günceller, modelin geri kalanını etkilemez
Ek eğitim teknikleri ve verimlilik
-
Recycling
- AF3, AF2 gibi weight recycling kullanır
- Modeli daha derin hale getirmek yerine aynı weight'leri birden çok kez yeniden kullanarak temsilini kademeli olarak iyileştirir
- Diffusion da inference sırasında timestep bilgisini kullanır ve aynı weight'leri her timestep'te yeniden kullandığı için recycling'i doğal olarak içerir
-
Cross-distillation
- AF3, yalnızca kendi ürettiği synthetic training data'yı değil, AF2 ve AF-Multimer'ın ürettiği synthetic data'yı da kullanır
- Diffusion tabanlı generation'a geçildikten sonra, AF2'de düşük güvenli ve düzensiz bölgeleri görsel olarak ayırt etmeyi sağlayan “spaghetti” biçiminin ortadan kalkması bir sorun olmuştu
- AF2 ve AF-Multimer generation'larını AF3 eğitim verisine dahil ederek, AF2'nin emin olamadığı bölgelerde unfolded region üretme yaklaşımını AF3'ün öğrenmesi sağlanır
- Distillation veri kümesinde, AF2 ve AF-Multimer'ın işleyemediği nükleik asitler ve küçük moleküller çıkarılır
- Önceki modeller tahmini yapıyı oluşturup ardından orijinal yapı ile alignment yapınca, çıkarılmış moleküller tekrar eklenir
- Yeniden eklenen moleküller atom clash oluşturuyorsa tüm yapı hariç tutulur; böylece modelin clash'lere izin vermeyi öğrenmesi önlenir
-
Cropping ve eğitim aşamaları
- Modelin kendisinde giriş dizi uzunluğu için açık bir sınır yoktur, ancak birçok işlem
N_tokens^3ölçeğinde arttığı için bellek ve hesaplama gereksinimi büyür - Verimlilik için proteinler random crop uygulanarak kırpılır
- Birden fazla chain arasındaki etkileşimi modellemek gerektiğinden, crop işlemi chain'leri birlikte içermelidir
- Üç kırpma yöntemi kullanılır
- contiguous cropping: her chain'den ardışık amino asit dizileri seçilir
- spatial cropping: referans atoma olan uzaklığa göre amino asitler seçilir
- spatial interface cropping: bağlanma arayüzündeki atomlara olan uzaklığa göre seçim yapılır
- Random crop 384 ile eğitilen model daha uzun dizilere uygulanabilse de, daha uzun dizileri işleme yeteneğini artırmak için daha büyük dizi uzunluklarıyla tekrar tekrar fine-tune edilir
- Modelin kendisinde giriş dizi uzunluğu için açık bir sınır yoktur, ancak birçok işlem
-
Clashing ve batch size
- AF3 loss'unda üst üste binen atomlar için clash penalty bulunmaz
- Diffusion tabanlı structure module teorik olarak iki atomu aynı konumda tahmin edebilir, ancak eğitimden sonra bu sorun küçüktür
- Üretilen yapıların sıralanmasında clashing penalty kullanılır
- Diffusion süreci karmaşık görünse de trunk'a kıyasla hesaplama maliyeti daha düşüktür
- Eğitim verimliliği için trunk sonrasında batch size büyütülür
- Her giriş yapısı embedding ve trunk'tan bir kez geçer; ardından data augmentation uygulanmış 48 bağımsız yapı paralel olarak eğitilir
ML bakış açısından AF3 tasarımı
-
Retrieval-Augmented Generation'a benzer yapı
- AF3'ün MSA ve template araması, dil modellerindeki RAG ile benzer bir karakter taşır
- AlphaFold alanında yapı template'lerini kullanma yaklaşımı, RAG teriminden çok daha önce homology modeling olarak kullanılıyordu
- AF3, AF2'ye kıyasla MSA işleme ağırlığını azaltmış olsa da MSA ve template'leri hâlâ içerir
- ESMFold gibi bazı protein tahmin modelleri retrieval'ı kaldırıp fully parametric inference kullanır
-
Pair-Bias Attention
- AF2'nin ana bileşenlerinden biri olan Pair-Bias Attention, AF3'te daha geniş ölçüde kullanılır
- query, key ve value aynı kaynaktan gelir, ancak attention map'e başka bir kaynaktan gelen bir bias terimi eklenir
- Bu, full cross-attention'a göre daha hafif bir bilgi paylaşımı yöntemidir
- pair representation, attention map ile doğal olarak benzerlik taşıdığı için bu yapı protein modellemeye iyi uyuyor olabilir
-
Self-supervised training'in küçülen rolü
- ESM ailesi modeller, self-supervised pre-training ile MSA embedding'in yerini alma yaklaşımında güçlü yönler gösterdi
- AF2'de MSA'nin masked token'ını tahmin eden ek bir görev vardı, ancak AF3'te bu kaldırıldı
- AF3, MSA işleme compute'unu azalttı ve MSA için self-supervised language modeling pre-training kullanmıyor
- Bunun olası nedenleri; massive pre-training'in compute kullanımı açısından verimsiz olması, küçük bir MSA modülünün pre-trained embedding'den daha iyi olması ya da amino asit·DNA/RNA·ligand karışımı hibrit atom-token yapısının pre-trained embedding ile iyi uyuşmaması olabilir
-
Classification ve Regression karışımı
- AF3, AF2'de olduğu gibi MSE ile binned classification loss'u birlikte kullanır
- classification loss'un bir özelliği, distogram bin'i yalnızca bir tane yanlış tahmin etseniz bile bunun çok uzaktaki bir hatayla aynı şekilde credit sağlamamasıdır
- Bu tasarım seçiminin gerekçesi net değil, ancak birden fazla MSE loss'a kıyasla gradient'in daha stabil olmasını sağlamış olabilir
-
recurrent architecture'ı andıran öğeler
- AF3'te, standart transformer'lardan çok recurrent network'leri çağrıştıran birçok öğe bulunur
- gating, residual stream içindeki bilgi akışını kontrol eder ve LSTM ya da GRU gate'lerine benzer
- recycling ve diffusion, aynı weight'leri tekrar tekrar uygulayarak tahmini kademeli biçimde iyileştirir
- adaptive compute time'a benzer şekilde, yinelemeli güncellemeler zor girdilere daha fazla işlem uygulanabilen yapılarla ilişkilidir
- AF2 ablation çalışmalarında recycling'in önemi ortaya çıkmıştı, ancak gating'in önemi hakkında fazla tartışma olmadı
Henüz yorum yok.