1 puan yazan GN⁺ 2024-07-14 | Henüz yorum yok. | WhatsApp'ta paylaş
  • AlphaFold3, tek bir proteinin ötesine geçerek proteinler, nükleik asitler ve küçük moleküllerin birlikte bulunduğu kompleksleri yalnızca diziden tahmin etmeyi hedefler; bu nedenle girdi gösterimi ve tokenleştirme AF2'ye kıyasla çok daha karmaşıktır
  • Girdi; token düzeyinde single/pair gösterimleri, atom düzeyinde gösterimler, MSA ve şablonlara ayrılır; standart amino asitler ve nükleotitler 1 token, standart dışı kalıntılar ve diğer moleküller ise atom başına 1 token olarak işlenir
  • Gösterim öğrenme trunk'ı, şablon modülü, MSA modülü ve Pairformer üzerinden pair-bias attention, triangle işlemleri ve recycling ile single gösterim s ile pair gösterim z'yi yinelemeli olarak iyileştirir
  • Yapı tahmini, AF2'deki Invariant Point Attention yerine atom koordinatları üzerinde koşullu difüzyon modeli kullanır ve dönme/kaydırma artırımı ile denoising sayesinde tüm atomların koordinat güncellemelerini üretir
  • Eğitim, distogram, diffusion ve confidence loss'u birleştirir; ayrıca AF2 ve AF-Multimer çıktılarından yararlanan cross-distillation ile düşük güvenli bölgelerdeki unfolded gösterimleri de yeniden öğrenir

AlphaFold3 girdi kapsamı ve genel boru hattı

  • AlphaFold3'ün amacı, AF2 gibi yalnızca tekil protein dizilerini tahmin etmekle ya da AF-Multimer gibi yalnızca protein komplekslerini ele almakla sınırlı kalmayıp, proteinlerin isteğe bağlı olarak başka proteinler, nükleik asitler ve küçük moleküllerle bağlandığı yapıları yalnızca diziden tahmin etmektir
  • “Token”ın anlamı girdi türüne göre değişir
    • Protein: 1 standart amino asit = 1 token
    • DNA/RNA: 1 standart nükleotit = 1 token
    • Standart dışı amino asitler ve nükleotitler: 1 atom = 1 token
    • Diğer moleküller: 1 atom = 1 token
  • 35 standart amino asitten oluşan bir protein gerçekte 600'den fazla atoma sahip olabilir ama 35 token olarak temsil edilir; 35 atomlu bir ligand ise 35 token olarak temsil edilir
  • Model genel olarak üç aşamadan oluşur
    • Input Preparation: kullanıcının girdi dizileri ile aramayla bulunan ilgili dizileri ve yapıları sayısal tensörlere dönüştürür
    • Representation Learning: single gösterimi ve pair gösterimini çeşitli attention türevleriyle günceller
    • Structure Prediction: koşullu difüzyon ile yapıyı tahmin eder
  • Protein kompleksleri ağırlıklı olarak iki gösterimde saklanır
    • single representation: kompleksin tüm tokenlarını kendi başlarına temsil eder
    • pair representation: tüm token çiftleri arasındaki mesafe ve olası etkileşimler gibi ilişkileri temsil eder
  • Başlıca kanal boyutları c_z=128, c_m=64, c_atom=128, c_atompair=16, c_token=768, c_s=384 şeklindedir

Girdi hazırlığı: diziyi 6 tensöre dönüştürme süreci

  • Kullanıcının sağladığı girdiler, model trunk'ına girecek 6 tensöre dönüştürülür
    • s: token düzeyinde single representation
    • z: token düzeyinde pair representation
    • q: atom düzeyinde single representation
    • p: atom düzeyinde pair representation
    • m: MSA representation
    • t: template representation
  • MSA ve şablon arama

    • AF3, protein ve RNA dizileri için benzer diziler arar, bunları MSA olarak oluşturur ve ilgili yapıları template olarak dahil eder
    • MSA, farklı türlerde bulunan benzer protein dizilerini hizalayarak modele belirli konumlardaki korunma örüntülerini ve farklı konumlar arasındaki değişim korelasyonlarını sağlar
    • Benzer proteinlerin bilinen yapıları, homology modeling'de olduğu gibi sorgu proteinin yapısını tahmin etmek için kullanılır
    • Arama süreci eğitim içermez ve HMM tabanlı yöntemler kullanılır
    • jackhmmer, HHBlits, nhmmer ile çeşitli protein ve RNA veritabanları taranır, hmmsearch ile de Protein Data Bank içindeki benzer diziler bulunur
    • MSA boyutu, hesaplama karmaşıklığı nedeniyle N_MSA < 2^14 ile sınırlandırılır
    • Her protein chain'i için yüksek kaliteli yapılar seçilir ve en fazla 4 tanesi template olarak örneklenir
    • AF-Multimer ile karşılaştırıldığında yeni eklenen arama unsuru, RNA dizilerinin de arama kapsamına dahil edilmesidir
  • Şablon gösterim biçimi

    • Template'in 3D yapısından her token çifti arasındaki Öklid uzaklığı hesaplanır
    • Birden çok atom içeren tokenlarda temsilci bir “center atom” kullanılır
      • Amino asit: atomu
      • Standart nükleotit: C1' atomu
    • Uzaklık değerleri sürekli değer olarak değil, distogram olarak ayrıklaştırılır
      • 3.15Å ile 50.75Å arasında 38 bin
      • Daha büyük uzaklıklar için 1 ek bin
    • Distogram'a chain bilgisi, kristal yapıda ilgili tokenın resolved olup olmadığı ve her amino asit içindeki yerel mesafe bilgileri eklenir
    • Template matrisi yalnızca aynı chain içindeki mesafeleri görecek şekilde maskelenir; template seçimiyle chainler arası etkileşim bilgisi elde edilmeye çalışılmaz

Atom düzeyinde gösterimler ve Atom Transformer

  • reference conformer ve atom düzeyinde gösterimler

    • Atom düzeyindeki single gösterim q’yu oluşturmak için her amino asit, nükleotit ve ligand için reference conformer hesaplanır
    • conformer, tekli bağlar etrafındaki dönmeler örneklenerek oluşturulan molekülün 3B atom düzenidir
    • Standart amino asitler için lookup ile elde edilebilen düşük enerjili conformer’lar kullanılırken, küçük moleküller için RDKit’s ETKDGv3 ile 3B conformer üretilir
    • conformer’ın göreli konumları, atom yükü, atom numarası ve tanımlayıcıları birleştirilerek atom düzeyinde single representation c oluşturulur
    • c ile atom düzeyinde pair representation p başlatılır ve yalnızca reference conformer’dan hesaplanan atomlar arası mesafeleri içermesi için mask v kullanılır
    • q, c’nin bir kopyası olarak başlar ve ardından Atom Transformer içinde güncellenir
  • Atom Transformer’ın rolü

    • Atom Transformer, atom düzeyinde attention gerçekleştiren bir modüldür; p ve özgün gösterim c kullanılarak q güncellenir
    • c güncellenmez; başlangıç gösterimine yönelen bir residual connection gibi kullanılır
    • Temel yapı transformer’a benzer biçimde LayerNorm, attention ve MLP transition içerir, ancak her adım c ve p’den gelen ek girdilerle ayarlanır
  • Adaptive LayerNorm

    • Adaptive LayerNorm, sabit gamma ve beta öğrenmek yerine yardımcı girdiden gamma ve beta üretir
    • Atom Transformer’da yeniden ölçeklenen hedef q’dur ve yeniden ölçekleme parametreleri yardımcı girdi c’den tahmin edilir
  • Pair Bias ile Attention

    • Pair bias içeren atom düzeyinde attention, self-attention’ın bir genişletmesidir
    • query, key ve value’nin tümü single representation q’dan gelir, ancak query-key dot product sonrasına bias olarak pair representation p’nin lineer projeksiyonu eklenir
    • Bilgi akışı pair representation’dan q’ya doğrudur, ancak bu adımda q bilgisiyle p güncellenmez
    • Ek bir projeksiyon sigmoid’den geçirilerek oluşturulan gate, attention sonucuyla çarpılır ve residual stream’de hangi bilginin kalacağını kontrol eder
    • Atom sayısı token sayısından çok daha fazla olabileceği için full attention yerine Sequence-local atom attention kullanılır
    • 32 atomluk bir local group, 128 başka atoma attend edebilir
  • Conditioned Gating ve Transition

    • Conditioned Gating, özgün atom düzeyindeki single matrix c’den üretilen gate’i veriye uygular
    • Conditioned Transition, transformer’daki MLP’nin karşılığıdır; Adaptive LayerNorm ve Conditional Gating, c’ye bağlı olduğu için conditioned olarak adlandırılır
    • AF3, transition block içinde ReLU yerine SwiGLU kullanır
    • AF2’nin ReLU tabanlı transition’ı 4 kat up-projection, ReLU ve down-projection yapısındadır
    • AF3’ün SwiGLU yapısında iki up-projection’dan birine swish doğrusal olmayanlığı uygulanır, ardından çarpılır ve down-project edilir

Atom gösterimlerinin token gösterimlerine toplanması

  • Gösterim öğrenme aşaması daha sonra token düzeyinde çalıştığı için, atom düzeyindeki gösterimler token düzeyindeki gösterimlere toplanır
  • atom-level representation daha büyük bir boyuta projection edildikten sonra, aynı token’a ait atomların ortalaması alınır
  • Bu ortalama toplama işlemi, standart amino asitler ve nükleotitler gibi bir token’a birden fazla atomun bağlı olduğu durumlarda uygulanır; atom başına 1 token olan girdiler ise olduğu gibi korunur
  • token düzeyindeki single girdiye MSA’dan elde edilen istatistikler de eklenir
    • amino asit türü
    • ilgili konumdaki MSA amino asit dağılımı
    • ilgili token’ın deletion mean değeri
  • ligand atomları gibi MSA’sı olmayan token’larda bu değerler 0 olur
  • Bu şekilde oluşturulan s_inputs, projection’dan geçirilerek s_init olur ve gösterim öğrenme aşamasında güncellenir
  • pair representation z_init, token çiftleri arasındaki ilişkileri saklayan 3 boyutlu bir tensördür ve her z_i,j, c_z=128 boyutlu bir vektördür
  • z_i,j başlatılırken s_i, s_j projeksiyonları, relative positional encoding ve kullanıcının belirttiği token’lar arası bağ bilgisi eklenir

Gösterim öğrenimi: Template, MSA, Pairformer

  • representation learning, model hesaplamasının büyük kısmını oluşturan trunk bölümüdür ve amacı token düzeyindeki single gösterim s ile pair gösterimi z’yi iyileştirmektir
  • single sequence representation, yalnızca tek bir protein dizisini değil, yapının içindeki tüm atom veya token’ların art arda bağlandığı sequence’i ifade eder
  • Template Module

    • Her template lineer projection’dan geçirilir ve pair representation z’nin lineer projeksiyonuyla toplanır
    • Birleştirilen matrix, Pairformer Stack içinden geçirilir
    • Birden fazla template sonucu ortalanır ve ardından yeniden lineer layer’dan geçirilir
    • Son lineer layer’da ReLU kullanılır; bu, AF3’te ReLU’nun doğrusal olmayanlık olarak kullanıldığı nadir yerlerden biridir
  • MSA Module

    • MSA Module, AF2’deki Evoformer’a çok benzer ve MSA representation m ile pair representation z’yi aynı anda iyileştirir
    • Tüm MSA row’ları kullanılmaz; önce subsampling yapılır, ardından single representation’ın projeksiyonu MSA’ya eklenir
    • Outer Product Mean, MSA bilgisini pair representation’a aktaran işlemdir
      • her token indeksi i,j için tüm evolutionary sequence’lerde m_s,i ile m_s,j’nin outer product’ı hesaplanır
      • bu değerler tüm sequence boyunca ortalanır, flatten edilir ve projection’dan geçirilerek z_i,j’ye eklenir
      • modelde evolutionary sequence’ler arasında bilginin paylaşıldığı tek noktadır
    • Yalnızca pair bias kullanan satır bazlı gated self-attention, pair representation’ı kullanarak MSA’yı günceller
      • attention score’u query ve key ile oluşturmak yerine, pair representation z bir matrix’e projection edilerek token’lar arası attention score’u olarak kullanılır
      • her MSA row’suna bağımsız biçimde uygulandığı için bu adımda evolutionary sequence’ler arasında bilgi paylaşılmaz
    • MSA module’ünün sonunda triangle update ve triangle attention ile pair representation yeniden güncellenir

Pairformer ve triangle işlemleri

  • z, template ve MSA ile güncellendikten sonra template ve MSA artık kullanılmaz; Pairformer'a yalnızca s ve z girilir
  • Pairformer, 48 blok tekrarıyla nihai s_trunk ve z_trunk üretir
  • triangle işlemlerinin sezgisi

    • triangle update ve triangle attention, üçgen eşitsizliği sezgisini modele yansıtmayı amaçlayan bir yapıdır
    • pair tensoründeki z_i,j doğrudan fiziksel mesafenin kendisi olmasa da, i ve j token'ları arasındaki ilişkiyi taşıdığı için i-j, j-k, i-k arasındaki üç ilişkinin birbiriyle tutarlı olacak şekilde güncellenmesini sağlar
    • üçgen eşitsizliği model içinde doğrudan zorlanmaz; bunun yerine tüm (i,j,k) üçlülerine bakılarak z_i,j güncellenmesi üzerinden dolaylı olarak teşvik edilir
    • z, directed adjacency matrix gibi düşünülebilir; bu yüzden outgoing edge ve incoming edge yönleri ayrı işlenir
  • Triangle Updates

    • outgoing update'te her z_i,j, aynı satırdaki başka bir öğe olan z_i,k ve üçüncü edge z_j,k kullanılarak güncellenir
    • uygulamada z için üç projection a, b, g oluşturulur; ardından i satırı ve j satırının element-wise multiplication sonucu k boyunca toplanır ve sonrasında gate g uygulanır
    • incoming update, satır ve sütunun yer değiştirmiş hali olup z_i,j aynı sütundaki başka öğeler z_k,j ve z_k,i üzerinden güncellenir
  • Triangle Attention

    • triangle attention, 2D matrisin satır ve sütunlarına bağımsız attention uygulayan axial attention'a triangle ilkesinin eklenmiş halidir
    • “starting node” durumunda, z_i,j ile z_i,k arasındaki query-key karşılaştırmasına bias olarak z_j,k eklenir
    • “ending node” durumunda işlem sütun bazında yürür ve z_i,j ile z_k,i arasındaki attention score, z_k,j ile bias'lanır
  • Single Attention with Pair Bias

    • triangle adımı ve transition block'tan sonra, single representation s, güncellenmiş pair representation z kullanan single attention with pair bias ile güncellenir
    • token düzeyinde çalıştığı için atom düzeyinde kullanılan block-wise sparse attention yerine full attention kullanılır

Yapı tahmini: atom koordinatlarını diffusion ile denoising

  • diffusion modelinin temel çalışma biçimi

    • AF3, nihai yapı tahminini atom-level diffusion ile yapar
    • diffusion model, gerçek veriye aşamalı olarak random noise ekler ve model, hangi noise'un eklendiğini tahmin edecek şekilde eğitilir
    • inference sırasında tamamen random noise'tan başlanır; modelin her adımda tahmin ettiği noise kaldırılarak denoised veri noktası üretilir
    • koşullu diffusion, mevcut noisy generation, mevcut timestep gösterimi ve koşul vektörünü girdi olarak alıp koşula uygun sonuç üretir
    • AF3'te denoising hedefi, tüm atomların x,y,z koordinatlarını içeren x matrisidir
  • AF2'nin IPA'sı yerine rotation ve translation augmentation

    • AF3, AF2'nin Invariant Point Attention'ını kullanmaz; bunun yerine her timestep'te tahmin edilmekte olan tüm kompleksi rastgele rotation ve translation'a tabi tutar
    • bu augmentation, modelin her türlü rotation ve translation'ın aynı yapı için geçerli olduğunu öğrenmesini sağlar ve AF2'nin IPA'sından daha basit bir yaklaşımdır
    • rotation, mevcut generation'daki tüm atom koordinatlarının ortalaması merkez alınarak uygulanır; translation ise her boyutta N(0,1) Gaussian'dan örneklenir
    • koordinatlara küçük miktarda noise da eklenerek daha çeşitli generation'lar teşvik edilir
    • inference sırasında birden fazla generation confidence head ile puanlanabilir ve en yüksek puanlı generation döndürülebilir
  • Diffusion Module'ün dört aşaması

    • her denoising adımı birden fazla conditioning representation kullanır
      • trunk çıktıları s_trunk, z_trunk
      • input embedder'ın oluşturduğu ilk gösterimler s_inputs, c_inputs
    • diffusion süreci token ve atom uzayı arasında gidip gelerek dört aşamadan oluşur
        1. token-level conditioning tensorünün hazırlanması
        1. atom-level conditioning tensorünün hazırlanması, Atom Transformer'ın uygulanması ve token düzeyine agregasyon
        1. token-level attention uygulanması
        1. atom-level attention ile atom başına noise update tahmini
    • token-level conditioning aşamasında z_trunk, relative positional encoding ile birleştirilir ve transition block'tan geçirilir
    • single representation için s_inputs ile s_trunk birleştirilir ve diffusion timestep'ine karşılık gelen Fourier embedding eklenir
    • atom-level aşamada ilk c ve p, mevcut token-level representation ile güncellenir; mevcut koordinatlar x ise data variance ile ölçeklenerek boyutsuz koordinat r elde edilir
    • son atom-level aşamada linear layer, q'yu R^3'e map ederek tüm atomlar için coordinate update r_update üretir
    • bu update, data variance ve noise schedule dikkate alınarak x_update olarak yeniden ölçeklendirilir ve mevcut koordinat x_l üzerine uygulanır

Kayıp fonksiyonu ve confidence head

  • toplam loss, üç terimin ağırlıklı toplamıdır

L_loss = L_distogram * α_distogram + L_diffusion * α_diffusion + L_confidence * α_confidence

  • L_distogram

    • L_distogram, token düzeyinde tahmin edilen distogramın doğruluğunu değerlendirir
    • Atom koordinatlarından token koordinatları oluşturulurken her tokenın merkez atom koordinatı kullanılır
    • Distogram uzaklığı kategorik bir değer olarak ele alınır ve tahmin edilen distogram ile gerçek distogram cross entropy ile karşılaştırılır
  • L_diffusion

    • L_diffusion, atom konumlarını hedefleyen birden fazla terimin ağırlıklı toplamıdır
    • L_MSE, merkez atom değil tüm atomlar için konumlar arasındaki mean squared error'u hesaplar; DNA, RNA ve ligand atomları daha yüksek ağırlıklandırılır
    • L_bond, protein-ligand bağına dahil olan atom çiftlerinde bağ uzunluğu doğruluğunu artırmak için ek bir MSE terimidir
    • İlk eğitim aşamasında α_bond=0 olduğundan daha sonra devreye alınır
    • L_smooth_LDDT, yerel mesafe doğruluğunu yumuşak ve türevlenebilir hale getiren bir loss'tur
      • 4Å, 2Å, 1Å ve 0.5Å olmak üzere dört eşik kullanılır
      • Nükleotid atom çiftleri 30Å'den uzaktaysa yok sayılır
      • Protein veya ligand atom çiftleri 15Å'den uzaktaysa yok sayılır
  • L_confidence

    • L_confidence, yapı doğruluğunu doğrudan artırmaktan çok, modelin kendi tahminlerinin doğruluğunu kestirmeyi öğrenmesini sağlar
    • Dört confidence metriğine karşılık gelen loss'lardan oluşur
      • pLDDT: yakın atomlar için yerel mesafe doğruluğu
      • PAE: token çiftinin predicted alignment error'u
      • PDE: token çiftleri arasındaki predicted distance error
      • experimentally resolved prediction: her atomun deneysel yapıda resolve edilip edilmediğinin tahmini
    • Tahmin edilen yapı hatalı olup PAE yüksek olsa bile, model PAE'nin de yüksek olacağını doğru tahmin ederse ilgili PAE loss'u düşebilir
    • Confidence prediction, diffusion'un ara aşamalarında üretilir
    • Confidence loss'un gradient'i yalnızca confidence prediction head'i günceller, modelin geri kalanını etkilemez

Ek eğitim teknikleri ve verimlilik

  • Recycling

    • AF3, AF2 gibi weight recycling kullanır
    • Modeli daha derin hale getirmek yerine aynı weight'leri birden çok kez yeniden kullanarak temsilini kademeli olarak iyileştirir
    • Diffusion da inference sırasında timestep bilgisini kullanır ve aynı weight'leri her timestep'te yeniden kullandığı için recycling'i doğal olarak içerir
  • Cross-distillation

    • AF3, yalnızca kendi ürettiği synthetic training data'yı değil, AF2 ve AF-Multimer'ın ürettiği synthetic data'yı da kullanır
    • Diffusion tabanlı generation'a geçildikten sonra, AF2'de düşük güvenli ve düzensiz bölgeleri görsel olarak ayırt etmeyi sağlayan “spaghetti” biçiminin ortadan kalkması bir sorun olmuştu
    • AF2 ve AF-Multimer generation'larını AF3 eğitim verisine dahil ederek, AF2'nin emin olamadığı bölgelerde unfolded region üretme yaklaşımını AF3'ün öğrenmesi sağlanır
    • Distillation veri kümesinde, AF2 ve AF-Multimer'ın işleyemediği nükleik asitler ve küçük moleküller çıkarılır
    • Önceki modeller tahmini yapıyı oluşturup ardından orijinal yapı ile alignment yapınca, çıkarılmış moleküller tekrar eklenir
    • Yeniden eklenen moleküller atom clash oluşturuyorsa tüm yapı hariç tutulur; böylece modelin clash'lere izin vermeyi öğrenmesi önlenir
  • Cropping ve eğitim aşamaları

    • Modelin kendisinde giriş dizi uzunluğu için açık bir sınır yoktur, ancak birçok işlem N_tokens^3 ölçeğinde arttığı için bellek ve hesaplama gereksinimi büyür
    • Verimlilik için proteinler random crop uygulanarak kırpılır
    • Birden fazla chain arasındaki etkileşimi modellemek gerektiğinden, crop işlemi chain'leri birlikte içermelidir
    • Üç kırpma yöntemi kullanılır
      • contiguous cropping: her chain'den ardışık amino asit dizileri seçilir
      • spatial cropping: referans atoma olan uzaklığa göre amino asitler seçilir
      • spatial interface cropping: bağlanma arayüzündeki atomlara olan uzaklığa göre seçim yapılır
    • Random crop 384 ile eğitilen model daha uzun dizilere uygulanabilse de, daha uzun dizileri işleme yeteneğini artırmak için daha büyük dizi uzunluklarıyla tekrar tekrar fine-tune edilir
  • Clashing ve batch size

    • AF3 loss'unda üst üste binen atomlar için clash penalty bulunmaz
    • Diffusion tabanlı structure module teorik olarak iki atomu aynı konumda tahmin edebilir, ancak eğitimden sonra bu sorun küçüktür
    • Üretilen yapıların sıralanmasında clashing penalty kullanılır
    • Diffusion süreci karmaşık görünse de trunk'a kıyasla hesaplama maliyeti daha düşüktür
    • Eğitim verimliliği için trunk sonrasında batch size büyütülür
    • Her giriş yapısı embedding ve trunk'tan bir kez geçer; ardından data augmentation uygulanmış 48 bağımsız yapı paralel olarak eğitilir

ML bakış açısından AF3 tasarımı

  • Retrieval-Augmented Generation'a benzer yapı

    • AF3'ün MSA ve template araması, dil modellerindeki RAG ile benzer bir karakter taşır
    • AlphaFold alanında yapı template'lerini kullanma yaklaşımı, RAG teriminden çok daha önce homology modeling olarak kullanılıyordu
    • AF3, AF2'ye kıyasla MSA işleme ağırlığını azaltmış olsa da MSA ve template'leri hâlâ içerir
    • ESMFold gibi bazı protein tahmin modelleri retrieval'ı kaldırıp fully parametric inference kullanır
  • Pair-Bias Attention

    • AF2'nin ana bileşenlerinden biri olan Pair-Bias Attention, AF3'te daha geniş ölçüde kullanılır
    • query, key ve value aynı kaynaktan gelir, ancak attention map'e başka bir kaynaktan gelen bir bias terimi eklenir
    • Bu, full cross-attention'a göre daha hafif bir bilgi paylaşımı yöntemidir
    • pair representation, attention map ile doğal olarak benzerlik taşıdığı için bu yapı protein modellemeye iyi uyuyor olabilir
  • Self-supervised training'in küçülen rolü

    • ESM ailesi modeller, self-supervised pre-training ile MSA embedding'in yerini alma yaklaşımında güçlü yönler gösterdi
    • AF2'de MSA'nin masked token'ını tahmin eden ek bir görev vardı, ancak AF3'te bu kaldırıldı
    • AF3, MSA işleme compute'unu azalttı ve MSA için self-supervised language modeling pre-training kullanmıyor
    • Bunun olası nedenleri; massive pre-training'in compute kullanımı açısından verimsiz olması, küçük bir MSA modülünün pre-trained embedding'den daha iyi olması ya da amino asit·DNA/RNA·ligand karışımı hibrit atom-token yapısının pre-trained embedding ile iyi uyuşmaması olabilir
  • Classification ve Regression karışımı

    • AF3, AF2'de olduğu gibi MSE ile binned classification loss'u birlikte kullanır
    • classification loss'un bir özelliği, distogram bin'i yalnızca bir tane yanlış tahmin etseniz bile bunun çok uzaktaki bir hatayla aynı şekilde credit sağlamamasıdır
    • Bu tasarım seçiminin gerekçesi net değil, ancak birden fazla MSE loss'a kıyasla gradient'in daha stabil olmasını sağlamış olabilir
  • recurrent architecture'ı andıran öğeler

    • AF3'te, standart transformer'lardan çok recurrent network'leri çağrıştıran birçok öğe bulunur
    • gating, residual stream içindeki bilgi akışını kontrol eder ve LSTM ya da GRU gate'lerine benzer
    • recycling ve diffusion, aynı weight'leri tekrar tekrar uygulayarak tahmini kademeli biçimde iyileştirir
    • adaptive compute time'a benzer şekilde, yinelemeli güncellemeler zor girdilere daha fazla işlem uygulanabilen yapılarla ilişkilidir
    • AF2 ablation çalışmalarında recycling'in önemi ortaya çıkmıştı, ancak gating'in önemi hakkında fazla tartışma olmadı

Henüz yorum yok.

Henüz yorum yok.