- SimpleFold, Apple'ın duyurduğu ilk flow-matching tabanlı protein katlanması tahmin modeli ve aynı zamanda protein yapı tahmini için açık kaynaklı bir framework
- Mevcut karmaşık alan-özel tasarımlar yerine yalnızca genel amaçlı Transformer katmanları ve flow-matching üretici eğitimi ile yüksek performans elde ediyor
- 3B (3 milyar) parametre ile eğitildi; bugüne kadarki en büyük ölçeklerden birine sahip ve herkese açık benchmark'larda SOTA (en ileri seviye) modellerle rekabetçi sonuçlar gösteriyor
- Karmaşık yapısal modüller (triangle attention, pair representation vb.) olmadan verimli çalışıyor ve büyük veri kümelerine ölçeklenmeye daha uygun
- Kullanıcıya özel verilerle model ince ayarı ve yeniden eğitim mümkün olduğundan biyoinformatik, ilaç geliştirme gibi farklı uygulamalarda kullanım değeri yüksek
SimpleFold'a giriş ve önemi
- SimpleFold, Apple'ın tanıttığı ilk flow-matching tabanlı protein katlanması tahmin modelidir
- Mevcut önde gelen modellerden farklı olarak, karmaşık triangle attention ya da pair representation bias kullanmadan yalnızca genel amaçlı Transformer katmanları kullanır
- Üretici flow-matching hedefiyle eğitildiği için tekil yapılandırmalarda olduğu kadar ensemble tahminlerinde de güçlü performans gösterir
- En fazla 3B parametre ölçeğine kadar büyütülmüş; 8,6 milyondan fazla protein verisi ile deneysel PDB verilerini birleştirerek büyük ölçekli eğitim yapılmıştır
- Bu, şu ana kadar duyurulan en büyük protein katlanması modellerinden biridir
Başlıca özellikler ve avantajlar
- Genellik: Kısıt olmadan farklı alanlara ve veri kümelerine uygulanabilir
- Verimlilik: Karmaşık alan-özel bileşenler olmadığından eğitim ve çıkarım hızı ile model boyutu açısından avantajlıdır
- Ölçeklenebilirlik: 100M'den 3B'ye kadar farklı boyutlar sunar; GPU ve MLX (PyTorch/Apple donanımı) desteği vardır
- Üretici eğitim: Birden fazla tahmin sonucunu aynı anda üreten ensemble tahminini destekler
- Kullanıcı verisi desteği: Kendi veri kümenizle yeniden eğitim, ince ayar ve özelleştirilmiş kullanım mümkündür
Kullanım örnekleri ve desteklenenler
- Jupyter Notebook örneği (
sample.ipynb) sunulur; gerçek protein dizileri girilerek doğrudan yapı tahmini yapılabilir
- Yüksek performanslı çıkarım: Komut satırı arayüzünde model boyutu seçilebilir, çıkarım backend'i (MLX, PyTorch) belirtilebilir; sonuç dosyaları ve güven skoru metriği (pLDDT) alınabilir
- Benchmark veri kümesi sonuçları: Standart değerlendirme setlerinde (CAMEO22, CASP14 vb.) üretilen SimpleFold tahmin sonuçları paylaşılmış ve açık hale getirilmiştir
- Değerlendirme: OpenStructure ve TMscore gibi mevcut araçlarla entegre değerlendirme script'leri sunulur; farklı yapı tahmin değerlendirmeleri yapılabilir
Eğitim ve veri hazırlığı
- Eğitim verisi olarak PDB deneysel verileri ile AFDB SwissProt/AFESM/AFESM-E dahil 8,6 milyondan fazla arıtılmış protein yapısı kullanılmıştır
- Veri listeleri (target list) ve örnek dosyalar da yayımlanarak araştırmacıların kendi ihtiyaçlarına uygun veri kümeleri kurmasına destek verilir
- MMCIF dosya ön işleme, Redis kullanımı ve Hydra tabanlı yapılandırma dosyaları ile deney ortamı kolayca kurulabilir
- Örnek eğitim script'leri (
train.py, train_fsdp.py) ve yapılandırmalar (config) sağlanır
Açık kaynak ve atıf
- MIT lisansı ile yayımlanmıştır; araştırma ve ticari kullanımda serbestçe kullanılabilir
- Kod ve modeller, çeşitli açık kaynak projeler ve katkı sağlayanların çalışmalarını içerir; ayrıntılar için ACKNOWLEDGEMENTS bölümüne bakılması gerekir
- Kullanım durumunda arXiv makalesine atıf yapılmalıdır: Arxiv:2509.18480
Sonuç
- SimpleFold, protein yapı tahmininde mevcut modellerin dayandığı karmaşık mimariler yerine, basit ama güçlü bir yaklaşımla sektöre yeni bir paradigma sunuyor
- Özellikle genel amaçlı Transformer mimarisi ile üretici eğitimin birleşimi sayesinde yaşam bilimleri, ilaç keşfi ve biyoinformatik gibi alanlarda çeşitli yaratıcı uygulamalar için güçlü bir potansiyel taşıyor
1 yorum
Hacker News görüşleri
Burada gözden kaçırılması kolay nokta, "basit" modelin aslında katlanmayı doğrudan deneysel yapılardan öğrenmemiş olması. Eğitim verisinin büyük kısmı AlphaFold tarzı tahminlerden geliyor; bunlar da zaten büyük, MSA tabanlı ve karmaşık biçimde tasarlanmış modellerin ürettiği milyonlarca protein yapısından oluşuyor. Yani tüm tümevarımsal önyargıları ve MSA araçlarını çöpe atamıyoruz; birilerinin o modelleri kurup çalıştırarak eğitim verisini üretmiş olması gerekiyordu
Benim buradan çıkardığım ders sadelik ve ölçeklenebilirlik. Makine öğrenmesi alanında performansı artırmak için giderek daha karmaşık modüller ortaya çıkıyor, sonra bir anda basit bir modelin karmaşık modellerle boy ölçüşebildiği bir atılım geliyor. Bu tür "basit" mimarilerin kendi başına bu kadar iyi çalışması, yeniden karmaşıklık eklenerek daha da ileri gidilebileceği anlamına da geliyor. Şimdi MSA'yı tekrar eklemenin mümkün olup olmadığını ve bunun nereye kadar gidebileceğini merak ediyorum. Benim anladığım kadarıyla, "kaba" üretici model birkaç makul tahmin ortaya koyuyor, daha resmi "doğrulayıcılar" ise bunların fizik/geometri kurallarına uymasını sağlıyor. Yapay zeka, akıl almaz derecede büyük arama uzayını daraltarak pahalı simülasyonların işe yaramaz yerlerde boşa harcanmasını azaltıyor. Tahmin ağı iyileştikçe tüm süreç hızlanıyor. Geriye bakınca giderek daha karmaşık transfer fonksiyonlarına sahip tekrarlayan ağlar, skip-forward katmanlarından önceki karmaşık ön işleme zincirleri, ReLU öncesi karmaşık normalizasyon hedefleri, diffusion öncesi karmaşık amaçlı GAN ağları, tam evrişimli ağlardan önceki karmaşık çok geçişli modeller aklıma geliyor. Bu açıdan bu çalışmadan çok heyecan duyuyorum; optimal mimari olduğu için değil, tam tersine muhtemelen olmadığı için
Bunun o kadar da tuhaf bir şey olduğundan emin değilim. Neredeyse bütün basit şeyler bir zamanlar karmaşık sanılıyordu. Ortaya çıkış dediğimiz şey tam olarak bu ve genelde genelleşmiş, basit bir formül bulmak için önce tüm karmaşıklığın içinden geçmek gerekiyor. Doğadaki olayların da aslında görece basit kurallardan çıktığı açık. Bir bakıma Game of Life'ta kuralları ve başlangıç değerlerini tersten tahmin etmeye benziyor. Bunun kolay olduğunu söyleyen biri aşırı özgüvenlidir. Ama gerçekten P=NP olduğuna inanan da pek kimse yoktur
AlphaFold, X-ışınıyla katlanmış proteinleri deneysel olarak gözlemleyip doğrulayan bir modeldi
Evet. Bilmeyenler için söyleyeyim, MSA mevcut PDB yapılarından yeni dizilere genelleme yapmak için kullanılıyor. AlphaFold2 çıktılarıyla eğitirseniz, bu genellemenin sonucu zaten eğitimin içine gömülmüş oluyor; dolayısıyla modelin artık o yeteneğe ihtiyacı kalmıyor. Bir bakıma sadece ezberlemesi yetiyor. Bu basit sonuç sanki makalenin yazarlarının gözünden kaçmış gibi
Üniversite yurdunda elektriğin neredeyse bedava olduğu ve medya sunucularının boşta durduğu zamanlarda Folding@Home(https://foldingathome.org) projesi sayesinde protein katlanmasıyla ilk kez tanışmıştım. Uzman değilim ama günümüz donanımında protein katlanmasının geçmişe göre gerçekten çok daha basitleşip basitleşmediğini, yoksa bunun sadece belirli problemlere mi uygulandığını merak ediyorum. Görünüşe göre Folding@Home projesi hâlâ var
Bildiğim kadarıyla Folding@Home fizik tabanlı bir simülasyon çözücüsüydü; AlphaFold ve onun ardıllarıysa (buradaki de dahil) istatistiksel yöntemler. İstatistiksel yöntemler hesaplama açısından çok daha ucuz ama mevcut protein katlanmalarına dayandıkları için, eğitim kümesine benzemeyen proteinlerde tahmin güçleri daha zayıf oluyor. Yani hız ile genellik arasında bir ödünleşim var ama performans o kadar arttı ki istediğiniz proteinin katlanma yapısını çoğu zaman çıkarabiliyorsunuz. Eskiden neredeyse imkânsız olan katlanma tahmini artık sıradan iş akışının bir parçası oldu
SETI@Home'u da severdim; sonucun ne olduğunu yüzde 100 bilmesem de görselleştirmeleri belirgin olduğu için keyifliydi
F@H blog yazısına göre (bağlantı), sadece son katlanmış biçimi değil, katlanma dinamiklerini bilmek de hâlâ önemli. ML ile tahmin edilen proteinler de simülasyonların doğrulanması ve nasıl çalıştıklarının anlaşılması için önemli hedefler olmaya devam ediyor
Folding@Home hâlâ çok aktif ve bu süre içinde birçok önemli keşif yaptı (makaleler/sonuçlar bağlantısı)
Makalenin iddiası şu: "Yöntemimiz son teknoloji modellerden daha basit." Ama "tüm ölçütlerde son teknolojinin belirgin şekilde gerisinde kalıyor" kısmını pek yüksek sesle söylemiyor. Makale yayımlatmak zaten zor ama büyük bir şirket adıyla preprint yükleyince daha çok dikkat çekiyor gibi
Bu yazıda bağlantısı verilen GitHub deposuna mutlaka bakmaya değer (arXiv bağlantısı)
Sadece özete bakınca bile (doğru anladıysam) söylenen şey şu: "Yine AI gerekiyor ama diğer yöntemlere kıyasla çok daha az AI ile idare edilebiliyor"
GitHub bağlantısını da ilgilenenler için paylaşayım (apple/ml-simplefold)
Apple'ın neden protein katlanmasıyla uğraştığını merak ediyorum
Apple'ın da bir ML araştırma grubu var. Sadece Apple'a özgü araştırmalar değil, genel amaçlı optimizasyon ve temel araştırma gibi çeşitli temalarda da çalışıyorlar (Apple Machine Learning Research)
Ben de bilmiyorum. Ama doğrudan gelir üretmesi gerekmeyen Ar-Ge pozisyonlarına başvurmak isterdim. Belki de bu tür projeler kendi AI çiplerini test etmek ve iyileştirmek için kullanılıyordur
Bunun yerel çıkarım için olduğunu düşünüyorum. Apple sanki bu tür son teknoloji modelleri küçültüp masaüstünde hızlı çıkarım yapabilir hale getirmek istiyor. Makalede de Figure 1E'de M2 Max 64GB üzerinde çıkarım sonucu gösteriliyor. Aslında bu harika bir fikir. Küçük biyoteknoloji şirketleri bile hızlı yerel çıkarım sayesinde birçok engeli daha kolay aşabilir. Üretilen dizilerle Bayesçi optimizasyon ya da RL de denenebilir. Buna karşılık AlphaFold oldukça fazla kaynak istiyor. Ayrıca çoklu dizi hizalamasının kullanımı da biraz zorlama; benzer proteinler olmadığında performans düşüyor ve ön işleme de çok fazla ihtiyaç duyuyor. Meta'nın ESM'i de birkaç yıl önce hizalama olmadan da iyi çalışabildiğini göstermişti. AlphaFold'un özel bir sihri yok, sonuçta bu bir seq2seq problemi ve bu yüzden attention-free SSMs dahil birçok yaklaşım işe yarıyor
Bilgisayar satmak için mi? 20 yıl önce bile Apple, WWDC'de bilimsel poster oturumları yapıyor ve Mac'e PyMol taşımaya uğraşıyordu. Makaledeki protein görselleri PyMol ile yapılmış ve son 15 yılda bilimsel makale görsellerinin yarısından fazlası PyMol ile oluşturuldu
Asıl neden bu mu bilmiyorum ama "science için AI" projelerinin önemli bir kısmı aslında pazarlama amaçlı. Şirket ürünlerine doğrudan fayda sağlamasa ya da somut sonuç üretmese bile, bu tür projeler "marka prestiji" açısından oldukça olumlu etki yaratıyor
AlphaFold yayımlandıktan sonra klasik moleküler dinamik (MD) simülasyonlarının protein katlanması alanında artık işe yaramaz hale gelip gelmediğini merak ediyorum. DESRES gibi yerlerden çıkan çalışmalar protein katlanmasıyla doğrudan bağlantılı mı, yoksa tamamen başka şeylerle mi uğraşıyorlar?
MD atomların hareketiyle ilgilenir, AlphaFold ise sadece sonuç anlık görüntüsünü verir. Yani AlphaFold dinamiklerle ilgilenmez. MD'nin özü hâlâ harekettir
AlphaFold V3 parametrelerinin sadece belirli kurumlara verildiğini (yalnızca ticari olmayan kullanım için) ve herkesin erişemediğini görünce merak edip baktım (V3 parametreleri); buna karşılık AlphaFold V2 herkes tarafından indirilebiliyor (V2 parametreleri)
MD aslında hiçbir zaman yapı tahmini için gerçekten uygun bir yöntem değildi. AlphaFold yüzünden işlevsiz hale gelmesinden çok, MD baştan beri protein katlanmasının kendisini, yani son yapının oluşmasından önceki süreci ya da katlandıktan sonraki sistematik hareketleri incelemek için daha uygundu
Makaledeki protein görselinin ne olduğunu merak edip baktım: "Figure 1 SimpleFold tahmin sonuçları… gerçek sonuç parlak zümrüt yeşili, tahmin koyu turkuaz." Ama neden böyle bir renk kombinasyonu seçtiklerini daha çok merak ettim
Keşke bu yaklaşımın protein katlanması araştırmaları açısından ne anlama geldiğini bir uzman değerlendirse. Güzel bir çalışma gibi görünüyor ama pratikte ne kadar etkili olduğunu kestiremiyorum
Bu model temsili olarak basit; yalnızca transformer kullanıyor. Transformer'lar için geliştirilen teori ve araçları doğrudan kullanabiliyorsunuz ve en önemlisi modeli ölçeklemek kolaylaşıyor. Bundan da önemlisi, AlphaFold'da sihirli bir şey olmadığının görülmesi. Asıl belirleyici olan mimari ya da eğitim ayrıntılarından ziyade, büyük bir veri kümesi üzerinde büyük bir model eğitmekti. AlphaFold'u deneysel olarak kullanan birçok kişi, onun da LLM'lere benzer şekilde çalıştığını gözlemledi: eğitim verisine benzeyen girdilerde iyi ama genelleme konusunda pek güçlü değil
Gelecekte modellerde değişiklikler olabilir. Birinin görüşü fikir verebilir (SimpleFold ve protein yapı tahmininin geleceği). Ama araştırma her zaman zaman alır; gerçek etkiyi görmek için aylar, hatta yıllar gerekir. Geleceğe dair tahminler sınırlıdır
Tamamen yeni değil ama protein katlanma modellerinin giderek sadeleşmesi gerçekten çok etkileyici. AF2'den AF3'e geçerken de model karmaşıklığı azalmıştı; bu çalışma da o akışta bir adım daha ileri gidip 'bitter lesson' yaklaşımını uyguluyor
Makaledeki Flow-matching tekniği gerçekten çok ilginç. Üretken yapay zeka bağlamında öğrenirken karşıma çıkmıştı; termodinamik kavramlar ve Brown hareketinden ödünç alınan bir yöntemin dönüp protein katlanması sorununa bu kadar iyi uyması hayranlık verici