2 puan yazan GN⁺ 2025-09-27 | 1 yorum | WhatsApp'ta paylaş
  • SimpleFold, Apple'ın duyurduğu ilk flow-matching tabanlı protein katlanması tahmin modeli ve aynı zamanda protein yapı tahmini için açık kaynaklı bir framework
  • Mevcut karmaşık alan-özel tasarımlar yerine yalnızca genel amaçlı Transformer katmanları ve flow-matching üretici eğitimi ile yüksek performans elde ediyor
  • 3B (3 milyar) parametre ile eğitildi; bugüne kadarki en büyük ölçeklerden birine sahip ve herkese açık benchmark'larda SOTA (en ileri seviye) modellerle rekabetçi sonuçlar gösteriyor
  • Karmaşık yapısal modüller (triangle attention, pair representation vb.) olmadan verimli çalışıyor ve büyük veri kümelerine ölçeklenmeye daha uygun
  • Kullanıcıya özel verilerle model ince ayarı ve yeniden eğitim mümkün olduğundan biyoinformatik, ilaç geliştirme gibi farklı uygulamalarda kullanım değeri yüksek

SimpleFold'a giriş ve önemi

  • SimpleFold, Apple'ın tanıttığı ilk flow-matching tabanlı protein katlanması tahmin modelidir
  • Mevcut önde gelen modellerden farklı olarak, karmaşık triangle attention ya da pair representation bias kullanmadan yalnızca genel amaçlı Transformer katmanları kullanır
  • Üretici flow-matching hedefiyle eğitildiği için tekil yapılandırmalarda olduğu kadar ensemble tahminlerinde de güçlü performans gösterir
  • En fazla 3B parametre ölçeğine kadar büyütülmüş; 8,6 milyondan fazla protein verisi ile deneysel PDB verilerini birleştirerek büyük ölçekli eğitim yapılmıştır
  • Bu, şu ana kadar duyurulan en büyük protein katlanması modellerinden biridir

Başlıca özellikler ve avantajlar

  • Genellik: Kısıt olmadan farklı alanlara ve veri kümelerine uygulanabilir
  • Verimlilik: Karmaşık alan-özel bileşenler olmadığından eğitim ve çıkarım hızı ile model boyutu açısından avantajlıdır
  • Ölçeklenebilirlik: 100M'den 3B'ye kadar farklı boyutlar sunar; GPU ve MLX (PyTorch/Apple donanımı) desteği vardır
  • Üretici eğitim: Birden fazla tahmin sonucunu aynı anda üreten ensemble tahminini destekler
  • Kullanıcı verisi desteği: Kendi veri kümenizle yeniden eğitim, ince ayar ve özelleştirilmiş kullanım mümkündür

Kullanım örnekleri ve desteklenenler

  • Jupyter Notebook örneği (sample.ipynb) sunulur; gerçek protein dizileri girilerek doğrudan yapı tahmini yapılabilir
  • Yüksek performanslı çıkarım: Komut satırı arayüzünde model boyutu seçilebilir, çıkarım backend'i (MLX, PyTorch) belirtilebilir; sonuç dosyaları ve güven skoru metriği (pLDDT) alınabilir
  • Benchmark veri kümesi sonuçları: Standart değerlendirme setlerinde (CAMEO22, CASP14 vb.) üretilen SimpleFold tahmin sonuçları paylaşılmış ve açık hale getirilmiştir
  • Değerlendirme: OpenStructure ve TMscore gibi mevcut araçlarla entegre değerlendirme script'leri sunulur; farklı yapı tahmin değerlendirmeleri yapılabilir

Eğitim ve veri hazırlığı

  • Eğitim verisi olarak PDB deneysel verileri ile AFDB SwissProt/AFESM/AFESM-E dahil 8,6 milyondan fazla arıtılmış protein yapısı kullanılmıştır
  • Veri listeleri (target list) ve örnek dosyalar da yayımlanarak araştırmacıların kendi ihtiyaçlarına uygun veri kümeleri kurmasına destek verilir
  • MMCIF dosya ön işleme, Redis kullanımı ve Hydra tabanlı yapılandırma dosyaları ile deney ortamı kolayca kurulabilir
  • Örnek eğitim script'leri (train.py, train_fsdp.py) ve yapılandırmalar (config) sağlanır

Açık kaynak ve atıf

  • MIT lisansı ile yayımlanmıştır; araştırma ve ticari kullanımda serbestçe kullanılabilir
  • Kod ve modeller, çeşitli açık kaynak projeler ve katkı sağlayanların çalışmalarını içerir; ayrıntılar için ACKNOWLEDGEMENTS bölümüne bakılması gerekir
  • Kullanım durumunda arXiv makalesine atıf yapılmalıdır: Arxiv:2509.18480

Sonuç

  • SimpleFold, protein yapı tahmininde mevcut modellerin dayandığı karmaşık mimariler yerine, basit ama güçlü bir yaklaşımla sektöre yeni bir paradigma sunuyor
  • Özellikle genel amaçlı Transformer mimarisi ile üretici eğitimin birleşimi sayesinde yaşam bilimleri, ilaç keşfi ve biyoinformatik gibi alanlarda çeşitli yaratıcı uygulamalar için güçlü bir potansiyel taşıyor

1 yorum

 
GN⁺ 2025-09-27
Hacker News görüşleri
  • Burada gözden kaçırılması kolay nokta, "basit" modelin aslında katlanmayı doğrudan deneysel yapılardan öğrenmemiş olması. Eğitim verisinin büyük kısmı AlphaFold tarzı tahminlerden geliyor; bunlar da zaten büyük, MSA tabanlı ve karmaşık biçimde tasarlanmış modellerin ürettiği milyonlarca protein yapısından oluşuyor. Yani tüm tümevarımsal önyargıları ve MSA araçlarını çöpe atamıyoruz; birilerinin o modelleri kurup çalıştırarak eğitim verisini üretmiş olması gerekiyordu

    • Benim buradan çıkardığım ders sadelik ve ölçeklenebilirlik. Makine öğrenmesi alanında performansı artırmak için giderek daha karmaşık modüller ortaya çıkıyor, sonra bir anda basit bir modelin karmaşık modellerle boy ölçüşebildiği bir atılım geliyor. Bu tür "basit" mimarilerin kendi başına bu kadar iyi çalışması, yeniden karmaşıklık eklenerek daha da ileri gidilebileceği anlamına da geliyor. Şimdi MSA'yı tekrar eklemenin mümkün olup olmadığını ve bunun nereye kadar gidebileceğini merak ediyorum. Benim anladığım kadarıyla, "kaba" üretici model birkaç makul tahmin ortaya koyuyor, daha resmi "doğrulayıcılar" ise bunların fizik/geometri kurallarına uymasını sağlıyor. Yapay zeka, akıl almaz derecede büyük arama uzayını daraltarak pahalı simülasyonların işe yaramaz yerlerde boşa harcanmasını azaltıyor. Tahmin ağı iyileştikçe tüm süreç hızlanıyor. Geriye bakınca giderek daha karmaşık transfer fonksiyonlarına sahip tekrarlayan ağlar, skip-forward katmanlarından önceki karmaşık ön işleme zincirleri, ReLU öncesi karmaşık normalizasyon hedefleri, diffusion öncesi karmaşık amaçlı GAN ağları, tam evrişimli ağlardan önceki karmaşık çok geçişli modeller aklıma geliyor. Bu açıdan bu çalışmadan çok heyecan duyuyorum; optimal mimari olduğu için değil, tam tersine muhtemelen olmadığı için

    • Bunun o kadar da tuhaf bir şey olduğundan emin değilim. Neredeyse bütün basit şeyler bir zamanlar karmaşık sanılıyordu. Ortaya çıkış dediğimiz şey tam olarak bu ve genelde genelleşmiş, basit bir formül bulmak için önce tüm karmaşıklığın içinden geçmek gerekiyor. Doğadaki olayların da aslında görece basit kurallardan çıktığı açık. Bir bakıma Game of Life'ta kuralları ve başlangıç değerlerini tersten tahmin etmeye benziyor. Bunun kolay olduğunu söyleyen biri aşırı özgüvenlidir. Ama gerçekten P=NP olduğuna inanan da pek kimse yoktur

    • AlphaFold, X-ışınıyla katlanmış proteinleri deneysel olarak gözlemleyip doğrulayan bir modeldi

    • Evet. Bilmeyenler için söyleyeyim, MSA mevcut PDB yapılarından yeni dizilere genelleme yapmak için kullanılıyor. AlphaFold2 çıktılarıyla eğitirseniz, bu genellemenin sonucu zaten eğitimin içine gömülmüş oluyor; dolayısıyla modelin artık o yeteneğe ihtiyacı kalmıyor. Bir bakıma sadece ezberlemesi yetiyor. Bu basit sonuç sanki makalenin yazarlarının gözünden kaçmış gibi

  • Üniversite yurdunda elektriğin neredeyse bedava olduğu ve medya sunucularının boşta durduğu zamanlarda Folding@Home(https://foldingathome.org) projesi sayesinde protein katlanmasıyla ilk kez tanışmıştım. Uzman değilim ama günümüz donanımında protein katlanmasının geçmişe göre gerçekten çok daha basitleşip basitleşmediğini, yoksa bunun sadece belirli problemlere mi uygulandığını merak ediyorum. Görünüşe göre Folding@Home projesi hâlâ var

    • Bildiğim kadarıyla Folding@Home fizik tabanlı bir simülasyon çözücüsüydü; AlphaFold ve onun ardıllarıysa (buradaki de dahil) istatistiksel yöntemler. İstatistiksel yöntemler hesaplama açısından çok daha ucuz ama mevcut protein katlanmalarına dayandıkları için, eğitim kümesine benzemeyen proteinlerde tahmin güçleri daha zayıf oluyor. Yani hız ile genellik arasında bir ödünleşim var ama performans o kadar arttı ki istediğiniz proteinin katlanma yapısını çoğu zaman çıkarabiliyorsunuz. Eskiden neredeyse imkânsız olan katlanma tahmini artık sıradan iş akışının bir parçası oldu

    • SETI@Home'u da severdim; sonucun ne olduğunu yüzde 100 bilmesem de görselleştirmeleri belirgin olduğu için keyifliydi

    • F@H blog yazısına göre (bağlantı), sadece son katlanmış biçimi değil, katlanma dinamiklerini bilmek de hâlâ önemli. ML ile tahmin edilen proteinler de simülasyonların doğrulanması ve nasıl çalıştıklarının anlaşılması için önemli hedefler olmaya devam ediyor

    • Folding@Home hâlâ çok aktif ve bu süre içinde birçok önemli keşif yaptı (makaleler/sonuçlar bağlantısı)

  • Makalenin iddiası şu: "Yöntemimiz son teknoloji modellerden daha basit." Ama "tüm ölçütlerde son teknolojinin belirgin şekilde gerisinde kalıyor" kısmını pek yüksek sesle söylemiyor. Makale yayımlatmak zaten zor ama büyük bir şirket adıyla preprint yükleyince daha çok dikkat çekiyor gibi

  • Bu yazıda bağlantısı verilen GitHub deposuna mutlaka bakmaya değer (arXiv bağlantısı)

    • Sadece özete bakınca bile (doğru anladıysam) söylenen şey şu: "Yine AI gerekiyor ama diğer yöntemlere kıyasla çok daha az AI ile idare edilebiliyor"

    • GitHub bağlantısını da ilgilenenler için paylaşayım (apple/ml-simplefold)

  • Apple'ın neden protein katlanmasıyla uğraştığını merak ediyorum

    • Apple'ın da bir ML araştırma grubu var. Sadece Apple'a özgü araştırmalar değil, genel amaçlı optimizasyon ve temel araştırma gibi çeşitli temalarda da çalışıyorlar (Apple Machine Learning Research)

    • Ben de bilmiyorum. Ama doğrudan gelir üretmesi gerekmeyen Ar-Ge pozisyonlarına başvurmak isterdim. Belki de bu tür projeler kendi AI çiplerini test etmek ve iyileştirmek için kullanılıyordur

    • Bunun yerel çıkarım için olduğunu düşünüyorum. Apple sanki bu tür son teknoloji modelleri küçültüp masaüstünde hızlı çıkarım yapabilir hale getirmek istiyor. Makalede de Figure 1E'de M2 Max 64GB üzerinde çıkarım sonucu gösteriliyor. Aslında bu harika bir fikir. Küçük biyoteknoloji şirketleri bile hızlı yerel çıkarım sayesinde birçok engeli daha kolay aşabilir. Üretilen dizilerle Bayesçi optimizasyon ya da RL de denenebilir. Buna karşılık AlphaFold oldukça fazla kaynak istiyor. Ayrıca çoklu dizi hizalamasının kullanımı da biraz zorlama; benzer proteinler olmadığında performans düşüyor ve ön işleme de çok fazla ihtiyaç duyuyor. Meta'nın ESM'i de birkaç yıl önce hizalama olmadan da iyi çalışabildiğini göstermişti. AlphaFold'un özel bir sihri yok, sonuçta bu bir seq2seq problemi ve bu yüzden attention-free SSMs dahil birçok yaklaşım işe yarıyor

    • Bilgisayar satmak için mi? 20 yıl önce bile Apple, WWDC'de bilimsel poster oturumları yapıyor ve Mac'e PyMol taşımaya uğraşıyordu. Makaledeki protein görselleri PyMol ile yapılmış ve son 15 yılda bilimsel makale görsellerinin yarısından fazlası PyMol ile oluşturuldu

    • Asıl neden bu mu bilmiyorum ama "science için AI" projelerinin önemli bir kısmı aslında pazarlama amaçlı. Şirket ürünlerine doğrudan fayda sağlamasa ya da somut sonuç üretmese bile, bu tür projeler "marka prestiji" açısından oldukça olumlu etki yaratıyor

  • AlphaFold yayımlandıktan sonra klasik moleküler dinamik (MD) simülasyonlarının protein katlanması alanında artık işe yaramaz hale gelip gelmediğini merak ediyorum. DESRES gibi yerlerden çıkan çalışmalar protein katlanmasıyla doğrudan bağlantılı mı, yoksa tamamen başka şeylerle mi uğraşıyorlar?

    • MD atomların hareketiyle ilgilenir, AlphaFold ise sadece sonuç anlık görüntüsünü verir. Yani AlphaFold dinamiklerle ilgilenmez. MD'nin özü hâlâ harekettir

    • AlphaFold V3 parametrelerinin sadece belirli kurumlara verildiğini (yalnızca ticari olmayan kullanım için) ve herkesin erişemediğini görünce merak edip baktım (V3 parametreleri); buna karşılık AlphaFold V2 herkes tarafından indirilebiliyor (V2 parametreleri)

    • MD aslında hiçbir zaman yapı tahmini için gerçekten uygun bir yöntem değildi. AlphaFold yüzünden işlevsiz hale gelmesinden çok, MD baştan beri protein katlanmasının kendisini, yani son yapının oluşmasından önceki süreci ya da katlandıktan sonraki sistematik hareketleri incelemek için daha uygundu

  • Makaledeki protein görselinin ne olduğunu merak edip baktım: "Figure 1 SimpleFold tahmin sonuçları… gerçek sonuç parlak zümrüt yeşili, tahmin koyu turkuaz." Ama neden böyle bir renk kombinasyonu seçtiklerini daha çok merak ettim

    • Şekil a'daki protein, 7QSW(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw), yani fotosentezin merkezindeki bitki proteini RubisCO'nun (https://en.wikipedia.org/wiki/RuBisCO) şerit diyagramı. Renkler tahmin ile gerçek değeri ayırt etmek için kullanılmış. Ayırt etmenin zor olmasının nedeni sadece seçilen renkler değil; tahmin ile gerçeğin birbirine çok yakın olması. Tahmin isabetli olmasaydı, 3B uzayda dışarı taşan ve iyi hizalanmayan bölgeler görünürdü
  • Keşke bu yaklaşımın protein katlanması araştırmaları açısından ne anlama geldiğini bir uzman değerlendirse. Güzel bir çalışma gibi görünüyor ama pratikte ne kadar etkili olduğunu kestiremiyorum

    • Bu model temsili olarak basit; yalnızca transformer kullanıyor. Transformer'lar için geliştirilen teori ve araçları doğrudan kullanabiliyorsunuz ve en önemlisi modeli ölçeklemek kolaylaşıyor. Bundan da önemlisi, AlphaFold'da sihirli bir şey olmadığının görülmesi. Asıl belirleyici olan mimari ya da eğitim ayrıntılarından ziyade, büyük bir veri kümesi üzerinde büyük bir model eğitmekti. AlphaFold'u deneysel olarak kullanan birçok kişi, onun da LLM'lere benzer şekilde çalıştığını gözlemledi: eğitim verisine benzeyen girdilerde iyi ama genelleme konusunda pek güçlü değil

    • Gelecekte modellerde değişiklikler olabilir. Birinin görüşü fikir verebilir (SimpleFold ve protein yapı tahmininin geleceği). Ama araştırma her zaman zaman alır; gerçek etkiyi görmek için aylar, hatta yıllar gerekir. Geleceğe dair tahminler sınırlıdır

  • Tamamen yeni değil ama protein katlanma modellerinin giderek sadeleşmesi gerçekten çok etkileyici. AF2'den AF3'e geçerken de model karmaşıklığı azalmıştı; bu çalışma da o akışta bir adım daha ileri gidip 'bitter lesson' yaklaşımını uyguluyor

    • AF3'ün performansı gerçekten koruyabilmesinin nedeni, eğitim verisine AF2 sonuçlarının da eklenmesi ve böylece zaten bolca tümevarımsal önyargının içeri taşınması olabilir mi diye düşünüyorum
  • Makaledeki Flow-matching tekniği gerçekten çok ilginç. Üretken yapay zeka bağlamında öğrenirken karşıma çıkmıştı; termodinamik kavramlar ve Brown hareketinden ödünç alınan bir yöntemin dönüp protein katlanması sorununa bu kadar iyi uyması hayranlık verici