- Google DeepMind, AlphaGenome adlı yeni bir DNA dizisi yapay zeka modelini tanıttı
- Bu model, gen düzenleyici varyantların etkisini tahmin etmede hassasiyeti artırıyor ve çeşitli gen düzenleme süreçlerini öngörebiliyor
- En fazla 1 milyon baz çifti uzunluğundaki DNA dizilerini girdi olarak alıp çeşitli biyolojik olayları yüksek çözünürlükte tahmin etmesiyle öne çıkıyor
- Mevcut modellerden farklı olarak, çeşitli biyolojik doku ve hücre türleri için varyantların etkisini tek seferde değerlendirebiliyor
- AlphaGenome'un, araştırmacıların gen işlevini ve hastalık biyolojisini anlamasına yardımcı olması ve yeni tedavilerin keşfini hızlandırması bekleniyor
AlphaGenome'a giriş
- Google DeepMind, AlphaGenome adlı yeni bir DNA dizisi yapay zeka modelini tanıttı
- Bu model, gen düzenlemesini etkileyen tekil varyant ya da mutasyonların etkisini hassas biçimde tahmin ederek genom işlevi araştırmaları ve hastalıkların anlaşılması açısından önemli bir dönüm noktası sunuyor
- Araştırma amacıyla API üzerinden önceden erişilebiliyor; modelin ileride daha geniş biçimde sunulması planlanıyor
AlphaGenome nasıl çalışıyor
- AlphaGenome, en fazla 1 milyon baz çifti uzunluğunda DNA dizilerini girdi olarak alıp çeşitli moleküler özellikleri tahmin ediyor
- Tahmin edilebilen özellikler arasında gen konumu, RNA üretim miktarı, DNA erişilebilirliği, protein bağlanma bölgeleri gibi binlerce unsur yer alıyor
- Model, ENCODE, GTEx, 4D Nucleome ve FANTOM5 gibi büyük ölçekli açık verilerle eğitildi
- İç yapısında, kısa örüntüleri önce konvolüsyon katmanları ile algılıyor, ardından dizi genelindeki bilgileri transformer ile birleştirip çeşitli tahminler üretiyor
- Dağıtık TPU ortamında büyük hacimli hesaplamaları işleyerek eğitim verimliliğini artırıyor
- Önceki Enformer modelinin ilerisine geçerek, yalnızca protein kodlayan bölgelere odaklanan AlphaMissense'in aksine kodlamayan bölgeleri de (tüm genomun %98'i) kapsamlı biçimde analiz ediyor
AlphaGenome'un fark yaratan yönleri
- Ultra yüksek çözünürlükte, uzun menzilli dizi analizi: 1 milyon baz çifti ölçeğinde analiz yapıyor ve tek baz düzeyinde hassasiyetle sonuç veriyor
- Mevcut modellere göre eğitim verimliliği daha yüksek; daha az kaynakla daha hızlı eğitilebiliyor
- Entegre çok modlu tahmin: Gen düzenlemesinin farklı aşamalarındaki bilgileri tek modelde eşzamanlı tahmin ediyor
- Verimli varyant puanlama: Mutasyona uğramış dizi ile normal diziyi anında karşılaştırarak farklı biyolojik olaylar üzerindeki varyant etkisini hızlıca hesaplıyor
- Yenilikçi splicing bağlantı bölgesi modellemesi: Gen splicing konumlarını ve ifade düzeylerini doğrudan tahmin ederek nadir hastalık araştırmalarına da katkı sağlıyor
İleri düzey performans ve benchmark sonuçları
- AlphaGenome, 24 genom tahmin benchmark'ının 22'sinde ve 26 varyant düzenleyici etki değerlendirmesinin 24'ünde harici en iyi modelleri geride bıraktı ya da onlarla eşdeğer performans gösterdi
- Belirli görevlere özel modellerin aksine, farklı biyolojik özellik türlerini tek bir API çağrısıyla aynı anda tahmin edebilen tek model olarak öne çıkıyor
Entegre modelin avantajları
- Birden çok modaliteyi bütünleşik biçimde ele alabildiği için bilim insanlarının farklı hipotezleri ve deneyleri hızla yinelemesine olanak tanıyor
- DNA dizisinin genel temsillerini öğrendiği için topluluğun ek eğitim ve optimizasyon yapmasını kolaylaştırıyor
- Veri ya da uygulama kapsamı eklenerek genişletilebilen esneklik ve ölçeklenebilirlik sunuyor
Güçlü bir araştırma aracı olarak anlamı
- Hastalıkları anlama: Nadir varyantlar gibi hastalık nedenlerinin aydınlatılmasında ve tedavi hedeflerinin keşfinde kullanılma potansiyeline sahip
- Sentetik biyoloji: Belirli işlevlere sahip sentetik DNA tasarımında kullanılabilir
- Temel araştırma: Genomun temel işlevsel öğelerinin haritalanmasını ve hücre bazında düzenleyici öğelerin bulunmasını destekler
- Nitekim AlphaGenome, T-ALL (akut lenfoblastik lösemi) ile ilişkili bir varyantın MYB DNA bağlanma motifi oluşturup yakındaki TAL1 geninin etkinleşmesine yol açtığını tahmin ederek, söz konusu varyantın hastalık genini nasıl etkilediğine dair mekanizmayı başarıyla yeniden üretti
Mevcut sınırlamalar
- 100 bin bazdan daha uzakta bulunan çok uzak düzenleyici öğelerin etkisini belirlemek hâlâ zorlu bir problem
- Hücre ve dokuya özgü örüntülerin tanınması için de ek araştırma gerekiyor
- Bireysel genom tahmini (kişiselleştirilmiş tanı ve öngörü) amacıyla şu anda düşünülmüyor
- Yalnızca moleküler düzeyde tahmin yapabiliyor; tüm hastalıkların karmaşık nedenlerini tamamen açıklayamıyor
- Şu an araştırma amaçlı duyuru aşamasında; doğrudan klinik uygunluk değerlendirmesi ya da tedavi uygulaması henüz mümkün değil
Topluluk desteği ve bundan sonraki yön
- API, ticari olmayan araştırma amacıyla hemen kullanılabiliyor ve araştırma topluluğuyla geniş kapsamlı iş birliği sayesinde AlphaGenome'un kullanım alanının artırılması planlanıyor
- Topluluk forumları gibi kanallar üzerinden geri bildirim ve kullanım örnekleri toplanıyor
- Daha fazla veri, tür ve modalite eklenmiş genişletilmiş sürümlere evrilmesi bekleniyor
- Genom yorumlamasıyla ilgili yeni tıp ve yaşam bilimleri araştırmalarında yeniliği hızlandırması umuluyor
Sonuç
- AlphaGenome, genetik varyasyonların anlamını aynı anda farklı açılardan yorumlayabilen ve temel ile klinik araştırmaları hızlandırabilecek yeni bir yapay zeka tabanlı genom analiz aracı
- Dış uzman topluluklarıyla iş birliği yaparak genom verisi tabanlı yenilikleri mümkün olduğunca çok kişiye yayma planı bulunuyor
2 yorum
Gen tahminleriyle ilgilenen bir yapay zeka modelindeki multimodalitenin hangi modalitelerden oluştuğunu merak edip o3'e sordum; bana transkripsiyon miktarı, transkripsiyon başlangıç ve bitiş konumları, splicing gibi şeylerin modalite sayıldığını söyledi.
Hacker News görüşleri
Kurumsal baskının arttığına dair bir işaret olarak, tek bir A100 üzerinde çalıştırılabilecek bir model olmasına rağmen ne kodun ne de parametrelerin paylaşılmaması, yalnızca bir API’nin arkasında çalıştırılması ve makalenin 31. sayfasına tüm modelin sözde kod olarak yapıştırılmış olması dikkat çekiyor; Google/Demis/Sergei’den bari parametreleri paylaşmaları isteniyor. Bu kadar küçük bir model yalnızca API arkasında kaldığında kanseri bile tedavi edemez gibi görünüyor ve GCloud gelirine de büyük katkı sağlamayacağı düşünülüyor
Hücre simülasyonu alanında bir atılım yaşanırsa, moleküler dinamik kadar kullanışlı ama modern süper bilgisayarlarda uygulanabilir bir simülasyonun mümkün olması bekleniyor; yaşam bilimleri araştırmalarındaki en büyük engellerden birinin içeride neler olduğunu görememek olduğu düşünülüyor
Yüksek etkili yapay zeka uygulama araştırmalarını yalnızca DeepMind yapmıyor, ancak bu alanda neden bu kadar belirgin biçimde öne çıktığı merak ediliyor; bunun güçlü teknoloji pazarlamasından mı yoksa başka bir nedenden mi kaynaklandığı soruluyor
Girdi boyutunu insan genomu büyüklüğü olan 3.2Gbp’ye genişletmeyi hayal etmek ilginç; bunun ilginç etkileşimler ortaya çıkarabileceği düşünülüyor. U-net ve transformer’ın araştırmanın merkezi hâline gelmesi de ayrıca dikkat çekici
Şirket içinde genom verilerini kullanarak reklam verimliliğini artırmaya dönük fikirlerin de ortaya çıkabileceği tahmin ediliyor; örneğin kolon kanseri riski görülürse “kolon sağlığı takviyesi” reklamı göstermek ya da genetik bilgiyle eğilim analizi yapıp “bu gen siyah mizahı sevme eğilimiyle ilişkili, bu gene sahip kişilere yeni filmi tanıtalım” türü pazarlama stratejilerinin mümkün olabileceği öngörülüyor
RNA tahmin performansındaki büyük sıçramanın mRNA laboratuvarları için büyük bir fırsat yaratması bekleniyor
2008’de Google’a katıldıktan hemen sonra yaşam bilimlerine büyük yatırım yapılması gerektiğini savunduğunu, Google’ın veri işleme ve ML yetenekleriyle dünyada öncü sonuçlar üretip bu yöntemlerin diğer biyologlar tarafından da yeniden üretilebilmesine yardımcı olabileceğine inandığını söyleyen bir yorum var; gerçekten de exacycle ile protein katlanması/tasarımı alanında ilginç sonuçlar elde edildiği, ardından Cloud Genomics ile büyük veri kümelerini depolama ve analiz etme hizmetlerinin sunulduğu belirtiliyor. Sonuçta DeepMind, bu kişinin hayal ettiği hedefi çok daha etkileyici biçimde gerçekleştirmiş gibi görünüyor; son makalenin topluluğun sindirmesinin zaman alacağı kadar çok şey içerdiği söyleniyor
Makaledeki en büyük sorunlardan birinin, ilişki düzeyi yüksek DNA bölgeleri içinde gerçekten nedensel olan varyantlarla nedensel olmayan varyantları ayırt etme işini görmezden gelmesi olduğu belirtiliyor; buna genetikte fine mapping deniyor. Etkili ilaç hedefleri için kilit düzenleyici bölgeleri doğru biçimde daraltmak çok önemli. Yakın tarihli bir Nature makalesi, bu soruna dair bir örnek ve otoimmünitede makrofaj işlevini düzenlemeye yönelik aday ilaçlara kadar uzanan bir bağlantı sunuyor