Genel özet
- Bu rapor, Mart 2026 itibarıyla görünürlüğü yüksek 10 Bio-AI ve komşu bilim otomasyonu deposunun denetim sonuçlarını özetliyor.
- Seçim rastgele yapılmadı; GitHub yıldızları, teknik tartışma sıklığı ve ekosistemdeki gerçek görünürlük esas alındı.
- Denetim iki aşamalı yürütüldü: 1. aşamada teknik kod incelemesiyle repo yapısı, entry point'ler ve çalıştırma kontrol edildi; 2. aşamada STEM-AI v1.0.4 puanlamasıyla dokümantasyon bütünlüğü, kod, testler ve yönetişim değerlendirildi.
- Sonuç: Çoğu çalıştırılabiliyor. Ancak güvenilebilir düzeyde değiller. Yönetişim eksikliği, Bio-AI'nin sınırlarını gösteriyor.
1. 2026 itibarıyla Bio-AI'nin durumu
- LLM tabanlı Bio-AI araçları hızla artıyor.
- Agent, skills ve automation wrapper hype'ı da hızla yayılıyor.
- Görünürdeki performans ve kullanışlılık artıyor.
- Ancak doğrulama mekanizmaları yetersiz.
- Sorumluluğun kimde olduğu belirsiz.
- İlaç keşfi gibi yüksek riskli alanlarda bu durum özellikle tehlikeli.
- Sonuç olarak, yeteneklerin yayılma hızı; doğrulama ve yönetişimin çok önünde gidiyor.
2. Denetim kapsamındaki projeler
- 10 hedef seçildi.
- Ölçütler görünürlük, etki, gerçek maruziyet, tartışma sıklığı ve merkezilikti.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Denetim yöntemi
- Denetim iki aşamada yapıldı.
-
- aşama: Technical Code Audit
- Depo yapısı incelendi.
- Entry point'ler kontrol edildi.
- Orchestration katmanı incelendi.
- Çalıştırma akışı izlendi.
- Çıktı yolları kontrol edildi.
- Kritik dosyalar doğrudan incelendi.
- README'deki iddialar gerçek kodla karşılaştırıldı.
- Yani odak, “ne yaptığı yazıyor”dan çok “gerçekte ne yaptığı” üzerindeydi.
-
- aşama: STEM-AI v1.0.4 puanlaması
- S1 değerlendirmesi yapıldı.
- README ve dokümantasyon bütünlüğü kontrol edildi.
- S3 değerlendirmesi yapıldı.
- Kodun fiilen varlığı, testler, değişiklik disiplini ve biyolojik bütünlük mekanizmaları incelendi.
- Yani bu bir izlenim değerlendirmesi değildi; yapı doğrulandıktan sonra puanlama yapıldı.
- Denetim ilkeleri
- Tüm depoların eksiksiz dinamik yeniden üretimi tamamen yapılmadı.
- Bunun yerine, temel iddialarla doğrudan bağlantılı bölümlere odaklanıldı.
- Riskli veya çelişkili kısımlar derinlemesine incelendi.
- Temel ilke: README yerine çalıştırılabilir yüzey önceliklidir. Dokümantasyon ile kod çelişirse, karar belgeye göre değil çalıştırmaya göre verildi.
- Yani bu denetim, bir yeniden üretim benchmark'ından çok yapısal bir teşhise daha yakındı.
4. Puanlamaya göre dereceler
- T0: Güven oluşmamış. Çalışsa bile güvenilebilir bir sistem olarak görülmesi zor.
- T1: Bazı yapılar mevcut, ancak güven hâlâ yetersiz. Keşif ve referans düzeyi.
- T2: Anlamlı ilerleme var, ancak gözetimli pilot için hâlâ yetersiz.
- T3: Gözetimli pilot incelemesi için mümkün olan asgari eşik.
- T4: Sonuç sorumluluğu daha yüksek ortamlarla bağlantının değerlendirilebileceği seviye.
- Rapor, T3'ü gözetimli pilot için asgari eşik; T4'ü ise daha yüksek sonuç sorumluluğu olan ortamlara bağlanmak için asgari eşik olarak tanımlıyor.
5. Sonuçlar
- Tek tek repo sonuçları
- AI-Scientist — 48 puan, T1
- Biomni — 17 puan, T0
- BioAgents — 30 puan, T0
- BioClaw — 29 puan, T0
- CellAgent — 15 puan, T0
- ClawBio — 63 puan, T2
- claude-scientific-skills — 24 puan, T0
- LabClaw — 20 puan, T0
- SciAgent-Skills — 32 puan, T0
- OpenClaw-Medical-Skills — 22 puan, T0
- Sonuçların anlamı
- 10 projenin 8'inde güven oluşmamış durumda.
- 1 projede bazı yapılar var. Ancak yine de yetersiz.
- 1 proje en iyi sonucu verdi. Ancak pilot için gereken asgari eşiğin altında kaldı.
- T3 veya üzeri alan proje sayısı 0. Yani gözetimli pilot için asgari kriteri geçen hiçbir depo yok.
6. Tekrarlanan sorun örüntüleri
- Aşırı iddia
- Zayıf doğrulama
- Yetersiz izlenebilirlik
- Zayıf hata sınırları
- README ile çalıştırma gerçeği arasında uyumsuzluk
- Yönetişim yokluğu
- Yetersiz yeniden üretilebilirlik
- Lisans, sorumluluk ve operasyon sınırlarının belirsizliği
- Klinik yakın alanlardan söz edilse de sorumluluk yapısı zayıf
- CI, bilimsel doğrulamadan çok sözdizimi ve biçim doğrulamasına odaklı.
- Mockup ve placeholder'ların gerçek işlev gibi göründüğü örnekler tespit edildi.
- Yerel tasarım iyi görünse bile dağıtım varsayılanlarının riskli olduğu durumlar tekrarlandı.
7. Nihai sonuç
- Bu rapor, Bio-AI açık kaynak ekosisteminin tamamının “işe yaramaz” olduğunu söylemiyor.
- Asıl vurgu, yetkin görünmek ile güvenilebilir olmak arasında fark olduğuna yapılıyor.
- Darboğaz yalnızca model yeteneği değil; doğrulama, izlenebilirlik, sorumluluk ve yönetişim eksikliği daha büyük sorun.
- Daha açık söylersek, ancak iddialar ve çıktıların yeniden üretilebilirliği sağlanır, sınırlar netleştirilir ve kurumsal incelemeye uygun yapı kurulursa Bio-AI güvenilebilir bir sisteme dönüşebilir.
8. Tek cümlelik özet
- Bio-AI'deki asıl sorun, yetenek eksikliğinden çok doğrulama ve yönetişim eksikliği.
Henüz yorum yok.