Moebius: 0.2B görüntü inpainting modeliyle 10B sınıfı performans
(hustvl.github.io)- 10B ölçeğindeki endüstriyel foundation modellerin domine ettiği yüksek kaliteli görüntü inpainting alanında, parametreleri %2’nin altına sıkıştırmasına rağmen eşdeğer veya daha yüksek kalite sunan hafif bir uzman model
- 0.22B(226M) parametreyle çalışıyor ve 11.9B ölçekli FLUX.1-Fill-Dev ile kıyaslandığında 15 kattan fazla daha hızlı çıkarım hızı sağlıyor
- Diffusion omurgasını yeniden yapılandıran Local-λ Mix Interaction(LλMI) bloğu, uzamsal bağlamı ve küresel anlamsal bilgiyi sabit boyutlu doğrusal matrislere sıkıştırıyor
- Yalnızca latent space içinde çalışan uyarlanabilir çok parçacıklı distillation stratejisiyle, büyük teacher modelin ifade gücünü hafif modele aktarıyor
- Ölçeği körü körüne büyütmek yerine, görev net tanımlandığında daha akıllı, daha hafif ve daha hızlı modellerin mümkün olduğunu gösteren task-specific specialist yaklaşımı
Arka plan ve problemin tanımı
- 10B ölçeğindeki endüstriyel foundation modeller, görüntü inpainting sınırlarını ileri taşıdı; ancak devasa hesaplama maliyeti nedeniyle gerçek dağıtım ciddi biçimde kısıtlanıyor
- Göreve özel uzman model oluşturmak umut verici bir alternatif olsa da, aşırı mimari sıkıştırma ciddi bir temsiliyet darboğazına (representation bottleneck) yol açıyor
- Bunu aşmak için yüksek verimli hafif bir inpainting çerçevesi olan Moebius öneriliyor
Yöntem — genel pipeline
- Latent Diffusion Model(LDM) çerçevesine Latent Categories Guidance(LCG) eklenmiş bir yapı benimsiyor
- Denoising U-Net, önerilen LλMI bloğu ile sistematik olarak yeniden yapılandırılarak aşırı düzeyde mimari verimlilik elde ediliyor
- Eğitim aşamasında uyarlanabilir çok parçacıklı distillation stratejisi uygulanıyor; böylece hafif specialist model, yüksek kapasiteli teacher modelle hizalanarak aşırı mimari sıkıştırmadan doğan kapasite kaybı azaltılıyor
Temel sonuçlar (Highlights)
-
Aşırı parametre verimliliği (< %2)
- Yalnızca 0.22B(226M) parametre ile çalışıyor; bu, büyük model FLUX.1-Fill-Dev(11.9B) boyutunun %2’sinden daha azı
- Ağır hesaplamanın zorunlu olduğu yönündeki yaygın kanıyı kırarak, tüketici sınıfı ve edge cihazlarda da yüksek kaliteli inpainting mümkün kılıyor
-
15 kat daha hızlı çıkarım (26ms/adım)
- Tek bir GPU’da adım başına yalnızca 26.01ms gibi çok düşük bir çıkarım gecikmesine ulaşıyor
- Optimize edilmiş örnekleme adımlarıyla birleştiğinde, 10B sınıfı modellere kıyasla toplam çalışma süresini 15 kattan fazla hızlandırıyor
-
10B sınıfı inpainting kalitesi
- Boyut küçültmenin ifade gücünün düşmesi anlamına gelmediğini gösteriyor
- Mimari ve distillation sinerjisinin optimize edilmesi sayesinde, karmaşık dokular ve yüz doğallığı gibi bazı senaryolarda 10B sınıfı SOTA modelleri (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting) geride bırakıyor
- Doğal sahneler (Places2) ile insan portreleri (CelebA-HQ, FFHQ) dahil 6 benchmark üzerinde doğrulanmış
-
Sinerji temelli temel yenilikler
- Mimari tasarım (LλMI Block): self-attention ve cross-attention yeniden yapılandırılarak uzamsal bağlam ile küresel anlamsal bilgi sabit boyutlu doğrusal matrislere sıkıştırılıyor ve karesel (quadratic) hesaplama yükü önleniyor
- Uyarlanabilir çok parçacıklı distillation: teacher model PixelHacker’ın ifade gücü yalnızca latent space içinde aktarılıyor, böylece pahalı pixel-space decoding sürecinden kaçınılıyor
- Mikroskobik ara özelliklerden makroskobik diffusion yörüngelerine kadar çok parçacıklı denetim hizalanıyor; gradient norm tabanlı uyarlanabilir kayıp ağırlıklandırma mekanizmasıyla eğitim dinamik biçimde dengeleniyor
- Optimal sinerji dengesi: sıkıştırılmış yapı ile distillation arasındaki karşılıklı kısıtlar ve üst sınırlar sistematik biçimde araştırılıyor
- Mimari-distillation sinerji sınırları haritalanarak, 0.22B Moebius(student) modelinin ifade doygunluğuna ulaşmadan PixelHacker(teacher) modelinin anlamsal çıkarım yeteneğini azami ölçüde özümsemesi sağlanıyor
-
Hantal genel amaçlı modeller yerine göreve özel uzman
- “Görev net biçimde tanımlandığında model daha akıllı, daha hafif ve daha hızlı olabilir mi?” sorusuna yanıt veren bir yaklaşım
- Gerçek dünya görüntü inpainting ve yapay zeka tabanlı nesne kaldırma için, parametre şişkinliğinden kurtaran yüksek düzeyde optimize edilmiş bir specialist rolü üstleniyor
Değerlendirme ve karşılaştırma
- Doğal sahneler (Places2) ve insan sahneleri (CelebA-HQ, FFHQ) üzerinde geniş kapsamlı deneyler yürütüldü
- Üretim kalitesi açısından 10B sınıfı endüstriyel genel amaçlı model FLUX.1-Fill-Dev ile eşdeğer veya daha iyi sonuçlar gösterildi
- Parametre sayısı %2’nin altında olmasına rağmen (0.22B vs 11.9B), çıkarım süresinde 15 kattan fazla hızlanma sağlayarak yüksek doğruluklu inpainting için yeni bir verimlilik standardı ortaya koyuyor
1 yorum
Hacker News görüşleri
ONNX ile çalışır hale getirdim (Claude Opus 4.8 sayesinde) ve artık modelin tamamen tarayıcı içinde çalıştığı etkileşimli bir demo var. İndirme boyutu yaklaşık 1.3GB: https://simonw.github.io/moebius-web/
Kod burada: https://github.com/simonw/moebius-web
Claude Code kaydı: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Blogda daha ayrıntılı anlattım: https://simonwillison.net/2026/Jun/22/porting-moebius/
gpt 5.5 + codekullanarak), ama ONNX'te modeli çalıştırma kısmına kadar gelemedimfp32görünüyor; acabafp16gibi daha düşük hassasiyetleri de denediniz mi diye merak ettimBiraz denedim; 0.2B model için çok etkileyici ama 10B modellerle boy ölçüşebildiğine ikna olmak zor
Doğal görsellerde epey iyi çalıştı, ama inpaint edilen bölge çevresine göre belirgin şekilde fazla pürüzsüzdü ve yeni nesneler eklemede çok zayıftı. Çıktının 512x512 ile sınırlı olması da pratik kullanımını azaltıyor
Birkaç yıl önce istemci taraflı bir inpainting projesi yapmıştım. Amaç, konser organizatörleri için banner reklamları inpaint ederek farklı yerleşim boyutlarına uygun reklamları kolayca üretmekti ve birkaç ünlü şarkıcının Noel temalı reklamları üzerinde çalışmıştım
En tuhaf olan, inpainting aracının görsele garip insanlar eklediği anlardı. Şarkıcı simler ve kırmızı süslerle bezenmişti ama model silindir şapkalı huysuz bir yaşlı adam eklemişti. “Ürkütücü yaşlı adam ekle” düğmesine bastığımı hatırlamıyorum
O zamanlar arka uçta Stable Diffusion vardı ve Amazon dahil çeşitli model barındırma servislerinden geçmiştik; ama giriş görseli gereksinimleri birbirinden çok farklıydı, bu yüzden iş çok karmaşık hale gelmişti. Bazıları 200x60 banner gibi oranları destekleyemediği için başarısız oluyordu, bazılarıysa girişten önce yeniden boyutlandırma istiyordu; bu da en baştan düşük çözünürlüklü görsel vermek anlamına geliyordu. Çöp girerse çöp çıkar
Sonuçta ciddi miktarda ön hazırlık gerekiyordu ve müşteri benim denemelerimi fiilen kullanmadı
Britanya'da, insanların Noel etkinliklerinde fazla coşmaması için arka planda Scrooge benzeri bir figür bulundurmayı zorunlu kılan bir yönetmelik olduğuna eminim
Yüz inpainting'i bile birkaç farklı araç dolaşmadan ancak yapılabilir hale geliyordu; onun dışındaki şeyleri inpaint etmekse neredeyse imkansızdı. Bu modeller ayrıca nesneleri sahneye doğal biçimde yerleştirmekte özellikle kötüydü. Kabaca bir kolye ya da kemer gibi şeyler bir şekilde olabiliyordu ama sahneye yeni bir nesne soktuğun an sonsuz farklı biçimlerde başarısız oluyordu
Çözünürlük tarafında da 512x512'de çok daha iyi çalışıyorlardı; bundan ne kadar uzaklaşırsan sorun o kadar artıyordu
Banner reklam inpaint etmeye çalıştıysanız büyük ihtimalle ciddi biçimde bozulmuştur. O modeller yazı tipleriyle başa çıkamıyor, piksel düzeyinde doğru aktarımda da zayıf kalıyordu. O dönemde gerçekçi yaklaşım muhtemelen banner reklamı elle yerleştirip sadece kenarlarını yapay zekayla düzeltmek olurdu. Tabii bunun için de bir miktar görsel sanat yeteneği gerekirdi
Sadece iki görsel verip modelin gerisini halletmesini beklediyseniz, girişiminiz cesurdu ama yapılabilir bir iş değildi
Kaliteli bir modelle düşük çözünürlüklü görsel ürettiğinizde, aslında çok daha büyük bir görselin bir kısmını kesip dışarı veriyormuş gibi hissettiriyor. Saatlerce deneme yaptıktan sonra vardığım izlenim bu; büyük modellerde bir nesneyi ortaya koymaya çalışsanız bile çoğu zaman ortada görünmüyor. GPU'mun kaldırabileceği şeylerin de bir sınırı var
Bunu kullanan birkaç demo space var. Bu en iyisi gibi görünüyordu ve maskeyi elle boyamanıza izin veriyor, ama denediğim tüm görsellerde başarısız oldu: https://huggingface.co/spaces/multimodalart/Moebius
Şu anda aktif olarak kurcalıyorum, o yüzden arada bir bozulabilir :)
Ücretsiz CPU üzerinde çalıştığı için tek görsel başına yaklaşık 80 saniye sürüyor
Her şeyin tarayıcı içinde çalıştığı ve tüm fine-tune modelleri deneyebildiğiniz küçük bir uygulama yaptım: https://inpaintlab.com/
Inpainting'in ne olduğunu bilmiyorum. Yorumlarda herkes bu terimi biliyor gibi ama bağlantı verilen sayfada bunun ne olduğunu açıklayan bir şey görmedim
Temelde model, mor olmayan bölgenin bağlamına bakıp mor bölgeye en uygun şeyin ne olacağını tahmin ederek görselin bir kısmını yeniden çiziyor. Sıklıkla nesne kaldırmak için kullanılıyor ama örnekte görüldüğü gibi başka işler için de kullanılabiliyor
Pek iyi değil. Inpaint edilen alan, her zamanki gibi doğal fotoğraflardaki ayrıntılı ve yüksek frekanslı dokuya kıyasla fazla pürüzsüz kalıyor
En fazla thumbnail'dan bir şey silmek için idare eder
Photoshop'un birkaç yıl önceki varsayılan onarma aracı da buna yakın bir iş çıkarabiliyordu
Keşke manga çevirisi için böyle modeller olsa. Şu an anime ve manga tarafındaki hafif inpainting modellerinde fiilî standart LaMa gibi görünüyor ama artık birkaç yıllık bir model, dolayısıyla gelişme alanı var gibi
Acaba bu model yeniden eğitilebilir ya da fine-tune edilebilir mi diye merak ediyorum. “Uzmanlar” oluşturulabildiğinden bahsediliyor; belki o uzmanlar farklı karakter çevirilerini daha iyi anlayabilir
İşte bu işe yarayan yapay zeka. Mümkün hale getirdiği kullanım senaryoları gerçekten çok fazla
Ama şaşırtıcı toz temizleme ya da kusursuz sahne ayrıştırma gibi şeyler için kimse 1 milyar dolar yatırım yapmaz
Bunun yerine her şeyi buluta yükleyip dev bir multimodal frontier model'den benim istediğim tek işi yapmasını nazikçe istemek zorunda kalıyoruz
Anlamadım. Bunu nerede deneyebileceğim belli değil; yoksa bu sadece bir reklam mı?
Düzenleme: Sanırım buldum
https://huggingface.co/hustvl/Moebius