Moebius: 0.2B görüntü inpainting modeliyle 10B sınıfı performans

(hustvl.github.io)

5 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

10B ölçeğindeki endüstriyel foundation modellerin domine ettiği yüksek kaliteli görüntü inpainting alanında, parametreleri %2’nin altına sıkıştırmasına rağmen eşdeğer veya daha yüksek kalite sunan hafif bir uzman model
0.22B(226M) parametreyle çalışıyor ve 11.9B ölçekli FLUX.1-Fill-Dev ile kıyaslandığında 15 kattan fazla daha hızlı çıkarım hızı sağlıyor
Diffusion omurgasını yeniden yapılandıran Local-λ Mix Interaction(LλMI) bloğu, uzamsal bağlamı ve küresel anlamsal bilgiyi sabit boyutlu doğrusal matrislere sıkıştırıyor
Yalnızca latent space içinde çalışan uyarlanabilir çok parçacıklı distillation stratejisiyle, büyük teacher modelin ifade gücünü hafif modele aktarıyor
Ölçeği körü körüne büyütmek yerine, görev net tanımlandığında daha akıllı, daha hafif ve daha hızlı modellerin mümkün olduğunu gösteren task-specific specialist yaklaşımı

Arka plan ve problemin tanımı

10B ölçeğindeki endüstriyel foundation modeller, görüntü inpainting sınırlarını ileri taşıdı; ancak devasa hesaplama maliyeti nedeniyle gerçek dağıtım ciddi biçimde kısıtlanıyor
Göreve özel uzman model oluşturmak umut verici bir alternatif olsa da, aşırı mimari sıkıştırma ciddi bir temsiliyet darboğazına (representation bottleneck) yol açıyor
Bunu aşmak için yüksek verimli hafif bir inpainting çerçevesi olan Moebius öneriliyor

Yöntem — genel pipeline

Latent Diffusion Model(LDM) çerçevesine Latent Categories Guidance(LCG) eklenmiş bir yapı benimsiyor
Denoising U-Net, önerilen LλMI bloğu ile sistematik olarak yeniden yapılandırılarak aşırı düzeyde mimari verimlilik elde ediliyor
Eğitim aşamasında uyarlanabilir çok parçacıklı distillation stratejisi uygulanıyor; böylece hafif specialist model, yüksek kapasiteli teacher modelle hizalanarak aşırı mimari sıkıştırmadan doğan kapasite kaybı azaltılıyor

Temel sonuçlar (Highlights)

Aşırı parametre verimliliği (< %2)
- Yalnızca 0.22B(226M) parametre ile çalışıyor; bu, büyük model FLUX.1-Fill-Dev(11.9B) boyutunun %2’sinden daha azı
- Ağır hesaplamanın zorunlu olduğu yönündeki yaygın kanıyı kırarak, tüketici sınıfı ve edge cihazlarda da yüksek kaliteli inpainting mümkün kılıyor
15 kat daha hızlı çıkarım (26ms/adım)
- Tek bir GPU’da adım başına yalnızca 26.01ms gibi çok düşük bir çıkarım gecikmesine ulaşıyor
- Optimize edilmiş örnekleme adımlarıyla birleştiğinde, 10B sınıfı modellere kıyasla toplam çalışma süresini 15 kattan fazla hızlandırıyor
10B sınıfı inpainting kalitesi
- Boyut küçültmenin ifade gücünün düşmesi anlamına gelmediğini gösteriyor
- Mimari ve distillation sinerjisinin optimize edilmesi sayesinde, karmaşık dokular ve yüz doğallığı gibi bazı senaryolarda 10B sınıfı SOTA modelleri (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting) geride bırakıyor
- Doğal sahneler (Places2) ile insan portreleri (CelebA-HQ, FFHQ) dahil 6 benchmark üzerinde doğrulanmış
Sinerji temelli temel yenilikler
- Mimari tasarım (LλMI Block): self-attention ve cross-attention yeniden yapılandırılarak uzamsal bağlam ile küresel anlamsal bilgi sabit boyutlu doğrusal matrislere sıkıştırılıyor ve karesel (quadratic) hesaplama yükü önleniyor
- Uyarlanabilir çok parçacıklı distillation: teacher model PixelHacker’ın ifade gücü yalnızca latent space içinde aktarılıyor, böylece pahalı pixel-space decoding sürecinden kaçınılıyor
  - Mikroskobik ara özelliklerden makroskobik diffusion yörüngelerine kadar çok parçacıklı denetim hizalanıyor; gradient norm tabanlı uyarlanabilir kayıp ağırlıklandırma mekanizmasıyla eğitim dinamik biçimde dengeleniyor
- Optimal sinerji dengesi: sıkıştırılmış yapı ile distillation arasındaki karşılıklı kısıtlar ve üst sınırlar sistematik biçimde araştırılıyor
  - Mimari-distillation sinerji sınırları haritalanarak, 0.22B Moebius(student) modelinin ifade doygunluğuna ulaşmadan PixelHacker(teacher) modelinin anlamsal çıkarım yeteneğini azami ölçüde özümsemesi sağlanıyor
Hantal genel amaçlı modeller yerine göreve özel uzman
- “Görev net biçimde tanımlandığında model daha akıllı, daha hafif ve daha hızlı olabilir mi?” sorusuna yanıt veren bir yaklaşım
- Gerçek dünya görüntü inpainting ve yapay zeka tabanlı nesne kaldırma için, parametre şişkinliğinden kurtaran yüksek düzeyde optimize edilmiş bir specialist rolü üstleniyor

Değerlendirme ve karşılaştırma

Doğal sahneler (Places2) ve insan sahneleri (CelebA-HQ, FFHQ) üzerinde geniş kapsamlı deneyler yürütüldü
Üretim kalitesi açısından 10B sınıfı endüstriyel genel amaçlı model FLUX.1-Fill-Dev ile eşdeğer veya daha iyi sonuçlar gösterildi
Parametre sayısı %2’nin altında olmasına rağmen (0.22B vs 11.9B), çıkarım süresinde 15 kattan fazla hızlanma sağlayarak yüksek doğruluklu inpainting için yeni bir verimlilik standardı ortaya koyuyor

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

ONNX ile çalışır hale getirdim (Claude Opus 4.8 sayesinde) ve artık modelin tamamen tarayıcı içinde çalıştığı etkileşimli bir demo var. İndirme boyutu yaklaşık 1.3GB: https://simonw.github.io/moebius-web/
Kod burada: https://github.com/simonw/moebius-web
Claude Code kaydı: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Blogda daha ayrıntılı anlattım: https://simonwillison.net/2026/Jun/22/porting-moebius/
- Ben de tam olarak aynısını yapmaya çalışmıştım (gpt 5.5 + code kullanarak), ama ONNX'te modeli çalıştırma kısmına kadar gelemedim
- Güzel iş. unet ağırlıkları fp32 görünüyor; acaba fp16 gibi daha düşük hassasiyetleri de denediniz mi diye merak ettim
Biraz denedim; 0.2B model için çok etkileyici ama 10B modellerle boy ölçüşebildiğine ikna olmak zor
Doğal görsellerde epey iyi çalıştı, ama inpaint edilen bölge çevresine göre belirgin şekilde fazla pürüzsüzdü ve yeni nesneler eklemede çok zayıftı. Çıktının 512x512 ile sınırlı olması da pratik kullanımını azaltıyor
- Verilen örneklerin gerçek performansı temsil ettiğini mi düşünüyorsunuz, yoksa cherry-pick edilmiş gibi mi duruyor, merak ediyorum
Birkaç yıl önce istemci taraflı bir inpainting projesi yapmıştım. Amaç, konser organizatörleri için banner reklamları inpaint ederek farklı yerleşim boyutlarına uygun reklamları kolayca üretmekti ve birkaç ünlü şarkıcının Noel temalı reklamları üzerinde çalışmıştım
En tuhaf olan, inpainting aracının görsele garip insanlar eklediği anlardı. Şarkıcı simler ve kırmızı süslerle bezenmişti ama model silindir şapkalı huysuz bir yaşlı adam eklemişti. “Ürkütücü yaşlı adam ekle” düğmesine bastığımı hatırlamıyorum
O zamanlar arka uçta Stable Diffusion vardı ve Amazon dahil çeşitli model barındırma servislerinden geçmiştik; ama giriş görseli gereksinimleri birbirinden çok farklıydı, bu yüzden iş çok karmaşık hale gelmişti. Bazıları 200x60 banner gibi oranları destekleyemediği için başarısız oluyordu, bazılarıysa girişten önce yeniden boyutlandırma istiyordu; bu da en baştan düşük çözünürlüklü görsel vermek anlamına geliyordu. Çöp girerse çöp çıkar
Sonuçta ciddi miktarda ön hazırlık gerekiyordu ve müşteri benim denemelerimi fiilen kullanmadı
- Şarkıcı simler ve kırmızı süslerle bezenmişken model silindir şapkalı huysuz bir yaşlı adam eklediyse, bu Dickens'ın A Christmas Carol eserini çağrıştırıyor
  Britanya'da, insanların Noel etkinliklerinde fazla coşmaması için arka planda Scrooge benzeri bir figür bulundurmayı zorunlu kılan bir yönetmelik olduğuna eminim
- O dönemde topluluk tarafından üretilen modellerin, merge modellerin ve fine-tune modellerin hepsi aşırı öğrenmişti ve portreler ile önden çekimlere optimize edilmişti. Her şeyi insana dönüştürmeye çalışıyorlardı
  Yüz inpainting'i bile birkaç farklı araç dolaşmadan ancak yapılabilir hale geliyordu; onun dışındaki şeyleri inpaint etmekse neredeyse imkansızdı. Bu modeller ayrıca nesneleri sahneye doğal biçimde yerleştirmekte özellikle kötüydü. Kabaca bir kolye ya da kemer gibi şeyler bir şekilde olabiliyordu ama sahneye yeni bir nesne soktuğun an sonsuz farklı biçimlerde başarısız oluyordu
  Çözünürlük tarafında da 512x512'de çok daha iyi çalışıyorlardı; bundan ne kadar uzaklaşırsan sorun o kadar artıyordu
  Banner reklam inpaint etmeye çalıştıysanız büyük ihtimalle ciddi biçimde bozulmuştur. O modeller yazı tipleriyle başa çıkamıyor, piksel düzeyinde doğru aktarımda da zayıf kalıyordu. O dönemde gerçekçi yaklaşım muhtemelen banner reklamı elle yerleştirip sadece kenarlarını yapay zekayla düzeltmek olurdu. Tabii bunun için de bir miktar görsel sanat yeteneği gerekirdi
  Sadece iki görsel verip modelin gerisini halletmesini beklediyseniz, girişiminiz cesurdu ama yapılabilir bir iş değildi
- Bunun sebebi, SD gibi küçük modellerin çok belirli bir çözünürlükte eğitilmiş olması. Daha gelişmiş modeller daha yüksek kaliteyle ya da daha çeşitli çözünürlük kümeleriyle eğitiliyor
  Kaliteli bir modelle düşük çözünürlüklü görsel ürettiğinizde, aslında çok daha büyük bir görselin bir kısmını kesip dışarı veriyormuş gibi hissettiriyor. Saatlerce deneme yaptıktan sonra vardığım izlenim bu; büyük modellerde bir nesneyi ortaya koymaya çalışsanız bile çoğu zaman ortada görünmüyor. GPU'mun kaldırabileceği şeylerin de bir sınırı var
Bunu kullanan birkaç demo space var. Bu en iyisi gibi görünüyordu ve maskeyi elle boyamanıza izin veriyor, ama denediğim tüm görsellerde başarısız oldu: https://huggingface.co/spaces/multimodalart/Moebius
- Biraz kurcalayınca çalıştırmayı başardım ama kalite pek iyi değildi. Açık edilen ayarlarla hâlâ denemeler yapıyorum; burada görebilirsiniz: https://huggingface.co/spaces/jonatei/MoebiusDemo
  Şu anda aktif olarak kurcalıyorum, o yüzden arada bir bozulabilir :)
  Ücretsiz CPU üzerinde çalıştığı için tek görsel başına yaklaşık 80 saniye sürüyor
Her şeyin tarayıcı içinde çalıştığı ve tüm fine-tune modelleri deneyebildiğiniz küçük bir uygulama yaptım: https://inpaintlab.com/
Inpainting'in ne olduğunu bilmiyorum. Yorumlarda herkes bu terimi biliyor gibi ama bağlantı verilen sayfada bunun ne olduğunu açıklayan bir şey görmedim
- Görselleştirme görsellerine tıklarsanız gerçekte ne yaptığını görebilirsiniz. Mor alan, kullanıcının sisteme inpaint etmesini söylediği bölge; görsele tıklayınca sonucu görüyorsunuz
  Temelde model, mor olmayan bölgenin bağlamına bakıp mor bölgeye en uygun şeyin ne olacağını tahmin ederek görselin bir kısmını yeniden çiziyor. Sıklıkla nesne kaldırmak için kullanılıyor ama örnekte görüldüğü gibi başka işler için de kullanılabiliyor
Pek iyi değil. Inpaint edilen alan, her zamanki gibi doğal fotoğraflardaki ayrıntılı ve yüksek frekanslı dokuya kıyasla fazla pürüzsüz kalıyor
En fazla thumbnail'dan bir şey silmek için idare eder
- Bu da, örnekler de cherry-pick edilmiş. Doğal fotoğraftan elektrik hatlarının kaldırıldığı örnek özellikle kötü. Silinen yerde bant gibi bir iz hâlâ görünüyor
  Photoshop'un birkaç yıl önceki varsayılan onarma aracı da buna yakın bir iş çıkarabiliyordu
Keşke manga çevirisi için böyle modeller olsa. Şu an anime ve manga tarafındaki hafif inpainting modellerinde fiilî standart LaMa gibi görünüyor ama artık birkaç yıllık bir model, dolayısıyla gelişme alanı var gibi
- Oğlum için bir animasyon programını (merak ederseniz Leapfrog Letter Factory) outpainting edip sonra upscale etmeye çalışıyorum ve bunu yerelde yapmak epey zor oldu
  Acaba bu model yeniden eğitilebilir ya da fine-tune edilebilir mi diye merak ediyorum. “Uzmanlar” oluşturulabildiğinden bahsediliyor; belki o uzmanlar farklı karakter çevirilerini daha iyi anlayabilir
İşte bu işe yarayan yapay zeka. Mümkün hale getirdiği kullanım senaryoları gerçekten çok fazla
- Aynen, o yüzden sinir bozucu. Yerelde çalışan, belirli bir amaca odaklı ve tek bir işi istikrarlı biçimde iyi yapan modellerin gerçekten fark yaratabileceği çok fazla kullanım alanı var
  Ama şaşırtıcı toz temizleme ya da kusursuz sahne ayrıştırma gibi şeyler için kimse 1 milyar dolar yatırım yapmaz
  Bunun yerine her şeyi buluta yükleyip dev bir multimodal frontier model'den benim istediğim tek işi yapmasını nazikçe istemek zorunda kalıyoruz
- Son 7 gün içinde telefonla çektiğiniz fotoğrafları kaç kez düzenlediğinizi merak ediyorum
Anlamadım. Bunu nerede deneyebileceğim belli değil; yoksa bu sadece bir reklam mı?
- Güzel görünüyor ama nasıl kullanılacağını anlayamadım
  Düzenleme: Sanırım buldum
  https://huggingface.co/hustvl/Moebius

Moebius: 0.2B görüntü inpainting modeliyle 10B sınıfı performans

Arka plan ve problemin tanımı

Yöntem — genel pipeline

Temel sonuçlar (Highlights)

Aşırı parametre verimliliği (< %2)

15 kat daha hızlı çıkarım (26ms/adım)

10B sınıfı inpainting kalitesi

Sinerji temelli temel yenilikler

Hantal genel amaçlı modeller yerine göreve özel uzman

Değerlendirme ve karşılaştırma

İlgili okumalar

1 yorum

Hacker News görüşleri