Krea 2: Açık ağırlıklı 12B görüntü modeli teknik raporu

(krea.ai)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Krea 2, tek bir cilalı varsayılan yerine yaratıcı keşfi öne çıkaran bir görüntü üretim temel modelidir; model ağırlıkları ve çıkarımı permissive license ile yayımlanmıştır
Eğitim süreci pretraining → midtraining → SFT → preference optimization → RL şeklinde ilerler; veri kürasyonu, altyazılama, prompt genişletme ve stil referansı çıktı dağılımını aşamalı olarak rafine eder
Mimari, basit bir DiT ailesini temel alır; GQA, gated sigmoid attention, SwiGLU, Qwen 3 VL, Qwen Image VAE ve FLUX 2 VAE gibi bileşenleri bir araya getirerek kararlılık ve verimliliği dengeler
Krea 2, text-to-image alanında Artificial Analysis leaderboard’da ilk 10’a girdi ve bağımsız laboratuvar modelleri arasında 2. sırayı aldı
Büyük ölçekli eğitim için PyTorch, FSDP2, tensör paralelleştirme, Kubernetes, Virtual Kubelet, Weka ve PostgreSQL tabanlı bir sistem kuruldu; sonraki adım olarak MoE, sparse attention, native 2K–4K, NVFP4 ve Muon scaling değerlendiriliyor

Yaratıcı keşfi hedefleyen görüntü temel modeli

Krea 2, geniş estetik çeşitlilik ve kullanıcının yaratıcı kontrolünü hedefleyen bir görüntü üretim temel modeli serisidir
Açık materyaller Release page, Hugging Face weights/license, GitHub code/license ve Krea Image tool üzerinden sunulmaktadır
Model ağırlıkları ve çıkarım permissive license ile yayımlanmıştır
Krea, diffusion ve flow-matching tabanlı görüntü modellerinin yüksek çözünürlüklü görüntüler, photorealism, kararlı yapı, yoğun metin render etme, geniş dünya bilgisi ve ayrıntılı prompt uyumu düzeyine kadar geliştiğini; ancak birçok sistemin dar bir varsayılan estetiğe yakınsadığını düşünüyor
Krea 2, tek bir cilalı varsayılanı optimize etmekten çok çeşitli stilleri, atmosferleri, kompozisyonları ve görsel yönleri keşfetmeye imkân veren bir üretim ortamı olmayı hedefler
Text-to-image alanında Artificial Analysis leaderboard’da ilk 10’a girdi ve bağımsız laboratuvar modelleri arasında 2. sırayı aldı

Veri kürasyonu ve altyazılama stratejisi

Krea ekibi, broad world knowledge ve style coverage içeren bir pretraining dataset oluşturmak için büyük ölçekli veri altyapısını ve dağıtık eğitim çerçevesini sıfırdan kurdu
“İyi bir data mix” için yüksek kaliteli görüntülerin yanı sıra çeşitlilik ve geniş domain coverage gerektiğini düşünüyor
aesthetic-score ve image-quality-assessment tabanlı filtreleme implicit bias oluşturabilir
- motion blur veya softness kasıtlı bir sanatsal tercih olabilirken blurry image olarak düşük değerlendirilebilir
- caption görüntüyü doğru açıklıyorsa istenmeyen görüntüler bile downstream eğitimde faydalı olabilir
Pretraining dataset içinde duplicated samples, over-represented concepts, VLM’in önemli unsurları yakalayamadığı örnekler, undesired biases ve artifacts üreten örnekler, low resolution’da kararlı biçimde modellenmesi zor high visual complexity örnekler ve AI-generated samples filtrelendi
Krea 2 pretraining mix içinde AI-generated images kullanılmadı
- synthetic data ve distillation, capability edinimi için bir shortcut olabilir
- Az miktarda AI-generated images bile modelin çıktı dağılımına bias ekleyebilir ve model quality için pratikte bir upper bound belirler diye değerlendiriliyor
- Bunları ayıklamak için in-house classifiers tasarlandı
Altyazılar multi-stage bir yaklaşımla oluşturuldu
- target image üzerinde OCR model çalıştırılarak visible text çıkarıldı
- OCR sonuçları ve metadata captioning model’e verilerek extracted text ve world knowledge içeren enriched caption üretildi
- context-rich long-form caption, daha ucuz bir LLM ile farklı uzunluk ve formatlarda yeniden yapılandırılarak modelin çeşitli prompt style’larına maruz kalması sağlandı
Long prompts yoğun supervision sağlayarak daha hızlı yakınsama ve daha düşük training loss üretti; downstream kullanım için short/medium prompt maruziyeti de korundu

Çözünürlüğe göre eğitim verileri ve midtraining

Pretraining verileri 256px, 512px, 1024px çözünürlük aşamalarından geçer
- FLOP’ların çoğu low-resolution aşamasına ayrılarak core capability verimli biçimde öğrenilir
- Ardından resolution artırılarak high-fidelity generation capability kazandırılır
- Low-resolution pretraining, basic text-image alignment ve structure öğrenir
Low-resolution dataset, milyarlarca image ölçeğinde olduğundan düşük maliyetli CPU-based filters’a büyük ölçüde dayanır
- Broken-file, resolution, aspect-ratio filters ile uygun olmayan images kaldırılır
- Laplacian filters ile extreme textures ve noise patterns içeren images kaldırılır
- RGB entropy, white/black pixel ratios, custom heuristics ve in-house classifiers ile flat-color backgrounds ve border artifacts azaltılır
In-house classifier, büyük VLM ile filtering task için system prompt oluşturup pseudo-labeled dataset ürettikten sonra küçük DINOv3 veya SigLIP-2 tabanlı classifier eğitme yöntemiyle kurulur
- Low-resolution aşamasında GPU compute gerektiren filtering model, verimlilik için 1B parameters altında tutulur
Low-resolution deduplication, ağırlıklı olarak md5, phash ve colorhash’i birleştiren hash-based methods kullanır
- Temel 8x8 phash, color’ı dikkate almadığı için false-positive rate yüksekti
- Daha sağlam deduplication için 12x12 phash ve colorhash birleştirilir
Training resolution büyüdükçe image-quality ve aesthetic filters devreye alınır
- Quality score yalnızca çok poor quality images’ı kaldırmak için kullanılır; score tabanlı oversampling için kullanılmaz
- OCR tabanlı image-complexity score ve text density ile, low resolution’da text ve content’i anlamlı biçimde temsil etmesi zor olan images hariç tutulur
SigLIP-2 embeddings üzerinde sparse autoencoder eğitilerek SAE tabanlı tagging system oluşturuldu ve explicit classifier olmadan clear visual artifacts’ı filtrelemek için kullanıldı
Midtraining, pretraining’den farklı olarak belirli visual domain’lerde iyi stylistic coverage ve high-quality images sağlayan image sources’ı açıkça seçer
- Pretraining, general pool’dan başlayan bottom-up bir süreçtir
- Midtraining, önce domains ve sources’ın seçildiği top-down bir kürasyondur
- General pretraining distribution ile high-quality SFT distribution’ı yumuşak biçimde bağlayan aşamadır
Semantic clustering ve retrieval-based strategies ile world-knowledge coverage güçlendirilir
- FAISS ile hierarchical k-means clustering uygulanır
- VLM, cluster centroid yakınındaki images’ı inceleyerek cluster’a ad verir ve gerekiyorsa flag eder
- Flagged clusters, human review’den geçirilerek low quality veya problematic cluster kaldırılır
- Kalan leaf cluster içinde SigLIP similarity ile semantic deduplication uygulanır
Named entity coverage için Danker ile English Wikipedia üzerinde PageRank çalıştırılır ve rank’e göre top 90% articles korunur
- Wikidata metadata ile unrepresentable subjects kaldırılır
- Kalan yaklaşık 5 million concepts için dataset genelindeki caption’larda full-text search yapılır
- Sampling sırasında rare concepts’tan bahseden caption’lara ait images’a öncelik verilir

Mimari seçimler ve ablasyon

Krea 2, ablasyonlar sonucunda basit ama yüksek performanslı bir diffusion transformer (DiT) mimarisi geliştirdi
Mimari ablasyonu stability, performance, efficiency, simplicity olmak üzere dört kategoride değerlendirdi
- stability, loss/gradient spike’larının azalmasına ve eğitim kararlılığına bakar
- performance, yakınsama hızına ve high resolution ile uzun horizon’da korunup korunmadığına bakar
- efficiency, quality’den ödün vermeden parameter count, FLOPs, memory ve communication’ın azaltılıp azaltılamayacağına bakar
- simplicity, diğer kategorilere zarar vermeden modelin sadeleştirilip sadeleştirilemeyeceğini kontrol eder
Birçok mimari kararı, LLM alanındaki benimsenme eğilimlerinden etkilendi; LLM ekosistemindeki kernel ve optimizasyonların diffusion model’de de kullanılabileceği düşünüldü
Nihai mimarinin başlıca seçimleri şöyle
- Attention, gated sigmoid attention ile GQA kullanır
- MLP, GeLU MLP’den 4x expansion factor’lü SwiGLU katmanlarına değiştirildi
- Residual, standard residual olarak korundu
- Text encoder olarak Qwen 3 VL kullanıldı
- Modulation, per-block MLP modulation’dan bias’lı light modulation’a değiştirildi
- Autoencoder olarak Qwen Image VAE ve FLUX 2 VAE kullanıldı
- Block design, single stream transformer block kullanır
- Norm, zero-center RMSNorm ve QKNorm kullanır
- Positional encoding, 3D Axial RoPE olarak korundu
GQA, yalnızca minimal degradation’a yol açarken computational efficiency’yi iyileştirir
- MLA, GQA’ya göre küçük bir gain gösterdi, ancak additional computational overhead nedeniyle benimsenmedi
- gated sigmoid attention büyük bir performance gain sağlamadı, ancak loss ve gradient-norm curves’ta daha kararlı dynamics gösterdi
single-stream, dual-stream ve hybrid-stream design arasında büyük bir performance farkı yoktu; hybrid-stream biraz daha iyi olsa da sadelik için single-stream blocks kullanıldı
MMDiT’nin per-block MLP modulation’ı total parameter count’un %20–30’unu oluşturabildiğinden, Krea 2 bunu per-block ayarlanabilir bias term ile değiştirdi
timestep conditioning deneylerinde 256px’te 4–16 timestep tokens, AdaLN’nin yerini almak için yeterliydi; ancak 512px ve 1024px’te AdaLN baseline’dan daha kötü performans verdi
Nihai positional encoding, head dimensions’ları frame, height ve width’e atayan 3D axial RoPE’dir
- text tokens’ın RoPE indices değerleri zero olarak ayarlandı
- partial RoPE, 256px’ten 512px’e scale ederken iyi zero-shot inference sonuçları verdi; ancak high-resolution training sonrasında nihai performans baseline’dan daha düşüktü
Autoencoder, baseline olarak FLUX.1-dev autoencoder ile başlayıp Qwen Image VAE, DC-AE, FLUX 2 VAE ve internal autoencoder ile karşılaştırıldı
- DC-AE’nin, reconstruction error nedeniyle fine detail çözümleme yeteneğine sert bir üst sınır getirdiği değerlendirildi
- Qwen Image VAE ve FLUX 2 VAE, excellent reconstruction quality’yi korurken latent space çok daha hızlı convergence sağladı
- early models için Qwen Image autoencoder kullanıldı, larger models için FLUX 2 VAE benimsendi
Text encoder olarak T5-XXL, T5Gemma, umT5, Qwen 2.5 VL ve Qwen 3 VL karşılaştırıldı; nihai text encoder olarak Qwen 3 VL kullanıldı
- VLM, text ve image içeren daha zengin bir input space ve daha güçlü multilingual generalization sağlar
- VLM feature’larının yalnızca last layer’ını kullanmak yerine, tüm layers boyunca hidden features’ı aggregate eden shallow attention layer tanıtıldı
- token axis’e lightweight bidirectional transformer layers eklenerek autoregressive bias azaltıldı

Eğitim hattı, tercih optimizasyonu, RL

Eğitim hattı, modern LLM eğitim hatlarından esinlenen çok aşamalı bir yapıdadır
Ön eğitim; metin-görüntü hizalaması, metin işleme, stil kapsamı ve yapısal tutarlılık gibi temel yetenekleri oluşturur
- Final model, standart rectified-flow loss ve v-parameterization ile eğitilir
- 256px aşamasının ilk epoch’unda iREPA kullanılarak erken aşama yakınsaması önemli ölçüde hızlandırılır, ardından kaldırılır
- 256px ve 512px aşamalarında 8-bit training ile bf16 baseline’a kıyasla %15–20 eğitim hızı artışı gözlemlendi
- 1024px’ten final RL aşamasına kadar standart bf16 training kullanılır
Yüksek çözünürlüklü ön eğitimde, çözünürlüğe bağlı timeshift schedule uyarlaması önemlidir
- Hem eğitimde hem çıkarımda shifted logit-normal sampling schedule kullanılır
- Çözünürlük arttıkça shift kademeli olarak artırılır
- Sweep yalnızca training shift’e uygulanır; inference shift schedule ise sabit tutulur
Ön eğitim sırasında warmup-stable-decay learning-rate schedule kullanılır ve PMA uygulanır
- PMA, EMA ile karşılaştırılabilir performans elde ederken EMA’nın kayda değer bellek ek yükünden kaçınır
Optimizer olarak hat genelinde birincil optimizer AdamW kullanılır
- Muon, ilk adımlarda AdamW’den daha hızlı yakınsasa da daha uzun ufuklarda daha düşük performans ve kararlılık sorunları gösterdi
- MMDiT’nin ilk ve son linear layer’ları Muon parametrelerinden çıkarılıp Nesterov momentum eklendiğinde, hem düşük hem yüksek çözünürlükte AdamW baseline’ını tutarlı biçimde geride bıraktı
- En yeni ön eğitim çalışmasında zaman kısıtları nedeniyle Muon benimsenmedi; bir sonraki ön eğitim döngüsünde benimsenmesi planlanıyor
SFT aşamasında, yüksek estetik niteliğe sahip küçük ve özel bir görüntü kümesi kürate edilir
- Amaç, modeli estetik açıdan arzu edilen yönlere daha fazla bias etmektir
- Özellikle daha erken checkpoint’lerde sık görülen yüksek doygunluk ve doku sorunlarını gidermeye yardımcı olur
- Domain-specific SFT checkpoint’leri eğitildikten sonra model merging ile generalist SFT checkpoint oluşturulur
Tercih optimizasyonu, post-training stack’in ilk aşamasıdır ve iki aşamalı bir hattan oluşur
- 1. aşama, büyük ölçekli sentetik tercih çifti üretim hattıyla ilk iyileştirmeyi gerçekleştirir
- Tercih çiftlerinin çoğunluğu en az bir on-policy örnek içerir
- 1. aşama, yalnızca insan anotasyonlarının kullanıldığı bir kalibrasyon aşamasıdır
- İnsan anotasyonları, modelin güçlü ve zayıf yönlerine ve kendine özgü davranışlarına aşina olan kurum içi kişiler tarafından toplanır
PO’da policy divergence yaygın bir olgu olarak ortaya çıkar
- DPO türü yöntemler, tercih edilen örneğin likelihood’u ile tercih edilmeyen örneğin likelihood’u arasındaki margin’i artırmayı teşvik eder
- Çeşitli tercih veri kümesi karışımlarında, modelin her iki örneğin generation likelihood’unu da düşürdüğü, ancak bunu farklı oranlarda yaparak objective’i sağladığı bir olgu gözlemlendi
- Divergence, modeli genel ön eğitim dağılımından uzaklaştırır ve eğitimin ilerleyen bölümlerinde yüksek frekanslı artefaktlar olarak ortaya çıkar
- Bunu hafifletmek için STPO adlı bir DPO varyantı tasarlandı
RL, eğitim hattının final aşamasıdır
- Multi-reward GRPO-style method kullanılır
- Reward model’ler; general aesthetic model, prompt-following reward, text-rendering reward, artifact and structure reward bileşenlerinden oluşur
- General aesthetic model, PO aşamasında toplanan tercih verileriyle open-source VLM’in finetuning edilmesiyle elde edilir
Prompt-specific rubric reward, prompt’u doğrulanabilir gereksinimlere ayırır ve üretilen görüntünün bunları karşılayıp karşılamadığını değerlendirir
- Prompt following’i generic image quality’ye indirgemeden, ince taneli prompt kısıtlarını karşılamasını sağlar
Yapısal artefaktları azaltmak için dedicated artifact reward model eğitilir
- Fazladan parmaklar, bozuk biçimli uzuvlar, çarpıtılmış metin gibi hatalar insanlar için belirgindir, ancak general-purpose VLM judge’lar bunları sık sık kaçırır
RL aşamasının tamamı CFG olmadan eğitilir
- Conditional model distribution’ı hızla iyileştirerek eğitimin başlarında no-CFG örneklerini guided örneklere çok daha yakın hale getirir
- Çıkarım zamanında CFG, ek bir control knob olarak etkin kalabilir
RL aşamasından sonra isteğe bağlı bir timestep-distillation aşaması içerir
- DMD, DMD2, Decoupled DMD, piFlow, APT incelendi ancak Trajectory Distribution Matching(TDM) benimsendi
- TDM, timestep’ler genelinde DMD uygulayarak trajectory level’da distribution matching gerçekleştirir

İstem genişletme ve stil referansı

Eğitim sırasında model, görüntünün yoğun görsel ayrıntılarını açıklayan zengin caption’lar kullanır; ancak gerçek kullanıcı girdileri kısa ve belirsizdir, ifade alışkanlıkları da çeşitlidir
prompt expander, basit veya yetersiz user prompt’ları, kullanıcının niyetinin üzerine yazmadan daha zengin bir görsel yöne dönüştürür
- Mevcut bir open-source LLM üzerine 2 aşamalı SFT ve RL pipeline’ı ile eğitildi
- Hedefler arasında yalnızca görüntü kalitesini iyileştirmek değil, creative variation ve controllable exploration da yer alır
SFT verisi, long captions’tan synthetic “user captions” üretilerek oluşturulur
- synthetic user captions, target caption’daki birçok visual detail’i kasıtlı olarak çıkaran, kısa, conversational ve semi-instructional prompt’lardır
- underspecified user prompt → expanded model-friendly caption biçiminde paired data oluşturur
- reasoning ability’yi korumak için synthetic thinking traces da üretilir
targeted distribution shaping de az miktarda uygulanır
- visually rich and artistic imagery oversample edilir
- photorealistic descriptions’a genişletilmesi gereken prompt’lara lightweight photographic-medium bias eklenir
- Amaç, bir house style dayatmak değil; hem expressive art-directed imagery’yi hem de straightforward photorealistic requests’i kapsamak
prompt expander RL, target caption imitation’dan çıkarak image quality’yi iyileştirirken user intent’i koruyan expansions üretmeyi hedefler
- GDPO ve multi-reward objective ile eğitilir
- image-level rewards, resulting generations’ın quality ve preference’ını ölçer
- prompt-level verifiable rewards, expansion’ın original request’e sadık olup olmadığını kontrol eder
- safety ve constraint checks, overall reward için gate olarak kullanılır
prompt expander’ın failure mode’larından biri diversity collapse’tir
- image rewards baskın olduğunda single safe high-reward house style öğrenilebilir
- prompt groups üzerine DINOv3 embedding diversity score eklenerek quality ve alignment ile birlikte intra-group visual diversity ödüllendirilir
- variation’ı korumak için diversity reward’un training boyunca active tutulması gerekir
style-reference system, base model üzerine inşa edilir
- Kullanıcılar text ile görüntü üretirken bir veya daha fazla reference image ile output style’ı guide edebilir
- multiple styles’ın smooth semantic mixing’i, her style reference strength’in continuous control’ü ve complex styles’a yönelik state-of-the-art adherence tasarım hedefleridir
- Yaygın failure mode’lardan biri, style image’ın content ve subject matter’ının final image’a leakage yapmasıydı
- style-reference module eğitimi için self-supervised technique tasarlandı ve sonrasında preference-optimization step ile outputs ek olarak align edildi

Dağıtık eğitim altyapısı ve operasyon

Krea’nın dağıtık eğitim framework’ü PyTorch üzerine sıfırdan inşa edildi ve ağırlıklı olarak DTensor soyutlaması ile torchtitan projesinin desteklediği torch yerel özelliklerini kullandı
- Ön eğitim ve son eğitim çalıştırmalarının çoğunda FSDP2 ile Megatron-LM tarzı tensör paralelleştirme birlikte kullanıldı
- TP boyutunun 2’den büyük olduğu konfigürasyonlarda torch.compile bayrağıyla async-TP etkinleştirilerek naive TP’ye kıyasla orta düzeyde hız artışı elde edildi
- Autoencoder parametreleri tüm cihazlara çoğaltıldı; yalnızca text encoder ve ana MMDiT backbone sharding’e tabi tutuldu
- Düğüm içi bağlantılar için NVLinkSharp, düğümler arası bağlantılar için InfiniBand kullanıldı
Eğitim verimliliği için hidden dimension’ı daha büyük, biraz daha geniş bir model kullanıldı
- Hidden size büyüdükçe her katmanın hesaplama yoğunluğu artar; bu da FSDP2 prefetching ile gecikmeyi gizlemeyi kolaylaştırır
- Katman sayısını azaltmak all-gather ve reduce-scatter işlem sayısını düşürür
- Bu değişiklik, ön eğitim çalıştırmalarının genelinde NCCL ile ilgili hataları belirgin ölçüde azalttı
- Daha büyük matris çarpımı boyutları, 8-bit eğitimin quantization/dequantization ek yükünü dengelemeye yardımcı olur
Optimizasyon stratejisinin merkezinde torch.compile yer aldı
- Attention için varsayılan olarak en yeni cuDNN kernel’ları kullanıldı; gerektiğinde FlexAttention veya FlashAttention 3 tercih edildi
- Düşük çözünürlüklerde selective activation checkpointing kullanıldı
- Yüksek çözünürlüklerde activation’lar belleğe hâkim olmaya başladığından full activation checkpointing kullanıldı
Veri yükleme için temel format Parquet’ti
- Her row’da görüntü referansı, crop/resize boyutları, caption ve diğer metadata saklandı
- Büyük ölçekli çalıştırmalarda, aynı aspect ratio’ya sahip görüntü batch’lerini yüklemek için row’lar önceden shuffle edilip packing yapıldı
- Packing sayesinde latent’lar tek bir autoencoder pass ile encode edilebildi
Büyük ölçekli dağıtık eğitimde tek bir GPU arızası veya straggler tüm çalıştırmayı durdurabilir
- Krea ölçeğinde hızlı ve sık checkpointing ile startup time iyileştirmeleri üzerinden MTBF ve MTTR’yi optimize etmek yeterli oldu
Araştırma, production inference ile GPU’ları paylaşan tek bir Kubernetes cluster’ında yürütüldü
- Araştırma gerektiğinde tüm GPU pool’unu kullanabilecek şekilde tasarlandı
- Cluster’daki tüm GPU’lar eğitim çalıştırmasına ayrıldığında Krea’nın inference workload’u otomatik olarak başka bir yere migrate edildi
- Traffic failover sistem tarafından yönetilerek yerel GPU kalmasa bile production responsiveness korundu
Kueue, workload scheduling’in temel bileşenlerinden biriydi
- Kueue, Workload priority ile Kubernetes Pod priority’yi birleştiren 2-tier priority system sağlar
- Multi-node training için gereken gang-scheduling’i mümkün kılar
- “borrowing”, “lending” ve “reclamation” queueing primitive’leri utilization’ı en üst düzeye çıkarmaya yardımcı oldu
Tüm GPU’lar araştırmaya ayrıldığında inference’ı başka yerde scale eden bileşenler için Virtual Kubelet kullanıldı
- Pod bir virtual Kubernetes node’a schedule edildiğinde Krea kodu pod specification’ını target provider ile uyumlu biçime dönüştürür
- Provider-side failure oluştuğunda iki taraftaki durum reconcile edilir
- Recovery Kubernetes’e devredilir; sistem failure’ı algılayıp Kubernetes’e iletir
Observability, büyük ölçekli pretraining’de en çok öğrenilen alan oldu
- GPU, PCIe, NVLink ve InfiniBand ile ilgili subsystem metric’leri olmadan bu ölçekte training mümkün değildi
- Metric’ler DCGM ve custom DaemonSet kombinasyonuyla toplandı
- GPU 75–78°C’yi geçtiğinde throttling başlar; toplam throughput düşer ve training instability artar
- DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, training’in beklendiği gibi yürüyüp yürümediğini anlamak için preferred indicator’dı
- InfiniBand metric’leri fabric instability, link flapping, packet error, congestion, symbol error ve throughput disparity teşhisi için kritikti
GPU count scaling zordu
- 128 GPU’nun altındaki run’lar çok kararlıydı ve çoğu zaman günlerce sorunsuz çalıştı
- GPU count artırılınca run’lar çok daha sık crash etmeye başladı
- Çok büyük scale’de 24 saati aşan tek bir run bile tamamlanamadı
- Birçok crash’in açık bir nedeni yoktu; tüm metric’ler healthy görünürken NCCL timeout gibi ortaya çıkıyordu
İlk büyük hatalardan biri Ceph’i benimsemekti; daha sonra Weka’ya geçildi
- Filesystem ile ilgili sorunlar ve downtime keskin biçimde azaldı, performance da benzer ölçüde iyileşti
- Weka, Krea 2 eğitiminde aggressive checkpointing’i mümkün kılan kilit unsurdu
- Checkpoint yaklaşık 30 saniyede tamamlanıyordu; bu sayede checkpointing nedeniyle kaybedilen süre azdı

Veri ambarı ve iş kuyruğu

K2 veri toplama ve kürasyonu için PostgreSQL sunucu cluster’ı merkezli özel bir warehousing and queueing system kuruldu
Her Krea tablet server’ına “krablet” deniyor
- Her krablet, bir data shard’ını barındıran bir Postgres instance’ı ile mutation’ları asenkron biçimde batch/queue ederek lock contention’ı azaltan bir “funnel” server deployment’ından oluşuyor
Tüm read işlemleri büyük ölçekli bir “RPC” server deployment’ı üzerinden proxy ediliyor
- RPC server, PgBouncer gibi geleneksel connection pooler’ların yerini alıyor
- Her RPC server, database’in tüm shard’ları için connection pool tutuyor
krablet sistemi yalnızca metadata tarafında 208TB’a kadar ölçeklendi ve saniyede on binlerce contended UPSERT transaction’ını işleyebiliyor
- Tüm research data için single source of truth sağlıyor
- stream-processing layer’ın data layer ile aynı hale gelebilmesini sağlıyor
Tipik job-processing workflow, Postgres table’ını queue gibi kullanma yaklaşımına dayanıyor
- OCR worker, contains_text IS NULL olan row’ları bulup işliyor
- embed worker, embedding_path IS NULL ve contains_text = FALSE olan row’ları işliyor
- FOR UPDATE SKIP LOCKED ile row claim ediliyor ve last_tried_at ailesindeki column’lar güncelleniyor
queue modeli Kafka veya Ray’den farklı bir retry davranışına sahip
- Failure durumunda row drop edilmiyor ya da dead-letter queue’ya gönderilmiyor
- İşlenemeyen row’lar da last_tried_at atomic update’i sayesinde queue’nun sonunda retry ediliyor
- Head-of-line blocking de önleniyor
worker sayısı dinamik olarak ayarlanabiliyor
- Processing job’ları Kubernetes ile deploy ediliyor ve data resharding olmadan isteğe göre scale up/down yapılabiliyor
- Bir job 1 worker ya da 1000 worker ile çalıştırılabiliyor
- Prometheus scaling metric’iyle pipeline’ın her bölümü available work’e göre autoscale edilebiliyor
Araştırmacıların rahat kullanımı için “pluck” adlı bir system sağlanıyor
- notebook’larda kullanıma uygun global map API sunuyor
- t.map, kullanıcının live progress’i görmek için attach olabileceği bir handle döndürüyor
- UDF, cloudpickle ile pickle edilip remote worker’da çalıştırılıyor
Sonraki nesil araştırmalar için krablet ve FOR UPDATE SKIP LOCKED queue semantics korunurken, object storage üzerinde LSM tree’ye data kaydeden bir successor system inşa ediliyor
- İlgili çalışma için supercomputing / distributed systems team işe alım bağlantısı sağlanıyor: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072ad0f4c9

Gelecek yönelimler

Krea 2’de stabilite ve iteration speed önceliklendirilerek görece muhafazakâr architecture ve optimizer seçimleri yapıldı
Bir sonraki pretraining cycle’da modern LLM transformer design’ını diffusion transformer’a uygulamayı hedefliyorlar
- Değerlendirilen yönler arasında MoE, sparse attention ile native 2K–4K resolution scale, NVFP4 pretraining ve Muon scaling yer alıyor
- Mevcut modelin undertrained olduğu ve daha uzun training’in fayda sağlayacağı düşünülüyor
Mevcut Krea 2 training pipeline’ı multi-reward RL stage ile sona eriyor
- Krea, internal expert’ları kullanarak OPD ve MOPD’nin diffusion model’lar için etkili distillation method’ları olduğunu halihazırda doğruladı
- Yakında daha fazla sonuç paylaşmayı umuyorlar
Production diffusion model, birbirine bağımlı birden çok modelden oluşan karmaşık bir konfigürasyon gerektiriyor
- latent diffusion model serving için genellikle autoencoder, diffusion transformer, text encoder ve prompt-expansion model gerekiyor
- Stack’e bağlı olarak style-reference model veya upscaler gibi ek module’ler de eklenebiliyor
- Bağımsız eğitilmesi gereken ama birbirine bağımlı birden fazla component’i sürdürmek, research team coordination’ını zorlaştırıyor
Krea, bir sonraki pretraining cycle’da architecture’ı basitleştirip birden çok component’i tek bir model altında birleştirmeyi planlıyor
Krea 2 esas olarak creative exploration için image generation’a odaklandı; ileride capability’yi robust editing, image reference ve native 2K/4K generation yönünde genişletmeyi hedefliyor
Geleneksel doğal dil prompting’inin tek başına tüm kullanıcı request kapsamını desteklemek için artık yeterli olmadığı düşünülüyor
- Kullanıcı prompt’larında natural language, tag, detailed JSON, bounding box, instruction, visual guideline, Markdown gibi çeşitli prompting style’ları gözlemleniyor
- Prompt expansion bunların bir kısmını çözebilir, ancak modelin bu prompt’ları native olarak anlamasının da core capability haline gelmesi gerektiği düşünülüyor

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

En yeni metinden görüntüye modelin ağırlıklarını yayımlayıp, eğitim sürecini de epey derinlemesine ele alan bir yazı paylaşmışlar
Gerçek eğitim ve veri altyapısı gibi normalde pek ayrıntılı yazılmayan kısımları da oldukça eklemişler; bununla ilgilenenler için ilgi çekici şeyler var gibi görünüyor
- Açık ağırlıklı görüntü üretim modeli hakkında kapsamlı bir teknik rapor olması etkileyici
  Bu alanı uzun süredir takip eden biri olarak, nihai ürünün arkasındaki deneyleri ve emeği okumak gerçekten ilginç; ayrıca topluluğun da deneyebilmesi için bazı ince ayar araçlarını yayımlarlarsa modelin potansiyelini daha da ileri taşıyabileceklerini düşünüyorum
- Krea’nın pornografi ya da gore gibi içerikleri nasıl ele aldığını merak ediyorum
  Büyük modellerin, yasal durumlarda bile güvenlik gerekçesiyle bu tür içerikleri sert biçimde dışlama eğilimi sinir bozucuydu
- Ideogram4, Flux2, Qwen-Image, ZiT ve Krea’ya bakınca açık ağırlıklar tarafında olumlu hareketlerin arttığını görüyoruz
  Aslında Flux.1 Krea geçen yıl temmuzdan beri GenAI Showdown benchmark sitemde vardı ve bu alanda bu neredeyse çok eskiymiş gibi hissettiriyor. Yeni modeli de düzgünce test etmek isterim
Ben Krea’nın kurucu ortağı ve CTO’su Diego Rodriguez. Bu kez ağırlıkları ve, mevcut sektör standardına göre epey dolu bir teknik raporu yayımladık
Raporda veri kürasyonu/captioning, model mimarisi, sonradan eğitim, pekiştirmeli öğrenme pipeline’ı, prompt genişletme, stil referansı ve altyapı ayrıntılı biçimde yer alıyor
Ağırlıklar ikiye ayrılıyor: Krea 2 Turbo, guidance ve timestep’i damıtarak çıkarımı hızlandıran model; Krea 2 RAW ise hackleme ve ince ayar düşünülerek hazırlanmış model
Açık LLM topluluğunun, modelleri farklı boyutlarda ve eğitim pipeline’ının çeşitli aşamalarında yayımlama işini iyi yaptığını düşünüyorum; biz de bu kez hem ara eğitim aşamasının hem de sonradan eğitim aşamasının checkpoint’lerini yayımladık. Görüntü ve multimedya tarafında bu nadir görülen bir şey, o yüzden bununla gurur duyuyorum
Artificial Analysis metinden görüntüye benchmark’ına göre görüntü kalitesi Nano Banana ile benzer seviyede: https://artificialanalysis.ai/image/leaderboard/text-to-imag...
Bireyler ve küçük işletmeler için de cömert bir lisans ekledik
OSS sürüm tanıtımı: https://www.krea.ai/krea-2-open-source / Huggingface model: https://www.krea.ai/krea-2/huggingface / GitHub deposu: https://www.krea.ai/krea-2/github / Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... / teknik rapor: https://www.krea.ai/blog/krea-2-technical-report
Sonuçlar çıktı ve özellikle Turbo modelin 8 adımda bu kadar hızlı olması düşünülünce gerçekten etkileyici
Yerelde barındırılabilen modeller arasında bunu geçen yalnızca Ideogram 4 vardı ama o da çok daha yavaş. Dakikalarla saniyeler arasında fark var
Dokuz köşeli yıldız, Count Rugen, insanla aşırı dolu düz dünya gibi her zamanki “model killer” testlerinde tökezledi ama genel olarak ağırlık sınıfının üstünde iş çıkardı; yerelde barındırılabilen modeller arasında en yüksek puanı aldı, genel sıralamada da Ideogram 4’ün hemen altında kalarak 15 testin 6’sını geçti
Yalnızca yerelde barındırılabilen modelleri karşılaştıran GenAI bağlantısı: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...
- Metinden görüntüye modeller için de model killer diye bir şey olduğunu ilk kez duyuyorum, komikmiş
  Test yönteminin böyle tuhaf derecede spesifik maddelere ulaşmış olması ilginç
Daha fazla açık ağırlıklı model gelmesi güzel, derinlikli yazıları da gerçekten seviyorum
Farklı stiller üretilebilsin diye manifold’u geniş tutma yaklaşımı da hoşuma gidiyor. Yalnızca birkaç stil preset’ine tam uyacak şekilde ayarlamaktan daha iyi bence
Ama Nano Banana 2 ya da Images 2.0 gibi gelişmiş görüntüden görüntüye / ajan tarzı kompozisyon modelleri zaten çok güçlü şekilde ortaya çıkmışken, bu biraz da artık “geçmiş savaşları verme” hissi yaratıyor
Temel Qwen 3 VL’yi çapraz şekilde ekleme yaklaşımının o seviyedeki görüntüden görüntüye performansa yaklaşabileceğinden oldukça şüpheliyim; ayrıca sağlam bir görüntüden görüntüye sistemi düzenleme, ince ayar, karakter tutarlılığı ve şu anda stil aktarımında kullanılan şeylerin genellenmesi açısından çok önemli. Stil aktarımı kısmı da yeterince açıklanmamış gibi görünüyor
O seviyeye ulaşmak kolay olmayacaktır ama görüntü modellerinin bir sonraki cephesinin kesinlikle burası olduğunu düşünüyorum. Ideogram sanki o yöne doğru birikim yapıyor ama açık ağırlık tarafında bunu henüz pek görmedim
- Şüpheciliği anlıyorum ama içeride, moodboard benzeri pek çok durumda bu model Nano Banana’dan daha fazla kullanılıyor. NBP’den 4 kat daha ucuz olması da yardımcı oluyor
  Ajan tarzı workflow’lar Krea 2 ile uyumlu, o yüzden o kısmı çok anlayamadım. Eğer düzenleme modelini kastediyorsanız o da hazırlanıyor
  Metinden görüntüye benchmark’larında da benzer seviyedeler; yukarıdaki yorumda paylaştığım Artificial Analysis bağlantısına bakabilirsiniz
  Nano Banana ya da ChatGPT’yi yeniden eğitip müşterinin markasını anlamasını sağlayamazsınız; müşterilerimizin sürekli dile getirdiği şikayet tam da bu. Üstelik açık kaynak olduğu için bire bir karşılaştırma da kolay değil
- Bu model de görüntüden görüntüye desteği sunuyor; Qwen 3 VL ile ilgili sorunun ne olduğunu anlamıyorum
  Stil aktarımının açıklanmadığı yorumu da belirsiz. Sayfada “reference” kelimesi 11 kez geçiyor ve gerçekten okuyunca bu konunun epey ele alındığını gördüm
Krea'nın model ağırlıklarının indirilebilmesine izin vermesi güzel, ancak lisansında böyle maddeler varsa bu açık kaynak değildir: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
Ticari kullanım yalnızca şirketin son 12 aydaki toplam yıllık geliri 1 milyon doların altındaysa izinli; bunun üzerindeyse ayrı bir enterprise lisansı gerekiyor
Ayrıca Krea modeli, türevleri ve çıktıları ilgili yasa, sözleşme ve izinli kullanım politikasını ihlal edecek şekilde kullanılamaz; dağıtım sırasında yasaklı, zararlı veya yasa dışı içerik üretimini tespit etmek, önlemek ve azaltmak için makul bir içerik filtresi uygulanması gerekir
İzinli kullanım politikasına da uyulmalıdır; politika sayfası https://www.krea.ai/krea-2-use-policy içinde Krea'nın veya dağıtıcının uyguladığı güvenlik önlemlerini, kullanım kısıtlamalarını, içerik filtrelerini, kaynak belirtmeyi ve watermark atlatmayı yasaklayan maddeler de yer alıyor
Turbo için şimdiden bir GGUF dönüştürülmüş sürüm çıkmış gibi görünüyor: https://huggingface.co/Abiray/Krea-2-Turbo-GGUF
- RAW burada: https://huggingface.co/vantagewithai/Krea-2-Raw-GGUF
İşe alım sayfasında ilginç bir madde var
Eski usul Mellanox'un nasıl bir yer olduğunu bilenlerin hoşuna gidebilir: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a...
İyi bir model, ancak Qwen VAE kullanmaları biraz hayal kırıklığı yaratıyor
- Gerçekçiliği zorlamak istiyorsanız, web sitesi ve API'deki Krea 2 Large, FLUX 2 VAE ile eğitildi
  İkisini de kullandıktan sonra Flux VAE'nin gerçekçi doku öğreniminde biraz daha üstün olduğunu düşünüyorum, ama fark sanıldığı kadar büyük değil. Qwen VAE de kontrollü deneylerde genel olarak çok iyiydi ve çeşitli stiller üretmeyi öğrenmede güçlüydü
- Bunun yerine wan2.1 VAE kullanmanın bu sorunu çözdüğünü söyleyenler de vardı
  Henüz bunu bizzat denemeye vaktim olmadı
Krea 2'yi denemeyi dört gözle bekliyorum. Z-Image Turbo'yu her gün kullanıyorum ve gerçekçi görseller ile illüstrasyonlar için stock photo aboneliğinin yerini aldı
Eğitim maliyetinin ne kadar olduğunu merak ediyorum
- Kahveye kesin çok para gitmiştir
  Eğitim maliyetini düzgün tahmin etmek zordu çünkü çıkarım ve araştırma iş yüklerinin birlikte çalıştığı paylaşımlı bir Kubernetes kümesi kullanıldı
Böyle bir modeli self-hosting yaparken ne kullanıldığını merak ediyorum
ollama ve open-webui denedim ama görüntü üretimini hiç desteklemiyorlardı
- Bu modeli henüz denemedim ama ComfyUI kesin destekler ve alışınca arayüzü de gayet iyiydi
  Takılırsanız önce workflow kopyalayıp yapıştırarak başlayabilirsiniz
- Koboldcpp görüntü üretimini destekliyor, ancak Krea2 desteği için bir sonraki sürümü beklemek gerekiyor
  https://github.com/LostRuins/koboldcpp

Krea 2: Açık ağırlıklı 12B görüntü modeli teknik raporu

Yaratıcı keşfi hedefleyen görüntü temel modeli

Veri kürasyonu ve altyazılama stratejisi

Çözünürlüğe göre eğitim verileri ve midtraining

Mimari seçimler ve ablasyon

Eğitim hattı, tercih optimizasyonu, RL

İstem genişletme ve stil referansı

Dağıtık eğitim altyapısı ve operasyon

Veri ambarı ve iş kuyruğu

Gelecek yönelimler

İlgili okumalar

1 yorum

Hacker News görüşleri