Mi:dm 2.0 - KT'nin şirket içinde geliştirdiği açık kaynak LLM

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm", Kore toplumunun dilsel/kültürel özelliklerini yansıtan, ticari kullanıma uygun bir açık kaynak model Yüksek kaliteli Korece verilerin seçilmesi ve sentetik veri üretimi, curriculum learning, Koreceye özel özgün tokenizer gibi çok katmanlı optimizasyon stratejileri kullanıyor Cihaz içi kullanım için mini (2.3B), performans ve verimlilik dengesi sunan base (11.5B), frontier seviyesinde pro (41B, yakında açıklanacak) olmak üzere 3 model Mi:dm 2.0 Mini (2.3B): Hafifletilmiş model; gömülü ortamlar ve özel amaçlar için optimize edildi Mi:dm 2.0 Base (11.5B): Büyük ölçekli genel amaçlı model; Depth-up Scaling tekniğiyle mevcut 8B model derinleştirilerek performans güçlendirildi Base ve Mini'nin ikisi de 32K token girişi destekliyor KMMLU, HAERAE gibi Korece benchmark'larda en üst düzey performans gösteriyor ve hem araştırma hem ticari kullanım için serbest olan MIT lisansı ile yayımlandı Veri yapısı ve strateji Yüksek kaliteli Korece belgelerin elde edilmesine odaklanılıyor; belgeler bağlamsallık, okunabilirlik, zararsızlık ölçütlerine göre seçiliyor Alan çeşitliliğini sağlamak için sentetik veri (çeviri, anahtar kelime tabanlı ders materyali üretimi, Chain-of-Thought vb.) kullanılıyor Curriculum learning ve alan dengeleme ile eğitim verisindeki dengesizlik gideriliyor Korece için optimize tokenizer ile sıkıştırma verimliliği ve dil yapısını yansıtma gücü artırılıyor Veri sınıflandırma sistemi Dil, alan, veri kaynağı, ifade/stil gibi çok boyutlu bir sınıflandırma sistemi uygulanıyor 6 ana alan (beşeri bilimler, STEM, uygulamalı bilimler, sağlık/gıda, yaşam/kültür, diğer) ve 20 alt alan Verinin %85,7'den fazlası doğal (organic) veriden oluşuyor, %14'ü sentetik veri Kalite yönetimi pipeline'ı 8 aşamalı büyük ölçekli web belgesi filtreleme: yinelenenleri kaldırma, heuristics, perplexity, karakter bozulması/düzeltme, model tabanlı kalite filtresi, zararlılık filtresi, satır düzeyi yineleme, PII anonimleştirme vb. Her kaynak için ayrı arıtma ve kural uygulaması yapılıyor (ör. haberler, hukuk belgeleri, akademik makaleler vb.) Sentetik veri üretimi STEM, ekonomi gibi kapsaması düşük alanlar, yüksek güvenilirlikli açık kaynak veriler tohum alınarak Korece ders materyali/açıklama/soru vb. sentetik içerik ile güçlendiriliyor Kullanılamayan (uygunsuz) web belgeleri de yalnızca çekirdek konuları çıkarılıp yeniden yazılarak değerlendiriliyor İngilizce web belgelerinin yapısal çeşitliliği, Koreceye dönüştürülüp genişletilerek uzun QA ve yazma verisi elde ediliyor Chain-of-Thought verisi ile matematik ve kod gibi alanlarda adım adım akıl yürütme eğitimi güçlendiriliyor Model mimarisi ve eğitim Transformer decoder-only mimarisi Base: 8B model → Depth-up Scaling (32→48 katman) → 11.5B'ye genişletme, yüksek kaliteli verilerle 2 aşamalı ardışık eğitim Mini: Base'in bilgisi, width pruning ve çok aşamalı distillation ile hafifletilerek verimli çıkarım mümkün kılınıyor Long-context eğitimi ile en fazla 32.768 token girişi destekleniyor GQA, SiLU, RoPE gibi güncel teknikler yansıtıldı Kullanım deneyimleri ve tanıtım yazıları Kore tipi AI modeli: KT Mi:dm 2.0 kullanım deneyimi KT'nin geliştirdiği Korece AI, Midm 2.0 tanıtımı KT'nin Kore tipi AI'ı Mi:dm 2.0'ı denemek KT'nin Mi:dm 2.0 tanıtım sayfası KT'nin Mi:dm 1.0 lansmanı sırasındaki tanıtım materyali - Mi:dm, akıl ve duygunun ötesinde kişiliği ifade eder

(huggingface.co)

10 puan yazan xguru 2025-07-10 | 16 yorum | WhatsApp'ta paylaş

"Mi:dm", Kore toplumunun dilsel/kültürel özelliklerini yansıtan, ticari kullanıma uygun bir açık kaynak model
Yüksek kaliteli Korece verilerin seçilmesi ve sentetik veri üretimi, curriculum learning, Koreceye özel özgün tokenizer gibi çok katmanlı optimizasyon stratejileri kullanıyor
Cihaz içi kullanım için mini (2.3B), performans ve verimlilik dengesi sunan base (11.5B), frontier seviyesinde pro (41B, yakında açıklanacak) olmak üzere 3 model
- Mi:dm 2.0 Mini (2.3B): Hafifletilmiş model; gömülü ortamlar ve özel amaçlar için optimize edildi
- Mi:dm 2.0 Base (11.5B): Büyük ölçekli genel amaçlı model; Depth-up Scaling tekniğiyle mevcut 8B model derinleştirilerek performans güçlendirildi
- Base ve Mini'nin ikisi de 32K token girişi destekliyor
KMMLU, HAERAE gibi Korece benchmark'larda en üst düzey performans gösteriyor ve hem araştırma hem ticari kullanım için serbest olan MIT lisansı ile yayımlandı

Veri yapısı ve strateji

Yüksek kaliteli Korece belgelerin elde edilmesine odaklanılıyor; belgeler bağlamsallık, okunabilirlik, zararsızlık ölçütlerine göre seçiliyor
Alan çeşitliliğini sağlamak için sentetik veri (çeviri, anahtar kelime tabanlı ders materyali üretimi, Chain-of-Thought vb.) kullanılıyor
Curriculum learning ve alan dengeleme ile eğitim verisindeki dengesizlik gideriliyor
Korece için optimize tokenizer ile sıkıştırma verimliliği ve dil yapısını yansıtma gücü artırılıyor

Veri sınıflandırma sistemi
- Dil, alan, veri kaynağı, ifade/stil gibi çok boyutlu bir sınıflandırma sistemi uygulanıyor
- 6 ana alan (beşeri bilimler, STEM, uygulamalı bilimler, sağlık/gıda, yaşam/kültür, diğer) ve 20 alt alan
- Verinin %85,7'den fazlası doğal (organic) veriden oluşuyor, %14'ü sentetik veri
Kalite yönetimi pipeline'ı
- 8 aşamalı büyük ölçekli web belgesi filtreleme: yinelenenleri kaldırma, heuristics, perplexity, karakter bozulması/düzeltme, model tabanlı kalite filtresi, zararlılık filtresi, satır düzeyi yineleme, PII anonimleştirme vb.
- Her kaynak için ayrı arıtma ve kural uygulaması yapılıyor (ör. haberler, hukuk belgeleri, akademik makaleler vb.)
Sentetik veri üretimi
- STEM, ekonomi gibi kapsaması düşük alanlar, yüksek güvenilirlikli açık kaynak veriler tohum alınarak Korece ders materyali/açıklama/soru vb. sentetik içerik ile güçlendiriliyor
- Kullanılamayan (uygunsuz) web belgeleri de yalnızca çekirdek konuları çıkarılıp yeniden yazılarak değerlendiriliyor
- İngilizce web belgelerinin yapısal çeşitliliği, Koreceye dönüştürülüp genişletilerek uzun QA ve yazma verisi elde ediliyor
- Chain-of-Thought verisi ile matematik ve kod gibi alanlarda adım adım akıl yürütme eğitimi güçlendiriliyor

Model mimarisi ve eğitim

Transformer decoder-only mimarisi
Base: 8B model → Depth-up Scaling (32→48 katman) → 11.5B'ye genişletme, yüksek kaliteli verilerle 2 aşamalı ardışık eğitim
Mini: Base'in bilgisi, width pruning ve çok aşamalı distillation ile hafifletilerek verimli çıkarım mümkün kılınıyor
Long-context eğitimi ile en fazla 32.768 token girişi destekleniyor
GQA, SiLU, RoPE gibi güncel teknikler yansıtıldı

Kullanım deneyimleri ve tanıtım yazıları

KT'nin Mi:dm 2.0 tanıtım sayfası
KT'nin Mi:dm 1.0 lansmanı sırasındaki tanıtım materyali - Mi:dm, akıl ve duygunun ötesinde kişiliği ifade eder

16 yorum

miseenscene 2025-07-11

Girişimi destekliyorum ama...
Yeni bir organizasyon kurup 1.0'ı çöpe atmak gibi bir şey yapmasalar iyi olur.

bakyeono 2025-07-11

Sadece adına bakınca bile pek güven vermiyor.
İsmin ortasına neden iki nokta üst üste koymuşlar? Anlamsal bir nedeni mi var? Yoksa gerçekten bunun havalı olduğunu mu düşünüyorlar?
Bir de 믿:음 ise alfabeyle mid:m diye yazılması gerekmiyor mu?

xguru 2025-07-11

Farklı görüşler olabilir ama ben temel olarak, ülke içinde denenen yapay zeka ile ilgili tüm projelerin anlamlı olduğunu düşünüyorum. Başkalarıyla kıyaslayıp seviyesini değerlendirmektense, şu anda denemenin kendisini takdir etmemiz gereken bir durum olduğunu düşünüyorum.

Geç kalındığı doğru ve para ile GPU açısından da ABD/Çin’e kıyasla dezavantajlıyız ama takdir edip birlikte kullanarak geliştirdikçe daha iyi olmaz mı?

crawler 2025-07-11

Kısmen katılıyorum.
Bence AI hizmeti diye dış API kullanan bir wrapper yapmak, hiçbir üretkenliği olmayan ve komisyonculuktan ibaret bir iş;
ama şirketlerin en azından modeli fine-tune edip yayımlaması, sonuçta kendi kaynaklarını harcayıp bunu kamuya açmaları anlamına geldiği için buna olumsuz bakmak için bir neden olmadığını düşünüyorum.

Ancak dışarıdan, mesela devletten para almaya başlarlarsa buna yalnızca olumlu bakmak zor olabilir...

crawler 2025-07-11

> Ben, AI hizmeti diye dış API kullanan bir wrapper yapmakın hiç üretkenliği olmayan bir iş ve komisyonculuk olduğunu düşünüyorum,

Buna ek olarak, API kullanılsa bile manus seviyesinde iyi değerlendirilirse bu bir başarı olarak görülebilir; ancak henüz Kore'de o seviyede bir wrapper yok gibi görünüyor.

mssmss 2025-07-11

Temel performansı artırma göreviyle rekabetçi bir şekilde öne çıkmak mümkün değil çünkü.

strn18 2025-07-10

Kore şirketlerinin ya da hükümetin Koreceye özel dil modellerine odaklanmasının nedeni ne? Günümüzde internet ölçeğindeki büyük verilerle eğitilip performansı artırılan LLM eğilimini düşününce, aslında dil fark etmeksizin genel amaçlı modeller daha doğal görünüyor; bu yüzden özellikle Koreceye odaklı bir LM’nin ne gibi bir avantajı olduğunu pek anlayamıyorum.

ryj0902 2025-07-11

Eğer yapay zekanın gerçekten yeni neslin temeli olduğunu düşünüyorsak, ülkenin kritik temel teknolojilerinin başka ülkelerin teknolojilerine bağımlı olması pek de arzu edilir bir şey değil, değil mi...?

roxie 2025-07-11

Diğer ülkelerin teknolojisi != diğer ülkelerin verisi
diye düşünüyorum

dbs0829 2025-07-11

Kullanıcısı az olan dillerin kalitesinin düşük olduğu gerçeği doğru, ama bu yüzden sadece Koreceyi iyi yapacaklarını da sanmıyorum. Bunun için pek bir neden de yok. Bir de sorun şu ki, o kullanıcısı az olan dilin kullanıcıları biziz....

greenday 2025-07-11

Soğukkanlı konuşmak gerekirse, bunun nedeni rekabet gücünün olmaması.
Frontier açık kaynak model geliştirme işi genelde, büyük teknoloji şirketlerinde yılda milyarlarca won maaş alan Research Engineer’lardan oluşan ekipler tarafından, muazzam GPU kaynak desteği altında yürütülüyor. (Geçmişte Meta’da tek bir projeye ayrılan GPU sayısı 10 bin A100’dü; hatırladığım kadarıyla bu, o dönemde Güney Kore’de bulunan toplam A100 miktarından bile fazlaydı.)

Güney Kore’de LLM geliştirmeye ayrılan insan kaynağı ve GPU kaynakları, gerçekçi olarak bakıldığında dünyayla rekabet etmeyi zorlaştıracak seviyede.
Özellikle bizim kötü olduğumuzdan çok, ABD ve Çin’in ezici biçimde önde olması nedeniyle onları yakalamanın zor olduğunu düşünmek daha doğru görünüyor.

helio 2025-07-11

Ben de çok bilmiyorum ama düşünme süreçlerine bakınca, Korece sorgulansa bile bazen İngilizce işlendiği oluyor gibi; eğer böyle süreçler Korece yürütülebilirse biraz daha yerel duyarlılığa uygun cevaplar üretilebilir mi acaba?

truestar 2025-07-11

İleride geliştirilecek ya da ilerleyecek yeni yapay zekaları veya mevcut yapay zekaların genel seviyesinin yükselmesini hesaba katarak yatırım yapıyor olmaları mümkün değil mi? DeepSeek örneğinde olduğu gibi. Böyle yapay zekalara Kore’ye özgü duyguyu yansıtabilirlerse rekabetçi görünüyor. Tabii bu geleceğe dair bir hikâye.

zihado 2025-07-10

Sanırım hükümetin boşa harcanan parasını sömürmeye çalışıyorlar.

clastneo 2025-07-10

Korece bozulduğu için olabilir mi? Gemini’de de öyle; bir süre kullandıktan sonra belli bir noktada başka bir dile kaydığı durumlar çok fazla...

cckn1985 2025-07-10

Yapay zeka modelinin adı, post-apokaliptik ya da distopik bir yapımda çıkacakmış gibi tekinsiz duruyor, haha

Mi:dm 2.0 - KT'nin şirket içinde geliştirdiği açık kaynak LLM

Veri yapısı ve strateji

Veri sınıflandırma sistemi

Kalite yönetimi pipeline'ı

Sentetik veri üretimi

Model mimarisi ve eğitim

Kullanım deneyimleri ve tanıtım yazıları

İlgili okumalar

16 yorum