NVIDIA Nemotron-Personas-Korea - Güney Kore'nin gerçek nüfus dağılımına dayalı 1 milyon sentetik persona veri kümesi
(huggingface.co)- Güney Kore İstatistik Kurumu, Yüksek Mahkeme, Ulusal Sağlık Sigortası Kurumu gibi kamu verilerine dayanarak gerçek demografik, coğrafi ve kişilik dağılımlarını yansıtan ilk büyük ölçekli Korece persona veri kümesi
- 1 milyon kayıtta 7 milyon persona içeriyor ve ad, cinsiyet, yaş, medeni durum, eğitim seviyesi, meslek, ikamet bölgesi gibi 26 alandan oluşuyor
- Kurumsal düzeyde sentetik veri üretim sistemi NeMo Data Designer ve
google/gemma-4-31B-itmodeli kullanılarak üretildi - Mevcut persona veri kümelerine kıyasla yaşlı nüfus, kırsal bölgeler ve çeşitli eğitim/meslek dağılımlarını daha sadık biçimde yansıtarak egemen yapay zeka modellerindeki önyargıyı azaltmaya katkı sağlıyor
- CC BY 4.0 lisansıyla ticari ve ticari olmayan kullanımlarda serbestçe kullanılabilir
Mevcut LLM'lerin ürettiği Kore personelarındaki sorunlar
- Persona, bir kişinin kendine özgü özellikleri, ilgi alanları, kişiliği ve mesleği gibi unsurların tasviridir; personelardan oluşan bir veri kümesinin ilgili grubun kültürel ve dağılımsal özelliklerini doğru yansıtması gerekir
- Yabancı bir LLM'e "Kore toplumuna uygun gerçekçi ve çeşitli kişi profilleri üret" şeklinde prompt verilse bile sonuçlar ciddi biçimde çarpıtılmış oluyor
- Üretilen personeların %40'ı en sevdiği yemek olarak salatayı seçiyor ya da "Kuzey Gyeongsang'daki Andong şehrinde elma bahçesi işletiyorum" gibi gerçekçi olmayan sonuçlar çıkıyor
- Claude Opus 4.7 ile Kore'ye ait 2 bin persona rastgele örneklenince, meslek dağılımında %77,6'sının "yuzu yetiştiricisi çiftçi" olarak üretilmesi gibi aşırı bir önyargı görüldü
- GPT-5.4 için ise %90,1'i "bakım destek görevlisi" olarak üretildi
- Şehir dağılımı, aile yapısı, konut sahipliği biçimi, yemek tercihleri gibi her açıdan ülke gerçekleriyle uyuşmayan önyargılar mevcut
Veri kümesinin genel görünümü ve amacı
- Güney Kore nüfusunun çeşitliliğini ve özelliklerini geniş biçimde yansıtacak şekilde tasarlanmış açık kaynaklı sentetik persona veri kümesi
- Korece olarak, herkesin kolayca okuyabileceği biçimde yazıldı
- Egemen yapay zeka sistemleri kurulurken eğitim verisindeki eksik verileri ve potansiyel önyargıları azaltmak temel hedeflerden biri
- Sentetik veri üretiminde kullanılan mevcut persona veri kümelerindeki önyargıları, özellikle yaş, bölge, eğitim seviyesi ve meslek eksenlerinde gidermeye odaklanıyor
Veri kaynakları ve üretim yöntemi
- KOSIS'in (Kore İstatistik Kurumu Ulusal İstatistik Portalı) cinsiyet, bölge, sektör, meslek, seyahat ve boş zaman yaşamına ilişkin nüfus sayımı verileri kullanıldı
- Yüksek Mahkemenin doğum yılı, cinsiyet ve ad verileri; Ulusal Sağlık Sigortası Kurumunun sağlık tarama bilgileri; Kırsal Ekonomi Enstitüsünün gıda tüketim davranışı araştırması sonuçları kullanıldı
- NAVER Cloud tasarım aşamasında başlangıç verileri ve alan uzmanlığı sağladı
- Özgün bir olasılıksal grafik model (PGM), Apache-2.0 lisanslı
google/gemma-4-31B-itmodeli ve NeMo Data Designer'ın doğrulama/değerlendirme yöntemleri kullanıldı - Ad, yaş, cinsiyet, bölge, evlilik, aile, konut, eğitim, uzmanlık alanı, ekonomik faaliyet, gelir, sektör grubu, meslek grubu, tansiyon, kan şekeri, bel çevresi, BMI, seyahat, boş zaman yaşamı, tercih edilen restoran türü, teslimat ve dışarıda yeme sıklığı gibi kapsamlı alanları içeriyor
- Tüm veriler gerçek dağılımları yansıtsa da tamamen yapay olarak sentezlendi; gerçek kişilerle benzerlik tesadüfidir
Veri kümesinin ölçeği ve yapısı
- Toplam 1,7 milyar tokendan (persona başına 1 milyar token) oluşan 1 milyon kayıt
- 26 alan: 7 persona alanı, 6 persona özellik alanı, 12 demografik/coğrafi bağlam alanı ve 1 benzersiz tanımlayıcı
- 17 il düzeyi bölge ve 252 ilçe/distrikt için kapsamlı idari bölge kapsaması
- 209 binden fazla benzersiz tam ad kombinasyonu (118 soyadı, 21.400 ad)
- 7 persona türü: meslek, spor, sanat, seyahat, yemek, aile, özet
- Ek persona özellikleri: kültürel arka plan, teknik bilgi ve uzmanlık, kariyer hedefleri/özlemleri, hobi ve ilgi alanları
İsim dağılımı
- Güney Kore'de şu anda kamuya açık ad verileri yalnızca 2008 sonrası ile sınırlı
- Nemotron-Personas-Korea, 1940'tan itibaren ülkenin tüm ad verilerine dayanan ilk kamuya açık veri kümesi
- "82 yaşında Kim Hayul?" "21 yaşında Kim Sunja?" gibi döneme uymayan ad ataması sorunlarını çözüyor
- Soyadı dağılımında Kim (%21,5), Lee (%14,7), Park (%8,5), Jeong (%4,8), Choi (%4,7) gibi ilk 5 soyadı toplamın yaklaşık %54'ünü oluşturuyor
- Adlar, cinsiyet ve doğum yılına göre nesillere göre adlandırma eğilimlerini yansıtıyor
- Kadınlarda: Yeongsuk, Jeongsuk, Sunja gibi ileri yaş isimleri ile Jiyoung, Yujin, Jihyeon gibi genç kuşak isimleri bir arada bulunuyor
- Erkeklerde: Jihun, Hyeonu, Junho gibi modern isimler üst sıralarda yer alıyor
- En sık görülen tam ad Kim Yeongsuk, bu da gerçek araştırma sonuçlarıyla örtüşüyor
Yaş dağılımı
- Ortası şişkin bir çömlek biçimli yapı ile, düşük doğurganlık ve yaşlanmanın aynı anda ilerlediği güncel nüfus yapısını sadık biçimde yansıtıyor
- En kalın dilim 50-64 yaş aralığı (oran yaklaşık 0,09) olup 1960-70'lerin baby boom kuşağına karşılık geliyor
- 70 yaş üstü yaşlı nüfusta kadın oranı erkeklerden belirgin biçimde daha yüksek
- 80-89 yaş aralığında kadın oranı erkeklerin yaklaşık 1,52 katı
Medeni durum dağılımı
- Bekar oranı 19-24 yaşta %95'in üzerinde; 30'lu yaşlarda %55'ten %31'e düşerek ortalama ilk evlilik yaşının 31-33 olduğu geç evlilik eğilimiyle uyum gösteriyor
- Evli oranı 35 yaştan itibaren %64'e yükseliyor ve 50'li yaşların sonunda %78 ile zirve yapıyor
- Dulluk 60'lı yaşlardan itibaren hızla artarak 80'li yaşların sonunda %66'ya, 90'lı yaşlarda %74-81 aralığına ulaşıyor
- Boşanma 50'li yaşlar ile 60'ların başında yaklaşık %12 ile en yüksek seviyede; bu da ileri yaş boşanma eğilimiyle örtüşüyor
Hane türü dağılımı
- Tüm yaş gruplarında çift + evlenmemiş çocuklar hanesi en yüksek paya sahip; 19 yaşta %63,6 ile zirvede
- 50'li yaşlardan sonra çift haneleri hızla artıyor ve 65-69 yaşta %45,7 ile tepeye ulaşıyor
- Tek kişilik haneler, 20'li yaşların başında (%15-22) ve 75 yaş sonrası (%21-32) çift tepeli bir desen gösteriyor
- Anne + evlenmemiş çocuklar hanesi (%5-14), baba + evlenmemiş çocuklar hanesinden (%2-5) daha yüksek; bu da tek ebeveynli hanelerde cinsiyet asimetrisini ortaya koyuyor
Eğitim seviyesi dağılımı
- 20-34 yaş arası genç kuşakta 4 yıllık üniversite mezunu oranı %50'yi aşıyor; ön lisans dahil edildiğinde yaklaşık %75'i üniversite ve üzeri eğitime sahip
- 80 yaş ve üzerindekilerde eğitimsiz (%36) ve ilkokul (%37) grupları toplamın %73'ünü oluşturuyor
- Bölgelere göre lisans ve üstü oranı Sejong (%49,0), Seul (%45,1) ve Daejeon (%39,7) sıralamasıyla en yüksek
- Sejong'da bu durum, devlet kurumlarının Sejong'a taşınmasıyla yüksek eğitimli memur ve araştırmacı girişinden etkileniyor
Meslek dağılımı
- Uzmanlar ve ofis çalışanları en büyük payı oluşturuyor; bu da hizmet ve bilgi temelli ekonomi yapısını yansıtıyor
- Satış işlerinde çevrimiçi alışveriş satış görevlisi %19,8 ile ilk sırada; bu da e-ticaretin yüksek payını gösteriyor
- Basit işgücünde bina güvenlik görevlileri (%21,3) ve bina temizlik çalışanları (%16,0) öne çıkıyor
- Askerler toplam istihdamın yaklaşık %1'ini oluşturuyor ve bunun üçte ikisinden fazlası kara kuvvetlerinde
Teknik kısıtlar ve sınırlamalar
- Kamu verisinin erişilebilirliği, güncelliği ve PGM modelinin pratik kısıtları nedeniyle bazı değişkenler arasında bağımsızlık varsayımı uygulandı
- Örneğin ayrıntılı meslek atamasında cinsiyet, gelir, eğitim ve uzmanlık alanının bağımsız etki yaptığı varsayılıyor; etkileşimler modele dahil edilmiyor
- Toplumsal cinsiyet (gender) ile ilgili kapsamlı istatistikler Güney Kore kamu verilerinde bulunmadığından dahil edilmedi
- Yalnızca 19 yaş ve üzeri yetişkin personelar içeriliyor
- Finans, sağlık gibi kurumsal müşteriyle ilgili personelar hariç tutuldu
Sadece LLM'e dayalı yaklaşıma kıyasla iyileştirme sonuçları
- Yalnızca LLM'e dayanıldığında şehir dağılımı Suncheon ve Changwon gibi şehirlere kayarken, Nemotron-Personas-Korea Gyeonggi'deki Hwaseong, Namyangju ve Seul'deki Songpa gibi gerçek nüfusla orantılı dağılımları yansıtıyor
- Aile yapısı, tek kişilik haneye indirgenmekten çıkıp eşle yaşama, eş ve çocuklarla yaşama, ebeveynlerle yaşama gibi çeşitli biçimlere genişliyor
- Konut sahipliği biçimi de %100 mülkiyetten çıkarak gerçek ev sahipliği ve kiracılık oranlarını yansıtıyor
- Yemek dağılımı da yalnızca salatadan ibaret olmaktan çıkıp bibimbap, Japon mutfağı, kızarmış tavuk, galbi, samgyeopsal, tteokbokki, atıştırmalık yiyecekler, ekmek, doenjang jjigae ve jajangmyeon gibi gerçek yemek kültürünü yansıtıyor
Kültürel yansıma örnekleri
- "İş çıkışında meslektaşlarıyla samgyeopsal ve soju eşliğinde günün yorgunluğunu atan 33 yaşındaki kanguru kuşağından Bay Jeongjun" — Seul Songpa'da yaşıyor, 4 yıllık üniversite mezunu, bekar ve ailesiyle birlikte yaşıyor; Kore toplumundaki kanguru kuşağı olgusunu yansıtıyor
- "Sim Subong şarkılarını seven ve aile grup sohbetine fotoğraf yüklemekten hoşlanan Ulsanlı 73 yaşındaki Kim Chunhui" — kadın, eğitimsiz, evli ve çalışmıyor; yaşlı kadın nüfusu yansıtıyor
Persona veri kümesi neden LLM'lere yardımcı oluyor
- İnsanlar ayrı ayrı kendilerine özgü bilgiye sahiptir ve persona bu özgün bilgiyi özetleyen bir fenotiptir
- Örneğin bir elektrik teknisyeni personası, elektrikle ilgili bilgiyi LLM'den çekip çıkarmaya yarayan bir aracı olabilir
- Sentetik veride çeşitlilik çok önemli bir ölçüttür ve insan bunun en iyi kaynaklarından biridir
- "{verilen persona} ile ilgili mantıksal çıkarım soruları oluştur" biçiminde persona bazlı çeşitli sentetik eğitim verileri üretilebilir
Gerçek kullanım örnekleri
- Genel araç kullanımı performansını iyileştirme: Kullanıcı-LLM'e araç seti ile birlikte persona verilip veri sentezi ve eğitim yapılıyor. Nemotron-Nano-9B-v2-Japanese bu metodolojiyi benimseyerek Nejumi lider tablosunda 1. sıraya çıktı. Benzer yöntem Nemotron Nano v3 ve Super v3'e de eklendi
- Model güvenliğini artırma: Sensitive-safety-category-refusals (SSCR) veri kümesinin tohum verisi olarak kullanılıyor. SSCR veri kümesi nemotron-safety-blend içinde yer alıyor
Kullanım yöntemi ve lisans
- Python
datasetskütüphanesiyleload_dataset("nvidia/Nemotron-Personas-Korea")çağrısı yapılarak yüklenebilir - CC BY 4.0 lisansıyla ticari ve ticari olmayan kullanımlarda serbestçe kullanılabilir
- Doğrudan NeMo Data Designer içinde kullanılabilen genişletilmiş bir sürüm de ayrıca sunuluyor
10 yorum
Ben de zaten bunu GeekNews’e bir kez paylaşmayı düşünüyordum..
https://manyperson.com/
Bununla ilgili bir persona hizmeti geliştiriyorum. Aynı şekilde MDIS verilerini kullandım, ben ise Gemini’den yararlandım.
Show GN: ManyPerson - İstatistik Kurumu MDIS tabanlı Kore yapay zeka persona kamuoyu simülatörü
Paylaşım için teşekkürler
Güzel kaynak, teşekkürler. Persona'lar demek ki böyle oluşturuluyormuş.
Faydalı!
https://github.com/civilian7/korean-people-persona
Kişisel ihtiyaç nedeniyle
herkese açık verileri sqlite3'e dönüştürebilen bir Python programı ve
bir mcp sunucusu örneği hazırlayıp paylaştım.
20'li yaşlardakilerin 4 yıllık üniversitelere giriş oranının %50'nin altında olması sanki yakın zamana kadardı; şimdi galiba onu da aşmış.
Oldukça ilginç istatistikler varmış.
Bu veri setine ilişkin sunum materyallerine başvurarak açıklamayı güçlendirdim.
Nemotron-Personas-Korea, ülkemizin ilk persona veri setini yayımlıyoruz! - LinkedIn
Nemotron-Personas-Korea : ülkemizin ilk persona veri seti - PDF bağlantısı
Yurt dışındaki LLM’lerin ürettikleriyle kıyaslayınca bunlar fazlasıyla gerçekçi personalar gibi görünüyor.
"Bay Park Ho-cheol, kulaklığını takıp gün boyunca onlarca yüksek tansiyonlu şikâyeti sessizce karşılayan ve karmaşık sigorta şartlarını sanki yan komşu amca anlatıyormuş gibi kolay anlaşılır hale getiren Wonju sigorta merkezinin kıdemli danışmanıdır.
"Paju’da İmjin Nehri kıyısının sakin manzarası içinde onlarca yıl geçirmiş, liseden mezun olduktan hemen sonra tesisat sahasına atılarak hayatın bilgeliğini sahada, bedeniyle öğrenmiş biridir. Son zamanlarda ise akıllı telefonundan en yeni ev elektroniği ürün incelemelerini ve dünyada neler olup bittiğini anlatan videoları takip ederek yeni bilgilere kulak veriyor."