NVIDIA Nemotron-Personas-Korea - Güney Kore'nin gerçek nüfus dağılımına dayalı 1 milyon sentetik persona veri kümesi

(huggingface.co)

61 puan yazan GN⁺ 3 일 전 | 10 yorum | WhatsApp'ta paylaş

Güney Kore İstatistik Kurumu, Yüksek Mahkeme, Ulusal Sağlık Sigortası Kurumu gibi kamu verilerine dayanarak gerçek demografik, coğrafi ve kişilik dağılımlarını yansıtan ilk büyük ölçekli Korece persona veri kümesi
1 milyon kayıtta 7 milyon persona içeriyor ve ad, cinsiyet, yaş, medeni durum, eğitim seviyesi, meslek, ikamet bölgesi gibi 26 alandan oluşuyor
Kurumsal düzeyde sentetik veri üretim sistemi NeMo Data Designer ve google/gemma-4-31B-it modeli kullanılarak üretildi
Mevcut persona veri kümelerine kıyasla yaşlı nüfus, kırsal bölgeler ve çeşitli eğitim/meslek dağılımlarını daha sadık biçimde yansıtarak egemen yapay zeka modellerindeki önyargıyı azaltmaya katkı sağlıyor
CC BY 4.0 lisansıyla ticari ve ticari olmayan kullanımlarda serbestçe kullanılabilir

Mevcut LLM'lerin ürettiği Kore personelarındaki sorunlar

Persona, bir kişinin kendine özgü özellikleri, ilgi alanları, kişiliği ve mesleği gibi unsurların tasviridir; personelardan oluşan bir veri kümesinin ilgili grubun kültürel ve dağılımsal özelliklerini doğru yansıtması gerekir
Yabancı bir LLM'e "Kore toplumuna uygun gerçekçi ve çeşitli kişi profilleri üret" şeklinde prompt verilse bile sonuçlar ciddi biçimde çarpıtılmış oluyor
- Üretilen personeların %40'ı en sevdiği yemek olarak salatayı seçiyor ya da "Kuzey Gyeongsang'daki Andong şehrinde elma bahçesi işletiyorum" gibi gerçekçi olmayan sonuçlar çıkıyor
Claude Opus 4.7 ile Kore'ye ait 2 bin persona rastgele örneklenince, meslek dağılımında %77,6'sının "yuzu yetiştiricisi çiftçi" olarak üretilmesi gibi aşırı bir önyargı görüldü
GPT-5.4 için ise %90,1'i "bakım destek görevlisi" olarak üretildi
Şehir dağılımı, aile yapısı, konut sahipliği biçimi, yemek tercihleri gibi her açıdan ülke gerçekleriyle uyuşmayan önyargılar mevcut

Veri kümesinin genel görünümü ve amacı

Güney Kore nüfusunun çeşitliliğini ve özelliklerini geniş biçimde yansıtacak şekilde tasarlanmış açık kaynaklı sentetik persona veri kümesi
Korece olarak, herkesin kolayca okuyabileceği biçimde yazıldı
Egemen yapay zeka sistemleri kurulurken eğitim verisindeki eksik verileri ve potansiyel önyargıları azaltmak temel hedeflerden biri
Sentetik veri üretiminde kullanılan mevcut persona veri kümelerindeki önyargıları, özellikle yaş, bölge, eğitim seviyesi ve meslek eksenlerinde gidermeye odaklanıyor

Veri kaynakları ve üretim yöntemi

KOSIS'in (Kore İstatistik Kurumu Ulusal İstatistik Portalı) cinsiyet, bölge, sektör, meslek, seyahat ve boş zaman yaşamına ilişkin nüfus sayımı verileri kullanıldı
Yüksek Mahkemenin doğum yılı, cinsiyet ve ad verileri; Ulusal Sağlık Sigortası Kurumunun sağlık tarama bilgileri; Kırsal Ekonomi Enstitüsünün gıda tüketim davranışı araştırması sonuçları kullanıldı
NAVER Cloud tasarım aşamasında başlangıç verileri ve alan uzmanlığı sağladı
Özgün bir olasılıksal grafik model (PGM), Apache-2.0 lisanslı google/gemma-4-31B-it modeli ve NeMo Data Designer'ın doğrulama/değerlendirme yöntemleri kullanıldı
Ad, yaş, cinsiyet, bölge, evlilik, aile, konut, eğitim, uzmanlık alanı, ekonomik faaliyet, gelir, sektör grubu, meslek grubu, tansiyon, kan şekeri, bel çevresi, BMI, seyahat, boş zaman yaşamı, tercih edilen restoran türü, teslimat ve dışarıda yeme sıklığı gibi kapsamlı alanları içeriyor
Tüm veriler gerçek dağılımları yansıtsa da tamamen yapay olarak sentezlendi; gerçek kişilerle benzerlik tesadüfidir

Veri kümesinin ölçeği ve yapısı

Toplam 1,7 milyar tokendan (persona başına 1 milyar token) oluşan 1 milyon kayıt
26 alan: 7 persona alanı, 6 persona özellik alanı, 12 demografik/coğrafi bağlam alanı ve 1 benzersiz tanımlayıcı
17 il düzeyi bölge ve 252 ilçe/distrikt için kapsamlı idari bölge kapsaması
209 binden fazla benzersiz tam ad kombinasyonu (118 soyadı, 21.400 ad)
7 persona türü: meslek, spor, sanat, seyahat, yemek, aile, özet
Ek persona özellikleri: kültürel arka plan, teknik bilgi ve uzmanlık, kariyer hedefleri/özlemleri, hobi ve ilgi alanları

İsim dağılımı

Güney Kore'de şu anda kamuya açık ad verileri yalnızca 2008 sonrası ile sınırlı
Nemotron-Personas-Korea, 1940'tan itibaren ülkenin tüm ad verilerine dayanan ilk kamuya açık veri kümesi
"82 yaşında Kim Hayul?" "21 yaşında Kim Sunja?" gibi döneme uymayan ad ataması sorunlarını çözüyor
Soyadı dağılımında Kim (%21,5), Lee (%14,7), Park (%8,5), Jeong (%4,8), Choi (%4,7) gibi ilk 5 soyadı toplamın yaklaşık %54'ünü oluşturuyor
Adlar, cinsiyet ve doğum yılına göre nesillere göre adlandırma eğilimlerini yansıtıyor
- Kadınlarda: Yeongsuk, Jeongsuk, Sunja gibi ileri yaş isimleri ile Jiyoung, Yujin, Jihyeon gibi genç kuşak isimleri bir arada bulunuyor
- Erkeklerde: Jihun, Hyeonu, Junho gibi modern isimler üst sıralarda yer alıyor
En sık görülen tam ad Kim Yeongsuk, bu da gerçek araştırma sonuçlarıyla örtüşüyor

Yaş dağılımı

Ortası şişkin bir çömlek biçimli yapı ile, düşük doğurganlık ve yaşlanmanın aynı anda ilerlediği güncel nüfus yapısını sadık biçimde yansıtıyor
En kalın dilim 50-64 yaş aralığı (oran yaklaşık 0,09) olup 1960-70'lerin baby boom kuşağına karşılık geliyor
70 yaş üstü yaşlı nüfusta kadın oranı erkeklerden belirgin biçimde daha yüksek
- 80-89 yaş aralığında kadın oranı erkeklerin yaklaşık 1,52 katı

Medeni durum dağılımı

Bekar oranı 19-24 yaşta %95'in üzerinde; 30'lu yaşlarda %55'ten %31'e düşerek ortalama ilk evlilik yaşının 31-33 olduğu geç evlilik eğilimiyle uyum gösteriyor
Evli oranı 35 yaştan itibaren %64'e yükseliyor ve 50'li yaşların sonunda %78 ile zirve yapıyor
Dulluk 60'lı yaşlardan itibaren hızla artarak 80'li yaşların sonunda %66'ya, 90'lı yaşlarda %74-81 aralığına ulaşıyor
Boşanma 50'li yaşlar ile 60'ların başında yaklaşık %12 ile en yüksek seviyede; bu da ileri yaş boşanma eğilimiyle örtüşüyor

Hane türü dağılımı

Tüm yaş gruplarında çift + evlenmemiş çocuklar hanesi en yüksek paya sahip; 19 yaşta %63,6 ile zirvede
50'li yaşlardan sonra çift haneleri hızla artıyor ve 65-69 yaşta %45,7 ile tepeye ulaşıyor
Tek kişilik haneler, 20'li yaşların başında (%15-22) ve 75 yaş sonrası (%21-32) çift tepeli bir desen gösteriyor
Anne + evlenmemiş çocuklar hanesi (%5-14), baba + evlenmemiş çocuklar hanesinden (%2-5) daha yüksek; bu da tek ebeveynli hanelerde cinsiyet asimetrisini ortaya koyuyor

Eğitim seviyesi dağılımı

20-34 yaş arası genç kuşakta 4 yıllık üniversite mezunu oranı %50'yi aşıyor; ön lisans dahil edildiğinde yaklaşık %75'i üniversite ve üzeri eğitime sahip
80 yaş ve üzerindekilerde eğitimsiz (%36) ve ilkokul (%37) grupları toplamın %73'ünü oluşturuyor
Bölgelere göre lisans ve üstü oranı Sejong (%49,0), Seul (%45,1) ve Daejeon (%39,7) sıralamasıyla en yüksek
- Sejong'da bu durum, devlet kurumlarının Sejong'a taşınmasıyla yüksek eğitimli memur ve araştırmacı girişinden etkileniyor

Meslek dağılımı

Uzmanlar ve ofis çalışanları en büyük payı oluşturuyor; bu da hizmet ve bilgi temelli ekonomi yapısını yansıtıyor
Satış işlerinde çevrimiçi alışveriş satış görevlisi %19,8 ile ilk sırada; bu da e-ticaretin yüksek payını gösteriyor
Basit işgücünde bina güvenlik görevlileri (%21,3) ve bina temizlik çalışanları (%16,0) öne çıkıyor
Askerler toplam istihdamın yaklaşık %1'ini oluşturuyor ve bunun üçte ikisinden fazlası kara kuvvetlerinde

Teknik kısıtlar ve sınırlamalar

Kamu verisinin erişilebilirliği, güncelliği ve PGM modelinin pratik kısıtları nedeniyle bazı değişkenler arasında bağımsızlık varsayımı uygulandı
- Örneğin ayrıntılı meslek atamasında cinsiyet, gelir, eğitim ve uzmanlık alanının bağımsız etki yaptığı varsayılıyor; etkileşimler modele dahil edilmiyor
Toplumsal cinsiyet (gender) ile ilgili kapsamlı istatistikler Güney Kore kamu verilerinde bulunmadığından dahil edilmedi
Yalnızca 19 yaş ve üzeri yetişkin personelar içeriliyor
Finans, sağlık gibi kurumsal müşteriyle ilgili personelar hariç tutuldu

Sadece LLM'e dayalı yaklaşıma kıyasla iyileştirme sonuçları

Yalnızca LLM'e dayanıldığında şehir dağılımı Suncheon ve Changwon gibi şehirlere kayarken, Nemotron-Personas-Korea Gyeonggi'deki Hwaseong, Namyangju ve Seul'deki Songpa gibi gerçek nüfusla orantılı dağılımları yansıtıyor
Aile yapısı, tek kişilik haneye indirgenmekten çıkıp eşle yaşama, eş ve çocuklarla yaşama, ebeveynlerle yaşama gibi çeşitli biçimlere genişliyor
Konut sahipliği biçimi de %100 mülkiyetten çıkarak gerçek ev sahipliği ve kiracılık oranlarını yansıtıyor
Yemek dağılımı da yalnızca salatadan ibaret olmaktan çıkıp bibimbap, Japon mutfağı, kızarmış tavuk, galbi, samgyeopsal, tteokbokki, atıştırmalık yiyecekler, ekmek, doenjang jjigae ve jajangmyeon gibi gerçek yemek kültürünü yansıtıyor

Kültürel yansıma örnekleri

"İş çıkışında meslektaşlarıyla samgyeopsal ve soju eşliğinde günün yorgunluğunu atan 33 yaşındaki kanguru kuşağından Bay Jeongjun" — Seul Songpa'da yaşıyor, 4 yıllık üniversite mezunu, bekar ve ailesiyle birlikte yaşıyor; Kore toplumundaki kanguru kuşağı olgusunu yansıtıyor
"Sim Subong şarkılarını seven ve aile grup sohbetine fotoğraf yüklemekten hoşlanan Ulsanlı 73 yaşındaki Kim Chunhui" — kadın, eğitimsiz, evli ve çalışmıyor; yaşlı kadın nüfusu yansıtıyor

Persona veri kümesi neden LLM'lere yardımcı oluyor

İnsanlar ayrı ayrı kendilerine özgü bilgiye sahiptir ve persona bu özgün bilgiyi özetleyen bir fenotiptir
- Örneğin bir elektrik teknisyeni personası, elektrikle ilgili bilgiyi LLM'den çekip çıkarmaya yarayan bir aracı olabilir
Sentetik veride çeşitlilik çok önemli bir ölçüttür ve insan bunun en iyi kaynaklarından biridir
"{verilen persona} ile ilgili mantıksal çıkarım soruları oluştur" biçiminde persona bazlı çeşitli sentetik eğitim verileri üretilebilir

Gerçek kullanım örnekleri

Genel araç kullanımı performansını iyileştirme: Kullanıcı-LLM'e araç seti ile birlikte persona verilip veri sentezi ve eğitim yapılıyor. Nemotron-Nano-9B-v2-Japanese bu metodolojiyi benimseyerek Nejumi lider tablosunda 1. sıraya çıktı. Benzer yöntem Nemotron Nano v3 ve Super v3'e de eklendi
Model güvenliğini artırma: Sensitive-safety-category-refusals (SSCR) veri kümesinin tohum verisi olarak kullanılıyor. SSCR veri kümesi nemotron-safety-blend içinde yer alıyor

Kullanım yöntemi ve lisans

Python datasets kütüphanesiyle load_dataset("nvidia/Nemotron-Personas-Korea") çağrısı yapılarak yüklenebilir
CC BY 4.0 lisansıyla ticari ve ticari olmayan kullanımlarda serbestçe kullanılabilir
Doğrudan NeMo Data Designer içinde kullanılabilen genişletilmiş bir sürüm de ayrıca sunuluyor

10 yorum

calmlake79 3 일 전

Ben de zaten bunu GeekNews’e bir kez paylaşmayı düşünüyordum..

https://manyperson.com/

Bununla ilgili bir persona hizmeti geliştiriyorum. Aynı şekilde MDIS verilerini kullandım, ben ise Gemini’den yararlandım.

calmlake79 3 일 전

Show GN: ManyPerson - İstatistik Kurumu MDIS tabanlı Kore yapay zeka persona kamuoyu simülatörü

recast7838 2 일 전

Paylaşım için teşekkürler

rlaaudgjs5638 2 일 전

Güzel kaynak, teşekkürler. Persona'lar demek ki böyle oluşturuluyormuş.

dongho42 2 일 전

Faydalı!

civilian 3 일 전

https://github.com/civilian7/korean-people-persona

Kişisel ihtiyaç nedeniyle
herkese açık verileri sqlite3'e dönüştürebilen bir Python programı ve
bir mcp sunucusu örneği hazırlayıp paylaştım.

nvkzrx 3 일 전

20'li yaşlardakilerin 4 yıllık üniversitelere giriş oranının %50'nin altında olması sanki yakın zamana kadardı; şimdi galiba onu da aşmış.

nvkzrx 3 일 전

Oldukça ilginç istatistikler varmış.

xguru 3 일 전

Bu veri setine ilişkin sunum materyallerine başvurarak açıklamayı güçlendirdim.

Nemotron-Personas-Korea, ülkemizin ilk persona veri setini yayımlıyoruz! - LinkedIn

Nemotron-Personas-Korea : ülkemizin ilk persona veri seti - PDF bağlantısı

xguru 3 일 전

Yurt dışındaki LLM’lerin ürettikleriyle kıyaslayınca bunlar fazlasıyla gerçekçi personalar gibi görünüyor.

"Bay Park Ho-cheol, kulaklığını takıp gün boyunca onlarca yüksek tansiyonlu şikâyeti sessizce karşılayan ve karmaşık sigorta şartlarını sanki yan komşu amca anlatıyormuş gibi kolay anlaşılır hale getiren Wonju sigorta merkezinin kıdemli danışmanıdır.

"Paju’da İmjin Nehri kıyısının sakin manzarası içinde onlarca yıl geçirmiş, liseden mezun olduktan hemen sonra tesisat sahasına atılarak hayatın bilgeliğini sahada, bedeniyle öğrenmiş biridir. Son zamanlarda ise akıllı telefonundan en yeni ev elektroniği ürün incelemelerini ve dünyada neler olup bittiğini anlatan videoları takip ederek yeni bilgilere kulak veriyor."

NVIDIA Nemotron-Personas-Korea - Güney Kore'nin gerçek nüfus dağılımına dayalı 1 milyon sentetik persona veri kümesi

Mevcut LLM'lerin ürettiği Kore personelarındaki sorunlar

Veri kümesinin genel görünümü ve amacı

Veri kaynakları ve üretim yöntemi

Veri kümesinin ölçeği ve yapısı

İsim dağılımı

Yaş dağılımı

Medeni durum dağılımı

Hane türü dağılımı

Eğitim seviyesi dağılımı

Meslek dağılımı

Teknik kısıtlar ve sınırlamalar

Sadece LLM'e dayalı yaklaşıma kıyasla iyileştirme sonuçları

Kültürel yansıma örnekleri

Persona veri kümesi neden LLM'lere yardımcı oluyor

Gerçek kullanım örnekleri

Kullanım yöntemi ve lisans

İlgili okumalar

10 yorum