75 puan yazan GN⁺ 2026-04-27 | 10 yorum | WhatsApp'ta paylaş
  • Güney Kore İstatistik Kurumu, Yüksek Mahkeme, Ulusal Sağlık Sigortası Kurumu gibi kamu verilerine dayanarak gerçek demografik, coğrafi ve kişilik dağılımlarını yansıtan ilk büyük ölçekli Korece persona veri kümesi
  • 1 milyon kayıtta 7 milyon persona içeriyor ve ad, cinsiyet, yaş, medeni durum, eğitim düzeyi, meslek, ikamet bölgesi gibi 26 alandan oluşuyor
  • Kurumsal düzeyde sentetik veri üretim sistemi NeMo Data Designer ve google/gemma-4-31B-it modeli kullanılarak üretildi
  • Mevcut persona veri kümelerine kıyasla yaşlı nüfus, kırsal bölgeler ve çeşitli eğitim/meslek dağılımlarını daha sadık biçimde yansıtarak egemen yapay zeka modellerindeki önyargının azaltılmasına katkı sağlıyor
  • CC BY 4.0 lisansıyla ticari ve ticari olmayan kullanımın tamamına serbestçe açık

Mevcut LLM'lerin ürettiği Kore personlarındaki sorunlar

  • Persona, bir bireyin kendine özgü özellikleri, ilgi alanları, kişiliği ve mesleği gibi unsurların betimlenmesidir; personlardan oluşan bir veri kümesinin ilgili topluluğun kültürel ve dağılımsal özelliklerini doğru biçimde yansıtması gerekir
  • Yabancı bir LLM'e "Kore toplumuna uygun, gerçekçi ve çeşitli kişi profilleri üret" şeklinde istem verildiğinde sonuçlar ciddi biçimde çarpıtılıyor
    • Üretilen personların %40'ı en sevdiği yemek olarak salatayı seçiyor ya da "Kuzey Gyeongsang'daki Andong şehrinde elma bahçesi işletiyorum" gibi gerçekçi olmayan sonuçlar çıkıyor
  • Claude Opus 4.7 ile Kore'ye ait 2 bin persona rastgele örneklendiğinde, meslek dağılımında %77,6'sının "yuja yetiştiren çiftçi" olarak üretildiği gibi aşırı bir önyargı görüldü
  • GPT-5.4 içinse personların %90,1'i "bakım görevlisi" olarak üretildi
  • Şehir dağılımı, aile yapısı, konut kullanım biçimi, yemek tercihleri gibi her açıdan Güney Kore'nin gerçek koşullarıyla uyuşmayan önyargılar bulunuyor

Veri kümesinin özeti ve amacı

  • Güney Kore nüfusunun çeşitliliğini ve özelliklerini geniş biçimde yansıtacak şekilde tasarlanmış açık kaynaklı bir sentetik persona veri kümesi
  • Korece olarak, herkesin kolayca okuyabileceği biçimde yazıldı
  • Egemen yapay zeka sistemleri kurulurken eğitim verilerindeki eksik verileri ve potansiyel önyargıları azaltmak temel hedef
  • Sentetik veri üretiminde kullanılan mevcut persona veri kümelerindeki, özellikle yaş, bölge, eğitim seviyesi ve meslek eksenlerindeki önyargıları gidermeye odaklanıyor

Veri kaynakları ve üretim yöntemi

  • KOSIS'in (Kore İstatistik Bilgi Servisi) cinsiyet, bölge, sektör, meslek, seyahat ve boş zamanla ilgili nüfus sayımı verileri kullanıldı
  • Yüksek Mahkemenin doğum yılı, cinsiyet ve isim verileri; Ulusal Sağlık Sigortası Kurumunun sağlık taraması bilgileri; Kırsal Ekonomi Enstitüsünün gıda tüketim davranışı araştırması sonuçları kullanıldı
  • NAVER Cloud, tasarım aşamasında başlangıç verisi ve alan uzmanlığı sağladı
  • Özgün bir olasılıksal grafik model (PGM), Apache-2.0 lisanslı google/gemma-4-31B-it modeli ve NeMo Data Designer'ın doğrulama/değerlendirme yöntemleri kullanıldı
  • Ad, yaş, cinsiyet, bölge, evlilik, aile, konut, eğitim, uzmanlık alanı, ekonomik faaliyet, gelir, sektör, meslek grubu, tansiyon, kan şekeri, bel çevresi, BMI, seyahat, boş zaman, tercih edilen restoran türü, paket servis ve dışarıda yeme sıklığı gibi kapsamlı alanları içeriyor
  • Tüm veriler gerçek dağılımları yansıtacak şekilde tamamen yapay olarak sentezlendi; gerçek kişilerle benzerlikler tamamen tesadüfidir

Veri kümesinin ölçeği ve yapısı

  • Toplam 1,7 milyar tokendan (persona metinlerinde 1 milyar token) oluşan 1 milyon kayıt
  • 26 alan: 7 persona alanı, 6 persona öznitelik alanı, 12 demografik/coğrafi bağlam alanı ve 1 benzersiz tanımlayıcı
  • 17 il düzeyi bölge ve 252 il/ilçe düzeyi idari bölge için kapsamlı kapsama
  • 209 binden fazla benzersiz tam ad kombinasyonu (118 soyadı, 21.400 ad)
  • 7 persona türü: meslek, spor, sanat, seyahat, yemek, aile, özet
  • Ek persona öznitelikleri: kültürel arka plan, teknik bilgi ve uzmanlık, kariyer hedefleri/özlemleri, hobiler/ilgi alanları
Reklam

İsim dağılımı

  • Güney Kore'de bugün kamuya açık isim verileri yalnızca 2008 sonrası dönemle sınırlı
  • Nemotron-Personas-Korea, 1940'tan itibaren tüm ülke isim verilerine dayanan ilk açık veri kümesi
  • "82 yaşında Kim Hayul?" ya da "21 yaşında Kim Sunja?" gibi döneme uymayan isim atamaları sorununu çözüyor
  • Soyadı dağılımında Kim (%21,5), Lee (%14,7), Park (%8,5), Jeong (%4,8), Choi (%4,7) gibi ilk 5 soyadı toplamın yaklaşık %54'ünü oluşturuyor
  • İsimler, cinsiyet ve doğum yılına göre kuşaklara özgü ad verme eğilimlerini yansıtıyor
    • Kadın: Yeongsuk, Jeongsuk, Sunja gibi ileri yaş grubu isimleri ile Jiyoung, Yujin, Jihyun gibi genç kuşak isimleri birlikte görülüyor
    • Erkek: Jihun, Hyeonu, Junho gibi modern isimler üst sıralarda yer alıyor
  • En sık görülen tam adın Kim Yeongsuk olması, gerçek araştırma sonuçlarıyla örtüşüyor

Yaş dağılımı

  • Ortası şişkin bir çömlek biçimli yapı sergileyerek, düşük doğurganlık ve yaşlanmanın aynı anda ilerlediği güncel nüfus yapısını sadık biçimde yansıtıyor
  • En kalın aralık 50-64 yaş (oran yaklaşık 0,09) ve bu grup 1960-70'lerin bebek patlaması kuşağına karşılık geliyor
  • 70 yaş üzeri yaşlı nüfusta kadın oranı erkeklerden belirgin biçimde yüksek
    • 80-89 yaş aralığında kadın oranı erkeklerin yaklaşık 1,52 katı

Medeni durum dağılımı

  • Bekâr oranı 19-24 yaşta %95'in üzerinde; 30'lu yaşlarda %55'ten %31'e düşerek ilk evlilik yaşının ortalama 31-33 olmasına uygun biçimde geç evlilik eğilimini yansıtıyor
  • Evli oranı 35 yaştan itibaren %64'e yükseliyor ve 50'li yaşların sonunda %78 ile zirve yapıyor
  • Dulluk 60'lı yaşlardan itibaren hızla artıyor; 80'lerin sonlarında %66, 90'lı yaşlarda %74-81 seviyesine ulaşıyor
  • Boşanma oranı 50'li yaşlar ile 60'ların başında yaklaşık %12 ile en yüksek düzeyde ve ileri yaş boşanmaları eğilimiyle uyumlu

Hane türü dağılımı

  • Tüm yaş gruplarında çift + evlenmemiş çocuklar hanesi en yüksek paya sahip; 19 yaşta %63,6 ile zirvede
  • 50'li yaşlardan sonra yalnızca çift hanesi hızla artıyor ve 65-69 yaşta %45,7 ile zirve yapıyor
  • Tek kişilik hane, 20'li yaşların başında (%15-22) ve 75 yaş sonrasında (%21-32) çift tepeli bir desen gösteriyor
  • Anne + evlenmemiş çocuklar hanesi (%5-14), baba + evlenmemiş çocuklar hanesinden (%2-5) daha yüksek; bu da tek ebeveynli hanelerde cinsiyet asimetrisini doğruluyor
Reklam

Eğitim düzeyi dağılımı

  • 20-34 yaş arası genç kuşakta 4 yıllık üniversite mezuniyet oranı %50'nin üzerinde; yüksekokul dahil edildiğinde yaklaşık %75'i yükseköğrenim görmüş durumda
  • 80 yaş üstünde okulsuz (%36) ve ilkokul (%37) grupları toplamın %73'ünü oluşturuyor
  • Bölgelere göre lisans ve üzeri oranı Sejong (%49,0), Seul (%45,1) ve Daejeon (%39,7) sırasıyla en yüksek
    • Sejong'da bunun nedeni hükümet yerleşkesinin taşınmasıyla yüksek eğitimli memur ve araştırmacıların bölgeye akışı

Meslek dağılımı

  • Uzmanlar ve büro çalışanları en büyük payı oluşturuyor; bu da hizmet ve bilgi temelli ekonomi yapısını yansıtıyor
  • Satış işlerinde çevrim içi alışveriş satış görevlisi (%19,8) ilk sırada; bu da yüksek e-ticaret payını gösteriyor
  • Basit işgücünde bina güvenlik görevlileri (%21,3) ve bina temizlik görevlilerinde (%16,0) yoğunlaşma var
  • Askerler, toplam istihdamın yaklaşık %1'ini oluşturuyor ve bunun üçte ikisinden fazlası kara kuvvetlerinde

Teknik kısıtlar ve sınırlamalar

  • Açık verinin erişilebilirliği, güncelliği ve PGM modelinin pratik sınırlamaları nedeniyle belirli değişkenler arasında bağımsızlık varsayımı uygulandı
    • Örnek: ayrıntılı meslek atamalarında cinsiyet, gelir, eğitim ve uzmanlık alanının birbirinden bağımsız etki ettiği varsayılıyor; etkileşimler hesaba katılmıyor
  • Toplumsal cinsiyet (gender) konusunda kapsayıcı istatistikler Güney Kore kamu verilerinde bulunmadığından buna yer verilmedi
  • Yalnızca 19 yaş ve üzeri yetişkin personalar içeriliyor
  • Finans, sağlık gibi kurumsal müşteriyle ilgili personlar hariç tutuldu
Reklam

Yalnızca LLM'e dayalı yaklaşıma göre iyileştirmeler

  • Yalnızca LLM kullanıldığında şehir dağılımı Suncheon ve Changwon gibi yerlere yığılırken, Nemotron-Personas-Korea'da Hwaseong (Gyeonggi), Namyangju ve Seul'ün Songpa bölgesi gibi yerlerde gerçek nüfusa orantılı dağılım yansıtılıyor
  • Aile yapısı, tek kişilik hane ağırlığından çıkıp eşle birlikte yaşama, eş + çocuklarla yaşama, ebeveynlerle yaşama gibi çeşitli biçimlere genişliyor
  • Konut sahipliği de %100 mülk sahipliğinden çıkarak mülk sahibi ve kiracıların gerçek oranlarını yansıtıyor
  • Yemek dağılımı da salata ağırlığından çıkıp bibimbap, Japon mutfağı, tavuk, galbi, samgyeopsal, tteokbokki, atıştırmalık yemekler, ekmek, doenjang-jjigae ve jajangmyeon gibi gerçek yemek kültürünü yansıtıyor

Kültürel yansıma örnekleri

  • "İş çıkışında iş arkadaşlarıyla samgyeopsal ve soju eşliğinde günün yorgunluğunu atan, 33 yaşında ailesiyle yaşamayı sürdüren Jeong Jun" — Seul Songpa'da yaşayan, 4 yıllık üniversite mezunu, bekâr, anne babasıyla yaşayan biri olarak Kore toplumundaki kanguru kuşağı olgusunu yansıtıyor
  • "Sim Su-bong şarkıları ve aile grup sohbetine fotoğraf yüklemeyi seven, Ulsanlı 73 yaşındaki Kim Chunhui" — kadın, okulsuz, evli, işsiz biri olarak yaşlı kadın nüfusu yansıtıyor

Persona veri kümesi neden LLM'lere yardımcı olur?

  • İnsanların her biri kendine özgü bilgiye sahiptir; persona ise bu özgün bilgiyi yoğunlaştıran bir fenotipik ifadedir
    • Örnek: elektrik teknisyeni personası, LLM'den elektrikle ilgili bilgiyi çekip çıkarmaya yarayan bir aracı olabilir
  • Sentetik veride çeşitlilik son derece önemli bir ölçüttür ve bunun en iyi kaynağı yine insandır
  • "{verilen persona} ile ilgili mantıksal çıkarım soruları üret" biçiminde, persona bazında çeşitli sentetik eğitim verileri oluşturulabilir

Gerçek kullanım örnekleri

  • Genel araç kullanımı performansını artırma: kullanıcı-LLM'e araç seti ve persona birlikte verilerek veri sentezi ve eğitim yapıldı. Nemotron-Nano-9B-v2-Japanese bu yöntemi benimseyerek Nejumi liderlik tablosunda 1. sıraya ulaştı. Benzer yöntem Nemotron Nano v3 ve Super v3'e de uygulandı
  • Model güvenliğini artırma: Sensitive-safety-category-refusals (SSCR) veri kümesinin tohum verisi olarak kullanıldı. SSCR veri kümesi nemotron-safety-blend içinde yer alıyor

Kullanım yöntemi ve lisans

  • Python datasets kütüphanesiyle load_dataset("nvidia/Nemotron-Personas-Korea") çağrısı yapılarak yüklenebilir
  • CC BY 4.0 lisansıyla ticari ve ticari olmayan tüm kullanımlarda serbestçe kullanılabilir
  • Doğrudan NeMo Data Designer içinde kullanılabilen genişletilmiş bir sürüm de ayrıca sunuluyor

10 yorum

 
calmlake79 2026-04-27

Ben de zaten bunu GeekNews’e bir kez paylaşmayı düşünüyordum..

https://manyperson.com/

Bununla ilgili bir persona hizmeti geliştiriyorum. Aynı şekilde MDIS verilerini kullandım, ben ise Gemini’den yararlandım.

 
recast7838 2026-04-27

Paylaşım için teşekkürler

 
rlaaudgjs5638 2026-04-27

Güzel kaynak, teşekkürler. Persona'lar demek ki böyle oluşturuluyormuş.

 
dongho42 2026-04-27

Faydalı!

 
civilian 2026-04-27

https://github.com/civilian7/korean-people-persona

Kişisel ihtiyaç nedeniyle
herkese açık verileri sqlite3'e dönüştürebilen bir Python programı ve
bir mcp sunucusu örneği hazırlayıp paylaştım.

 
nvkzrx 2026-04-27

20'li yaşlardakilerin 4 yıllık üniversitelere giriş oranının %50'nin altında olması sanki yakın zamana kadardı; şimdi galiba onu da aşmış.

 
nvkzrx 2026-04-27

Oldukça ilginç istatistikler varmış.

 
xguru 2026-04-27

Yurt dışındaki LLM’lerin ürettikleriyle kıyaslayınca bunlar fazlasıyla gerçekçi personalar gibi görünüyor.

"Bay Park Ho-cheol, kulaklığını takıp gün boyunca onlarca yüksek tansiyonlu şikâyeti sessizce karşılayan ve karmaşık sigorta şartlarını sanki yan komşu amca anlatıyormuş gibi kolay anlaşılır hale getiren Wonju sigorta merkezinin kıdemli danışmanıdır.

"Paju’da İmjin Nehri kıyısının sakin manzarası içinde onlarca yıl geçirmiş, liseden mezun olduktan hemen sonra tesisat sahasına atılarak hayatın bilgeliğini sahada, bedeniyle öğrenmiş biridir. Son zamanlarda ise akıllı telefonundan en yeni ev elektroniği ürün incelemelerini ve dünyada neler olup bittiğini anlatan videoları takip ederek yeni bilgilere kulak veriyor."