- LLM’ler hem özgeçmiş oluşturma hem de değerlendirme tarafında kullanıldıkça, değerlendirme modelinin kendi ürettiği çıktıları daha yüksek seçmesi şeklindeki öz-tercih, işe alım elemesinde yeni bir önyargı olarak ortaya çıkıyor
- Araştırma, üretken yapay zekanın yaygınlaşmasından önce toplanmış insan tarafından yazılmış 2.245 özgeçmiş temelinde GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 gibi çeşitli LLM’lerin ürettiği karşıolgusal özgeçmişleri karşılaştırmalı olarak değerlendiriyor
- Çoğu modelde LLM-vs-Human öz-tercihi güçlü biçimde gözlendi ve başlıca ticari/açık kaynak modellerin insan yazımı özgeçmişlere kıyasla gösterdiği öz-tercih önyargısı %67 ile %82 aralığındaydı
- 24 meslek grubundaki işe alım hattı simülasyonlarında, değerlendirme yapan LLM ile aynı LLM’yi kullanan adayların, eşdeğer niteliklere sahip insan yazımı özgeçmiş sunan adaylara göre nihai kısa listeye kalma olasılığı yaklaşık %23 ile %60 daha yüksekti
- Kaynağı göz ardı edip içeriğe odaklanmayı amaçlayan sistem istemleri ve çoğunluk oylamalı ansambllar, test edilen tüm LLM’lerde LLM-vs-Human öz-tercihini göreli olarak %17 ile %63 azalttı
Yapay zekanın öz-tercihinin işe alım değerlendirmesinde yarattığı yeni önyargı
- Büyük dil modelleri (LLM), hem içerik üretiminde hem de değerlendirmede kullanıldıkça, aynı modelin kendi ürettiği çıktıları daha yüksek değerlendirmesi anlamına gelen öz-tercih (self-preference), işe alım gibi karar süreçlerinde yeni bir önyargı olarak öne çıkıyor
- İşe alımda adayların LLM ile özgeçmiş yazıp düzenlemesi, işverenlerin de benzer araçlarla özgeçmişleri elemesi veya sıralaması yaygınlaştıkça, AI-AI etkileşimi gerçek değerlendirme sonuçlarını etkileyebilir
- Mevcut adillik tartışmaları çoğunlukla demografik özelliklere dayalı ayrımcılığa odaklanırken, öz-tercih değerlendirme modeli ile üretim modeli arasındaki ilişkiden içsel olarak doğan bir önyargı olması bakımından farklılaşıyor
- Bu önyargı, aynı yetkinliklere sahip adaylar arasında bile, değerlendirmede kullanılan LLM ile aynı modeli kullanan adayların lehine; farklı araç kullanan ya da hiç yapay zeka kullanmayan adayların aleyhine çalışabilir
- Özgeçmiş elemesi, büyük aday havuzunu sınırlı sayıdaki mülakat ve değerlendirme aşamasına indiren ilk darboğaz aşaması olduğundan, üst kademedeki yanlış kararlar sonraki aday havuzunun yapısını ve işe alım fırsatlarının dağılımını kalıcı biçimde etkileyebilir
Deney tasarımı ve ölçüm yöntemi
- Deney, profesyonel bir özgeçmiş yazım platformundan toplanan insan tarafından yazılmış 2.245 özgeçmişe dayanıyor ve üretken yapay zekanın yaygın kullanımından önceki verileri kullanıyor
- Her bir özgeçmiş için çeşitli güncel LLM’lerle karşıolgusal (counterfactual) sürümler üretiliyor; böylece aynı adayın nitelikleri, deneyimi ve arka plan bilgileri korunurken yalnızca ifade biçimi değişiyor
- Kullanılan modeller şunlar: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- Değerlendirici LLM, aynı adayı temsil eden iki özgeçmişten hangisinin daha güçlü olduğuna dair ikili karşılaştırma yapıyor; değerlendirilen özgeçmişler arasında yalnızca kaynak farkı bulunuyor
- Öz-tercih iki biçimde ayrılıyor
-
LLM-vs-Human öz-tercihi
- Değerlendirici LLM’nin, kendi ürettiği özgeçmişi insan tarafından yazılmış eşdeğer bir özgeçmişten daha çok tercih etme eğilimini ifade ediyor
-
LLM-vs-LLM öz-tercihi
- Değerlendirici LLM’nin, başka bir LLM’nin ürettiği özgeçmişe kıyasla kendi ürettiği özgeçmişi tercih etme eğilimini ifade ediyor
- Değerlendirici LLM bu bağlamda ikili sınıflandırıcı gibi çalışıyor ve önyargıyı ölçmek için adillik literatüründeki istatistiksel eşitlik (statistical parity) ile fırsat eşitliği (equal opportunity) ölçütleri kullanılıyor
- İstatistiksel eşitlik temelli öz-tercih önyargısı, değerlendirici LLM’nin ürettiği bir özgeçmişin seçilme olasılığı ile insan ya da başka bir LLM tarafından üretilmiş bir özgeçmişin seçilme olasılığı arasındaki fark olarak tanımlanıyor
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- Burada
S = 1, değerlendirici LLMftarafından üretilen özgeçmişi;S = 0ise insan ya da başka bir LLM tarafından üretilen özgeçmişi ifade ediyor Y'_f = 1, değerlendirici LLMf’nin ilgili özgeçmişi daha güçlü özgeçmiş olarak seçtiği anlamına geliyor- İstatistiksel eşitlik farkını doğrudan önyargı olarak yorumlarken dikkatli olmak gerekiyor
- Bu fark öz-tercihten kaynaklanabileceği gibi, aynı aday bilgisini daha açık, tutarlı ve akıcı biçimde ifade eden içerik kalitesi farkından da kaynaklanabilir
- Burada içerik kalitesi, adayın nitelik ya da geçmiş farkını değil; aynı bilginin açıklık, tutarlılık, akıcılık ve yapı bakımından nasıl aktarıldığını ifade ediyor
-
Başlıca ampirik bulgular
- Modellerin çoğunda LLM-vs-Human öz-tercihi güçlü ve tutarlı biçimde gözleniyor
- GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B ve LLaMA 3.3-70B gibi daha büyük modeller, içerik kalitesi kontrol edildikten sonra bile %65’i aşan güçlü önyargı gösteriyor
- GPT-4o özelinde LLM-vs-Human öz-tercihi %80’in üzerindeydi ve başlıca ticari ve açık kaynak modeller genelinde insan yazımı özgeçmişlere yönelik öz-tercih önyargısı %67~%82 aralığında görüldü
- LLM-vs-LLM öz-tercihi, modellere göre daha büyük farklılık gösteriyor
- DeepSeek-V3 bu düzende en güçlü önyargıyı gösterdi ve LLaMA 3.3-70B ile karşılaştırıldığında kendi çıktısını %69 oranında tercih etti
- DeepSeek-V3, GPT-4o ile karşılaştırıldığında da kendi çıktısını %28 oranında tercih etti
- GPT-4o ve LLaMA 3.3-70B, başka modellerin ürettiği içeriği değerlendirirken tutarlı bir öz-tercih sergilemedi
- Değerlendirme, adayın gerçek niteliklerinden çok, değerlendirici LLM’nin üretim tarzıyla ne kadar örtüştüğünden etkilenebilir
- Bu önyargı, belirli üretim tekniklerine erişebilen veya belirli modelleri kullanabilen adaylara haksız avantaj sağlarken, diğer adayların aleyhine işleyebilir
İşe alım hattındaki etkiler
- 24 meslek grubu için gerçekçi işe alım hattı simülasyonları yapılarak öz-tercihin aday eleme sonuçları üzerindeki operasyonel etkisi ölçülüyor
- Değerlendirmede kullanılan LLM ile aynı LLM’yi kullanan adayların, aynı niteliklere sahip olup insan yazımı özgeçmiş sunan adaylara göre nihai kısa listeye (shortlist) kalma olasılığı yaklaşık %23 ile %60 daha yüksekti
- Dezavantaj en çok muhasebe, satış ve finans gibi iş odaklı alanlarda görüldü
- Tarım, sanat ve otomotivle ilgili alanlarda ise dezavantaj görece daha zayıf kaldı
- Aynı avantaj farklı işe alım döngülerinde tekrarlanarak sürerse, baskın LLM’nin tercih ettiği özgeçmiş stilinin aday havuzu içinde giderek yerleşmesi şeklinde bir kilitlenme etkisi (lock-in) oluşabilir
- Bu kilitlenme etkisi, aday elemesindeki çeşitliliği azaltabilir ve değerlendirme fırsatlarının dağılımındaki eşitsizliği büyütebilir
- İşe alım hatlarında mülakat ve değerlendirme gibi sonraki aşamaların kapasitesi sınırlı olduğundan, ilk özgeçmiş eleme aşamasındaki yanlış negatifler nitelikli adayları geri döndürülemez biçimde dışlayabilir; yanlış pozitifler ise sınırlı değerlendirme kaynaklarını tüketebilir
Azaltma stratejileri ve adillik çıkarımları
- Öz-tercihin temel mekanizması olarak öz-tanıma (self-recognition) öne sürülüyor
- Öz-tanıma, modelin kendi ürettiği içeriği örtük biçimde ayırt edebilme yeteneğini ifade ediyor
- Önceki araştırmalarda GPT-4 ve LLaMA 2 gibi LLM’lerin anlamlı düzeyde öz-tanıma yeteneği gösterdiği ve öz-tanıma kapasitesi ile öz-tercih önyargısının büyüklüğü arasında güçlü pozitif korelasyon bulunduğu görülmüştü
- İki basit azaltma stratejisi öneriliyor
-
Sistem istemleri
- Modele, özgeçmişin kaynağını göz ardı edip yalnızca esas içeriğe odaklanması açıkça talimat veriliyor
-
Çoğunluk oylamalı ansambl
- Değerlendirme modeline, öz-tanıması daha zayıf küçük modeller eklenerek tek bir LLM’nin önyargısı seyreltiliyor
- Test edilen tüm LLM’lerde bu müdahaleler, LLM-vs-Human öz-tercihini göreli olarak %17~%63 azalttı
- Çoğu durumda yalnızca öz-tanıma yeteneğini hedefleyen basit müdahalelerle önyargı %50’den fazla azaltılabiliyor
- Öz-tercih önyargısı yaygın ve işe alım sonuçları üzerinde somut etkiye sahip olsa da sabit bir özellik değil; tasarım müdahaleleriyle önemli ölçüde azaltılabiliyor
- Yapay zeka tabanlı işe alım için adillik çerçeveleri, yalnızca korunan özelliklere dayalı ayrımcılığı değil, üretim ve değerlendirmede kullanılan yapay zeka sistemleri arasındaki etkileşimden doğan etkileşim önyargısını da ele almak zorunda
- Şirketlerin yapay zeka yönetişimi ve sorumlu operasyon tasarımı, yalnızca girdi verileri ile korunan özellikleri değil, aday materyallerini hangi modelin oluşturduğunu ve bunları hangi modelin değerlendirdiğini de kapsamalı
-
1 yorum
Hacker News yorumları
LinkedIn'de yazdığımı aynen aktaracak olursam, makaleyi doğru okuduysam burada gerçekten gösterilen şey LLM'in kendi ürettiği özgeçmişleri tercih ettiği değil
Asıl yöntem, insanların yazdığı özgeçmişlerden yönetici özetini çıkarıp, LLM'in özgeçmişin geri kalanına dayanarak o yönetici özetini yeniden yazması, ardından başka bir LLM'in özgeçmişin geri kalanını görmeden yalnızca bu özeti değerlendirmesi gibi görünüyor
Bu tasarımın gerçek etkiyi yakaladığını varsaysak bile, etkiyi ciddi biçimde abartma ihtimali yüksek. Yazarlar bu tasarım için bir gerekçe sunmuş ama yeterince ikna edici görünmüyor: https://news.ycombinator.com/item?id=47987256#47987727
HR LLM kullandığı için iş arayanların da kullanması gerekir, sonra da iyi adaylar LLM kullandığı için HR'nin de kullanması gerekir gibi döngüsel bir yapı oluşur
Tek örnekten ibaret bir deneyim ama işten çıkarıldıktan sonra yeni bir rol ararken kendi hazırladığım özgeçmişle, deneyimime kıyasla pek geri dönüş alamadım
Eğlencesine ChatGPT'den özgeçmişimi analiz edip puanlamasını ve puanı mümkün olduğunca yükseltecek şekilde düzeltmesini istedim. Sonra gerçeklik kontrolü ve düzenlemeler yapıp gönderdim; önceye kıyasla yanıt oranı belirgin biçimde arttı
Bunun nedeni piyasa koşulları ya da zamanlama da olabilir ama mülakatı geçip yetkinliğimi kanıtlamam yine gerekiyordu; en azından ilk eşiği geçmeme yardımcı olmuş gibi görünüyor
Sonra ChatGPT 5.x'ten yardım aldı; önerdiği değişiklikler birbirine benzeyen bir AI üslubu taşıdığı için şüpheciydik ama birkaç gün sonra recruiter mesajları ve başvuru süreçleri gelmeye başladı
İşe alım sürecinin her yerine LLM'ler girdiği için, artık özgeçmişi bir LLM'e yazdırmıyorsan iş daha zor hale gelmiş gibi. Özgeçmişleri inceleyen LLM, aynı dili konuşmayan ve doğru nöronları tetiklemeyen profilleri daha düşük değerlendiriyor gibi görünüyor
Sezgisel olarak oldukça açık görünüyor. Modelin ürettiği içerik eğitim verisinin etkisini taşıdığı için, tekrar okuduğunda aynı eğitim dağılımıyla örtüşüp daha olumlu değerlendirilebilir
Yani bir insan “özgeçmişimi daha profesyonel yap” diyor, birkaç gün sonra da bir LLM HR raporunda “bu özgeçmiş gerçekten çok profesyonel” diyor
Bu yüzden, kod üretmekte kullandığım LLM ailesiyle kod incelemede kullandığım LLM ailesini farklı tutma yönündeki kişisel politikam haklı çıkıyor. Amaç kendi verdiği ödevi kendi notlamasını önlemek
Linki hatırlamıyorum ama gerçekten çok ilginçti
İnsanların arasına, onların rızası olmadan bir başka özne daha sokuyoruz. Model, kimin işe girip kimin giremeyeceğine karar veren aracı haline gelince bu sorunlu görünüyor
HR departmanları özgeçmişleri ChatGPT ile eliyorsa, sonunda ChatGPT ile yazılmış özgeçmişleri olan kişileri seçerler. Kaygan zemin argümanı yapmak istemem ama bunun organizasyonların kalitesini hızla düşüreceğine dair bir hissim var
Öte yandan ben tesisatçı ve taşeronum; işlerim neredeyse tamamen telefon, mesaj, tek seferlik e-posta ve güvenilir tavsiyeler üzerinden geliyor. 8 yılı aşkın süredir geleneksel anlamda bir özgeçmişle işim olmadı
Biriyle iletişim kurmaya başlayıp da karşımdaki bir bilgisayar gibi gelirse, bu hemen başka bir müşteriye geçme sinyali olur. Benimle doğrudan iletişim kurmaya bile zaman ayırmıyorsa, onun için yüzlerce saat fiziksel emek harcamayı neden düşüneyim?
Sonuçta yoksul insanlar zenginlere göre daha kötü özgeçmişlere sahip olacak ve araya giren model son sözü söylüyorsa bunu aşmanın da neredeyse yolu kalmayabilir
Teknoloji alanında özgeçmişler eninde sonunda, hatta belki de zaten, eskimiş hale gelecek gibi duruyor. Sinyal-gürültü oranı o kadar düşük ki filtreleme değeri çok sınırlı
GPA, sertifikalar ya da önceki görevler gibi görece güçlü sinyaller bile ilk eleme görüşmelerindeki başarıyla çok iyi örtüşmüyor
Bu yüzden sektörün acilen ihtiyaç duyduğu şeyin bir sınav konsorsiyumu olduğunu düşünüyorum. Üniversite adına bakıp yetkinlik tahmin etmek yerine, büyük teknoloji şirketleri alan bazlı standart sınavlar hazırlasa ve bu puanlar özgeçmişin yerini alsa, geliştiriciler de özgeçmiş yazma ve tekrar tekrar elemeye girme angaryası yerine puanlarını geliştirmeye odaklanabilir
Zaten “kurumsal” sertifikalar bugün fiilen böyle bir rol oynamıyor mu?
Bu, fiilen LeetCode'un etkili bir işe alım aracı olduğunu savunmak anlamına geliyor ki buna yönelik pek çok haklı eleştiri var
Bu durum oldukça ilginç bir strateji savaşına dönüşebilir. Bir şirkete başvururken o şirketin belirli bir aday takip sistemi kullandığını ve bu sistemin de belirli bir model sağlayıcısının filtresine dayandığını biliyorsan, şirkete göndereceğin özgeçmiş sürümünü o modelle hazırlaman mantıklı olur
Görünüşe göre bütün sektör otomatik değerlendiriciler kullanıyor. Yani bir ajan örneği, başka bir ajanın çıktısını puanlıyor
Niyet, insan etiketleyicileri devreden çıkaran karşıt sinir ağı tabanlı görüntü üretimi eğitimine benziyor. Böyle olunca ekipler otomatik değerlendirici puanını artırmayı optimizasyon metriği haline getiriyor ve sonunda ajanın kendi ürettiği içeriğe en yüksek puanı vermesi pek de şaşırtıcı olmuyor
Denemek için qwen/qwen3-v1-30b'yi lokalde çalıştırıp tamamen insan eliyle yazılmış özgeçmişimi vererek “bu özgeçmişi daha profesyonel hale getir” dedim
İnanılmaz maddeler üretti; “kurum genelinde veri modelleme konusunda uzmanlaştı ve toplam müşteri tabanının satılan malın maliyetini optimize etme çalışmalarında yer aldı” cümlesini, “kurum genelinde veri modelleme ve performans optimizasyonunda uzmanlaştı; müşteri tabanı genelinde 5 milyon doların üzerinde yinelenen maliyet tasarrufu sağladı” şekline çevirdi
5 milyon doların üzeri kulağa etkileyici geliyor ve özgeçmiş külliyatının metrik odaklı olduğu açık ama bu doğru değil ve ondan sayı uydurmasını da istemedim
Hatta özgeçmişimde yalnızca 1996-1998 arasında bir SDE rolü vardı ama durup dururken “University of California, Berkeley Bilgisayar Bilimi Lisansı | 1996–1998” bile ekledi
Böyle halüsinasyonları düzelten insanlar da olacaktır; o durumda sadece adayın zamanı boşa gider
Düzeltmeyenler de olacaktır; o durumda en iyi senaryo, adayla mülakatçının hatayı daha sonra fark edip zaman kaybetmesidir. En kötü senaryo ise işi yapamayacak birinin işe alınmasıdır ve bu herkes için kirli ve verimsiz bir sonuç olur
Benim için çok zamanında bir konu. Özgeçmişim 7 sayfaya kadar çıkmıştı ve her yerde 2 sayfayı geçmemesi gerektiği söylendiği için Gemini'dan yeniden yazmasını istedim
Gemini her şeyi abartmayı sevdiğinden çok zaman aldı ama çıkan sonuçtan oldukça memnunum
Fakat ilk gönderdiğim birkaç recruiter eski 7 sayfalık özgeçmişimi daha çok tercih etti. Demek ki henüz yeterince AI kullanmıyorlar
LLM'ler tutarlı biçimde LLM'in yazdığı içeriği iyi buluyor
Bir LLM'e tasarım dokümanı yazdırıp çok kötü bir çıktı alana kadar beklersen, sonra başka LLM'lerden geri bildirim istediğinde genellikle olumlu şeyler söylüyorlar
Buna karşılık gerçekten çok iyi yazılmış bir doküman gönderirsen, temelleri sağlam olsa bile genelde daha fazla kusur buluyorlar. Birinin bunu araştırması lazım
LLM'lerin büyük bir değeri olduğu açık ama bu olgu, etkileri nereye kadar uzandığı belli olmayan çok ilginç bir zayıflığı ortaya çıkarıyor
LLM'ler kendi yazdıkları koda karşı da ciddi bir önyargı taşıyor olabilir. Redis gibi yaygın biçimde iyi yazılmış kabul edilen bir kodu verip geri bildirim istersen, muhtemelen birçok kusur bulacaktır ve bunların önemli bir kısmı tamamen yanlış olabilir
Tersine, bariz şekilde berbat bir LLM üretimi depoyu aynı modele verirsen, tasarım dokümanındaki gibi mi tepki verir? Genel dili ve kodu farklı mı ele alır, yoksa aynı sorun burada da mı vardır? Bunu deneyen biri oldu mu merak ediyorum