Algoritmik işe alımda yapay zekanın öz-tercihi: ampirik kanıtlar ve çıkarımlar

(arxiv.org)

1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş

LLM’ler hem özgeçmiş oluşturma hem de değerlendirme tarafında kullanıldıkça, değerlendirme modelinin kendi ürettiği çıktıları daha yüksek seçmesi şeklindeki öz-tercih, işe alım elemesinde yeni bir önyargı olarak ortaya çıkıyor
Araştırma, üretken yapay zekanın yaygınlaşmasından önce toplanmış insan tarafından yazılmış 2.245 özgeçmiş temelinde GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 gibi çeşitli LLM’lerin ürettiği karşıolgusal özgeçmişleri karşılaştırmalı olarak değerlendiriyor
Çoğu modelde LLM-vs-Human öz-tercihi güçlü biçimde gözlendi ve başlıca ticari/açık kaynak modellerin insan yazımı özgeçmişlere kıyasla gösterdiği öz-tercih önyargısı %67 ile %82 aralığındaydı
24 meslek grubundaki işe alım hattı simülasyonlarında, değerlendirme yapan LLM ile aynı LLM’yi kullanan adayların, eşdeğer niteliklere sahip insan yazımı özgeçmiş sunan adaylara göre nihai kısa listeye kalma olasılığı yaklaşık %23 ile %60 daha yüksekti
Kaynağı göz ardı edip içeriğe odaklanmayı amaçlayan sistem istemleri ve çoğunluk oylamalı ansambllar, test edilen tüm LLM’lerde LLM-vs-Human öz-tercihini göreli olarak %17 ile %63 azalttı

Yapay zekanın öz-tercihinin işe alım değerlendirmesinde yarattığı yeni önyargı

Büyük dil modelleri (LLM), hem içerik üretiminde hem de değerlendirmede kullanıldıkça, aynı modelin kendi ürettiği çıktıları daha yüksek değerlendirmesi anlamına gelen öz-tercih (self-preference), işe alım gibi karar süreçlerinde yeni bir önyargı olarak öne çıkıyor
İşe alımda adayların LLM ile özgeçmiş yazıp düzenlemesi, işverenlerin de benzer araçlarla özgeçmişleri elemesi veya sıralaması yaygınlaştıkça, AI-AI etkileşimi gerçek değerlendirme sonuçlarını etkileyebilir
Mevcut adillik tartışmaları çoğunlukla demografik özelliklere dayalı ayrımcılığa odaklanırken, öz-tercih değerlendirme modeli ile üretim modeli arasındaki ilişkiden içsel olarak doğan bir önyargı olması bakımından farklılaşıyor
Bu önyargı, aynı yetkinliklere sahip adaylar arasında bile, değerlendirmede kullanılan LLM ile aynı modeli kullanan adayların lehine; farklı araç kullanan ya da hiç yapay zeka kullanmayan adayların aleyhine çalışabilir
Özgeçmiş elemesi, büyük aday havuzunu sınırlı sayıdaki mülakat ve değerlendirme aşamasına indiren ilk darboğaz aşaması olduğundan, üst kademedeki yanlış kararlar sonraki aday havuzunun yapısını ve işe alım fırsatlarının dağılımını kalıcı biçimde etkileyebilir

Deney tasarımı ve ölçüm yöntemi

Deney, profesyonel bir özgeçmiş yazım platformundan toplanan insan tarafından yazılmış 2.245 özgeçmişe dayanıyor ve üretken yapay zekanın yaygın kullanımından önceki verileri kullanıyor
Her bir özgeçmiş için çeşitli güncel LLM’lerle karşıolgusal (counterfactual) sürümler üretiliyor; böylece aynı adayın nitelikleri, deneyimi ve arka plan bilgileri korunurken yalnızca ifade biçimi değişiyor
Kullanılan modeller şunlar: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
Değerlendirici LLM, aynı adayı temsil eden iki özgeçmişten hangisinin daha güçlü olduğuna dair ikili karşılaştırma yapıyor; değerlendirilen özgeçmişler arasında yalnızca kaynak farkı bulunuyor
Öz-tercih iki biçimde ayrılıyor
- LLM-vs-Human öz-tercihi
  - Değerlendirici LLM’nin, kendi ürettiği özgeçmişi insan tarafından yazılmış eşdeğer bir özgeçmişten daha çok tercih etme eğilimini ifade ediyor
- LLM-vs-LLM öz-tercihi
  - Değerlendirici LLM’nin, başka bir LLM’nin ürettiği özgeçmişe kıyasla kendi ürettiği özgeçmişi tercih etme eğilimini ifade ediyor
  - Değerlendirici LLM bu bağlamda ikili sınıflandırıcı gibi çalışıyor ve önyargıyı ölçmek için adillik literatüründeki istatistiksel eşitlik (statistical parity) ile fırsat eşitliği (equal opportunity) ölçütleri kullanılıyor
  - İstatistiksel eşitlik temelli öz-tercih önyargısı, değerlendirici LLM’nin ürettiği bir özgeçmişin seçilme olasılığı ile insan ya da başka bir LLM tarafından üretilmiş bir özgeçmişin seçilme olasılığı arasındaki fark olarak tanımlanıyor
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - Burada S = 1, değerlendirici LLM f tarafından üretilen özgeçmişi; S = 0 ise insan ya da başka bir LLM tarafından üretilen özgeçmişi ifade ediyor
  - Y'_f = 1, değerlendirici LLM f’nin ilgili özgeçmişi daha güçlü özgeçmiş olarak seçtiği anlamına geliyor
  - İstatistiksel eşitlik farkını doğrudan önyargı olarak yorumlarken dikkatli olmak gerekiyor
  - Bu fark öz-tercihten kaynaklanabileceği gibi, aynı aday bilgisini daha açık, tutarlı ve akıcı biçimde ifade eden içerik kalitesi farkından da kaynaklanabilir
  - Burada içerik kalitesi, adayın nitelik ya da geçmiş farkını değil; aynı bilginin açıklık, tutarlılık, akıcılık ve yapı bakımından nasıl aktarıldığını ifade ediyor

Başlıca ampirik bulgular

Modellerin çoğunda LLM-vs-Human öz-tercihi güçlü ve tutarlı biçimde gözleniyor
GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B ve LLaMA 3.3-70B gibi daha büyük modeller, içerik kalitesi kontrol edildikten sonra bile %65’i aşan güçlü önyargı gösteriyor
GPT-4o özelinde LLM-vs-Human öz-tercihi %80’in üzerindeydi ve başlıca ticari ve açık kaynak modeller genelinde insan yazımı özgeçmişlere yönelik öz-tercih önyargısı %67~%82 aralığında görüldü
LLM-vs-LLM öz-tercihi, modellere göre daha büyük farklılık gösteriyor
- DeepSeek-V3 bu düzende en güçlü önyargıyı gösterdi ve LLaMA 3.3-70B ile karşılaştırıldığında kendi çıktısını %69 oranında tercih etti
- DeepSeek-V3, GPT-4o ile karşılaştırıldığında da kendi çıktısını %28 oranında tercih etti
- GPT-4o ve LLaMA 3.3-70B, başka modellerin ürettiği içeriği değerlendirirken tutarlı bir öz-tercih sergilemedi
Değerlendirme, adayın gerçek niteliklerinden çok, değerlendirici LLM’nin üretim tarzıyla ne kadar örtüştüğünden etkilenebilir
Bu önyargı, belirli üretim tekniklerine erişebilen veya belirli modelleri kullanabilen adaylara haksız avantaj sağlarken, diğer adayların aleyhine işleyebilir

İşe alım hattındaki etkiler

24 meslek grubu için gerçekçi işe alım hattı simülasyonları yapılarak öz-tercihin aday eleme sonuçları üzerindeki operasyonel etkisi ölçülüyor
Değerlendirmede kullanılan LLM ile aynı LLM’yi kullanan adayların, aynı niteliklere sahip olup insan yazımı özgeçmiş sunan adaylara göre nihai kısa listeye (shortlist) kalma olasılığı yaklaşık %23 ile %60 daha yüksekti
Dezavantaj en çok muhasebe, satış ve finans gibi iş odaklı alanlarda görüldü
Tarım, sanat ve otomotivle ilgili alanlarda ise dezavantaj görece daha zayıf kaldı
Aynı avantaj farklı işe alım döngülerinde tekrarlanarak sürerse, baskın LLM’nin tercih ettiği özgeçmiş stilinin aday havuzu içinde giderek yerleşmesi şeklinde bir kilitlenme etkisi (lock-in) oluşabilir
Bu kilitlenme etkisi, aday elemesindeki çeşitliliği azaltabilir ve değerlendirme fırsatlarının dağılımındaki eşitsizliği büyütebilir
İşe alım hatlarında mülakat ve değerlendirme gibi sonraki aşamaların kapasitesi sınırlı olduğundan, ilk özgeçmiş eleme aşamasındaki yanlış negatifler nitelikli adayları geri döndürülemez biçimde dışlayabilir; yanlış pozitifler ise sınırlı değerlendirme kaynaklarını tüketebilir

Azaltma stratejileri ve adillik çıkarımları

Öz-tercihin temel mekanizması olarak öz-tanıma (self-recognition) öne sürülüyor
- Öz-tanıma, modelin kendi ürettiği içeriği örtük biçimde ayırt edebilme yeteneğini ifade ediyor
- Önceki araştırmalarda GPT-4 ve LLaMA 2 gibi LLM’lerin anlamlı düzeyde öz-tanıma yeteneği gösterdiği ve öz-tanıma kapasitesi ile öz-tercih önyargısının büyüklüğü arasında güçlü pozitif korelasyon bulunduğu görülmüştü
İki basit azaltma stratejisi öneriliyor
- Sistem istemleri
  - Modele, özgeçmişin kaynağını göz ardı edip yalnızca esas içeriğe odaklanması açıkça talimat veriliyor
- Çoğunluk oylamalı ansambl
  - Değerlendirme modeline, öz-tanıması daha zayıf küçük modeller eklenerek tek bir LLM’nin önyargısı seyreltiliyor
  - Test edilen tüm LLM’lerde bu müdahaleler, LLM-vs-Human öz-tercihini göreli olarak %17~%63 azalttı
  - Çoğu durumda yalnızca öz-tanıma yeteneğini hedefleyen basit müdahalelerle önyargı %50’den fazla azaltılabiliyor
  - Öz-tercih önyargısı yaygın ve işe alım sonuçları üzerinde somut etkiye sahip olsa da sabit bir özellik değil; tasarım müdahaleleriyle önemli ölçüde azaltılabiliyor
  - Yapay zeka tabanlı işe alım için adillik çerçeveleri, yalnızca korunan özelliklere dayalı ayrımcılığı değil, üretim ve değerlendirmede kullanılan yapay zeka sistemleri arasındaki etkileşimden doğan etkileşim önyargısını da ele almak zorunda
  - Şirketlerin yapay zeka yönetişimi ve sorumlu operasyon tasarımı, yalnızca girdi verileri ile korunan özellikleri değil, aday materyallerini hangi modelin oluşturduğunu ve bunları hangi modelin değerlendirdiğini de kapsamalı

1 yorum

GN⁺ 2 시간 전

Hacker News yorumları

LinkedIn'de yazdığımı aynen aktaracak olursam, makaleyi doğru okuduysam burada gerçekten gösterilen şey LLM'in kendi ürettiği özgeçmişleri tercih ettiği değil
Asıl yöntem, insanların yazdığı özgeçmişlerden yönetici özetini çıkarıp, LLM'in özgeçmişin geri kalanına dayanarak o yönetici özetini yeniden yazması, ardından başka bir LLM'in özgeçmişin geri kalanını görmeden yalnızca bu özeti değerlendirmesi gibi görünüyor
Bu tasarımın gerçek etkiyi yakaladığını varsaysak bile, etkiyi ciddi biçimde abartma ihtimali yüksek. Yazarlar bu tasarım için bir gerekçe sunmuş ama yeterince ikna edici görünmüyor: https://news.ycombinator.com/item?id=47987256#47987727
- Bu, daha fazla LLM kullanın diye yapılmış bir reklam da olabilir. Nasıl peynir, petrol ya da muskat sektörlerinde tanıtım kuruluşları varsa, LLM'ler için de konsorsiyum benzeri yapılar var ve bunlar böyle araştırmaları destekleyerek FOMO'yu körüklüyor olabilir
  HR LLM kullandığı için iş arayanların da kullanması gerekir, sonra da iyi adaylar LLM kullandığı için HR'nin de kullanması gerekir gibi döngüsel bir yapı oluşur
Tek örnekten ibaret bir deneyim ama işten çıkarıldıktan sonra yeni bir rol ararken kendi hazırladığım özgeçmişle, deneyimime kıyasla pek geri dönüş alamadım
Eğlencesine ChatGPT'den özgeçmişimi analiz edip puanlamasını ve puanı mümkün olduğunca yükseltecek şekilde düzeltmesini istedim. Sonra gerçeklik kontrolü ve düzenlemeler yapıp gönderdim; önceye kıyasla yanıt oranı belirgin biçimde arttı
Bunun nedeni piyasa koşulları ya da zamanlama da olabilir ama mülakatı geçip yetkinliğimi kanıtlamam yine gerekiyordu; en azından ilk eşiği geçmeme yardımcı olmuş gibi görünüyor
- Eşimde de benzer oldu. LinkedIn profilini ve özgeçmişini metrikler, anahtar kelimeler ve başarılarla özenle güçlendirmişti ama aylarca, hatta neredeyse bir yıl boyunca ne recruiter'lar ulaştı ne de başvurularından doğru düzgün dönüş aldı
  Sonra ChatGPT 5.x'ten yardım aldı; önerdiği değişiklikler birbirine benzeyen bir AI üslubu taşıdığı için şüpheciydik ama birkaç gün sonra recruiter mesajları ve başvuru süreçleri gelmeye başladı
  İşe alım sürecinin her yerine LLM'ler girdiği için, artık özgeçmişi bir LLM'e yazdırmıyorsan iş daha zor hale gelmiş gibi. Özgeçmişleri inceleyen LLM, aynı dili konuşmayan ve doğru nöronları tetiklemeyen profilleri daha düşük değerlendiriyor gibi görünüyor
- Yakın zamanda iş ararken ben de benzerini yaptım; maddelerin iyi okunup okunmadığını kontrol etmesini istedim ve çok sayıda düzeltme önerdi. Birkaçını uyguladım ama başvuru sonuçlarına ne kadar katkı sağladığından emin değilim
- LinkedIn ve özgeçmiş için böyle işler yapan servisler de var ve bunlarla oldukça iyi sonuç alanlar oldu
- Bunu yaptıktan sonra metni yeniden kısaltıp düzenleyerek tekrar insan eliyle yazılmış gibi duyulmasını sağladım
- Belki de HR, AI kullanmayı biliyor olmasına +1 vermiştir
Sezgisel olarak oldukça açık görünüyor. Modelin ürettiği içerik eğitim verisinin etkisini taşıdığı için, tekrar okuduğunda aynı eğitim dağılımıyla örtüşüp daha olumlu değerlendirilebilir
Yani bir insan “özgeçmişimi daha profesyonel yap” diyor, birkaç gün sonra da bir LLM HR raporunda “bu özgeçmiş gerçekten çok profesyonel” diyor
Bu yüzden, kod üretmekte kullandığım LLM ailesiyle kod incelemede kullandığım LLM ailesini farklı tutma yönündeki kişisel politikam haklı çıkıyor. Amaç kendi verdiği ödevi kendi notlamasını önlemek
- Üstelik mesele insanın anlayabileceği türden de değil. Bir LLM'e belli bir şekilde davranması söylenip rastgele bir sayı üretmesi istenmiş, sonra bu sayı başka bir LLM örneğine yapıştırılmış ve o da aynı şekilde davranmıştı diye bir araştırma vardı
  Linki hatırlamıyorum ama gerçekten çok ilginçti
İnsanların arasına, onların rızası olmadan bir başka özne daha sokuyoruz. Model, kimin işe girip kimin giremeyeceğine karar veren aracı haline gelince bu sorunlu görünüyor
- LLM kullanmayanlar için büyük bir arbitraj fırsatı da doğabilir
  HR departmanları özgeçmişleri ChatGPT ile eliyorsa, sonunda ChatGPT ile yazılmış özgeçmişleri olan kişileri seçerler. Kaygan zemin argümanı yapmak istemem ama bunun organizasyonların kalitesini hızla düşüreceğine dair bir hissim var
  Öte yandan ben tesisatçı ve taşeronum; işlerim neredeyse tamamen telefon, mesaj, tek seferlik e-posta ve güvenilir tavsiyeler üzerinden geliyor. 8 yılı aşkın süredir geleneksel anlamda bir özgeçmişle işim olmadı
  Biriyle iletişim kurmaya başlayıp da karşımdaki bir bilgisayar gibi gelirse, bu hemen başka bir müşteriye geçme sinyali olur. Benimle doğrudan iletişim kurmaya bile zaman ayırmıyorsa, onun için yüzlerce saat fiziksel emek harcamayı neden düşüneyim?
- Yaygın yanıt genelde “o zaman erişebildiğin modeli kullanırsın” oluyor ama AI büyük olasılıkla hep kaynak kısıtları ve kâr motivasyonları taşıyacak
  Sonuçta yoksul insanlar zenginlere göre daha kötü özgeçmişlere sahip olacak ve araya giren model son sözü söylüyorsa bunu aşmanın da neredeyse yolu kalmayabilir
- İşe alım yöneticisi özgeçmişi doğrudan okumayı bırakıp araya recruiter denen meslek girdiği anda zaten tren kaçmıştı
- Eskiden bu rolü HR yapıyordu; yani gerçek insanlar arasında zaten hep bir aracı vardı. HR çoğu zaman özgeçmişin kendisiyle ilgilenmez, sadece kontrol listesiyle uyuşup uyuşmadığına bakardı
- Zaten herkes LinkedIn hesabı açtığı anda bunu yapmış olduk
Teknoloji alanında özgeçmişler eninde sonunda, hatta belki de zaten, eskimiş hale gelecek gibi duruyor. Sinyal-gürültü oranı o kadar düşük ki filtreleme değeri çok sınırlı
GPA, sertifikalar ya da önceki görevler gibi görece güçlü sinyaller bile ilk eleme görüşmelerindeki başarıyla çok iyi örtüşmüyor
Bu yüzden sektörün acilen ihtiyaç duyduğu şeyin bir sınav konsorsiyumu olduğunu düşünüyorum. Üniversite adına bakıp yetkinlik tahmin etmek yerine, büyük teknoloji şirketleri alan bazlı standart sınavlar hazırlasa ve bu puanlar özgeçmişin yerini alsa, geliştiriciler de özgeçmiş yazma ve tekrar tekrar elemeye girme angaryası yerine puanlarını geliştirmeye odaklanabilir
- Böyle bir sistem de sonuçta oyunlaştırılır. Nasıl Silikon Vadisi tarzı mülakat soruları için LeetCode optimizasyonu oluştuysa, iş için çalışmak sınav için çalışmaya, sonra da ön eleme sınavı için çalışmaya dönüşür
- Belki kura çekmek daha bile iyi olurdu. Fayda seviyesi aşağı yukarı benzer, ama çok daha basit
  Zaten “kurumsal” sertifikalar bugün fiilen böyle bir rol oynamıyor mu?
- Alan bazlı standart sınav fikrinin kendisi aşırı derecede zor bir problem. Aleni kopya çekme teşviklerini bir kenara bıraksak bile, standartlaştırılmış sınavlar konu hâkimiyetini iyi ölçmüyor
  Bu, fiilen LeetCode'un etkili bir işe alım aracı olduğunu savunmak anlamına geliyor ki buna yönelik pek çok haklı eleştiri var
- Bilgisayar bilimi sınavı tasarlamak zor. LeetCode fazla basit ve genel yazılım geliştirmede neredeyse hiç işe yaramayan temel algoritma bilgisini ölçüyor
Bu durum oldukça ilginç bir strateji savaşına dönüşebilir. Bir şirkete başvururken o şirketin belirli bir aday takip sistemi kullandığını ve bu sistemin de belirli bir model sağlayıcısının filtresine dayandığını biliyorsan, şirkete göndereceğin özgeçmiş sürümünü o modelle hazırlaman mantıklı olur
- Güzel gözlem. Gelecekteki birçok sürüm sonunda bir LLM silahlanma yarışına dönüşecek
Görünüşe göre bütün sektör otomatik değerlendiriciler kullanıyor. Yani bir ajan örneği, başka bir ajanın çıktısını puanlıyor
Niyet, insan etiketleyicileri devreden çıkaran karşıt sinir ağı tabanlı görüntü üretimi eğitimine benziyor. Böyle olunca ekipler otomatik değerlendirici puanını artırmayı optimizasyon metriği haline getiriyor ve sonunda ajanın kendi ürettiği içeriğe en yüksek puanı vermesi pek de şaşırtıcı olmuyor
Denemek için qwen/qwen3-v1-30b'yi lokalde çalıştırıp tamamen insan eliyle yazılmış özgeçmişimi vererek “bu özgeçmişi daha profesyonel hale getir” dedim
İnanılmaz maddeler üretti; “kurum genelinde veri modelleme konusunda uzmanlaştı ve toplam müşteri tabanının satılan malın maliyetini optimize etme çalışmalarında yer aldı” cümlesini, “kurum genelinde veri modelleme ve performans optimizasyonunda uzmanlaştı; müşteri tabanı genelinde 5 milyon doların üzerinde yinelenen maliyet tasarrufu sağladı” şekline çevirdi
5 milyon doların üzeri kulağa etkileyici geliyor ve özgeçmiş külliyatının metrik odaklı olduğu açık ama bu doğru değil ve ondan sayı uydurmasını da istemedim
Hatta özgeçmişimde yalnızca 1996-1998 arasında bir SDE rolü vardı ama durup dururken “University of California, Berkeley Bilgisayar Bilimi Lisansı | 1996–1998” bile ekledi
- Evet, bir şeyler uydurma sorunu bunu daha da büyütecek
  Böyle halüsinasyonları düzelten insanlar da olacaktır; o durumda sadece adayın zamanı boşa gider
  Düzeltmeyenler de olacaktır; o durumda en iyi senaryo, adayla mülakatçının hatayı daha sonra fark edip zaman kaybetmesidir. En kötü senaryo ise işi yapamayacak birinin işe alınmasıdır ve bu herkes için kirli ve verimsiz bir sonuç olur
Benim için çok zamanında bir konu. Özgeçmişim 7 sayfaya kadar çıkmıştı ve her yerde 2 sayfayı geçmemesi gerektiği söylendiği için Gemini'dan yeniden yazmasını istedim
Gemini her şeyi abartmayı sevdiğinden çok zaman aldı ama çıkan sonuçtan oldukça memnunum
Fakat ilk gönderdiğim birkaç recruiter eski 7 sayfalık özgeçmişimi daha çok tercih etti. Demek ki henüz yeterince AI kullanmıyorlar
LLM'ler tutarlı biçimde LLM'in yazdığı içeriği iyi buluyor
Bir LLM'e tasarım dokümanı yazdırıp çok kötü bir çıktı alana kadar beklersen, sonra başka LLM'lerden geri bildirim istediğinde genellikle olumlu şeyler söylüyorlar
Buna karşılık gerçekten çok iyi yazılmış bir doküman gönderirsen, temelleri sağlam olsa bile genelde daha fazla kusur buluyorlar. Birinin bunu araştırması lazım
LLM'lerin büyük bir değeri olduğu açık ama bu olgu, etkileri nereye kadar uzandığı belli olmayan çok ilginç bir zayıflığı ortaya çıkarıyor
LLM'ler kendi yazdıkları koda karşı da ciddi bir önyargı taşıyor olabilir. Redis gibi yaygın biçimde iyi yazılmış kabul edilen bir kodu verip geri bildirim istersen, muhtemelen birçok kusur bulacaktır ve bunların önemli bir kısmı tamamen yanlış olabilir
Tersine, bariz şekilde berbat bir LLM üretimi depoyu aynı modele verirsen, tasarım dokümanındaki gibi mi tepki verir? Genel dili ve kodu farklı mı ele alır, yoksa aynı sorun burada da mı vardır? Bunu deneyen biri oldu mu merak ediyorum

Algoritmik işe alımda yapay zekanın öz-tercihi: ampirik kanıtlar ve çıkarımlar

Yapay zekanın öz-tercihinin işe alım değerlendirmesinde yarattığı yeni önyargı

Deney tasarımı ve ölçüm yöntemi

LLM-vs-Human öz-tercihi

LLM-vs-LLM öz-tercihi

Başlıca ampirik bulgular

İşe alım hattındaki etkiler

Azaltma stratejileri ve adillik çıkarımları

Sistem istemleri

Çoğunluk oylamalı ansambl

İlgili okumalar

1 yorum

Hacker News yorumları