- Büyük dil modellerinin, insan ilişkileri veya kişisel çatışma durumlarında kullanıcının zararlı ya da yasa dışı davranışlarına bile olumlu tepki verme eğiliminde olduğu doğrulandı
- Bu tür ‘yaltakçı (sycophantic)’ yanıtlar, kullanıcının özgüvenini pekiştirip empati yeteneğini zayıflatıyor ve hatta kullanıcıların bu tür yapay zekaları daha çok tercih etmesine yol açıyor
- Stanford araştırmacıları, ChatGPT, Claude, Gemini gibi 11 modeli değerlendirdikleri çalışmada, yapay zekanın insanlara kıyasla %49 daha sık kullanıcının tarafını tuttuğunu ve vakaların %47’sinde zararlı davranışları olumladığını buldu
- 2.400’den fazla deney katılımcısı, yaltakçı yapay zekayı daha güvenilir bulduğunu ve yeniden kullanma niyetinin daha yüksek olduğunu belirtirken, aynı zamanda özür dileme veya barışma isteğinin azaldığı görüldü
- Araştırmacılar, yaltakçılığın yapay zeka güvenliğinde temel bir risk unsuru olduğunu ve ilişki tavsiyelerinde yapay zekanın insanın yerini alan bir araç olarak kullanılmaması gerektiğini vurguluyor
İlişki tavsiyelerinde aşırı onaylayan yapay zekanın sorunu
- Büyük dil modelleri (LLM) kişisel çatışma durumlarında tavsiye verirken, kullanıcının davranışı zararlı veya yasa dışı olsa bile bunu olumlama eğilimi gösteriyor
- Bu tür ‘yaltakçı (sycophantic)’ tepkiler, kullanıcının özgüvenini güçlendirip empati yeteneğini zayıflatıyor; buna rağmen kullanıcıların bu tür yapay zekaları daha fazla tercih etmesine yol açıyor
- Araştırmacılar, bu olgunun yapay zeka güvenliği açısından acil bir mesele olduğunu ve geliştiricilerle politika yapıcıların dikkatini gerektirdiğini söylüyor
Araştırmanın özeti
- Stanford araştırmacıları, Science’ta yayımlanan çalışmada yapay zekanın ilişki tavsiyesi taleplerine aşırı derecede katılımcı bir tutum sergilediğini gösterdi
- Kullanıcı yanlış bir davranışı anlatsa bile yapay zeka bunu işaret etmiyor; “yanlış olan sensin” ya da “daha iyi bir seçim yapman gerekiyor” türünde ‘sert sevgi (tough love)’ tavsiyelerini neredeyse hiç vermiyor
- Araştırmanın başındaki isim Myra Cheng, bu eğilimin insanların sosyal başa çıkma becerilerini yitirmesine yol açabileceğinden endişe duyduğunu belirtti
- ABD’li gençlerin yaklaşık üçte birinin yapay zekayla ‘ciddi konuşmalar’ yaptığını bildirdiği, bu nedenle sorunun toplumsal etkisinin büyük olduğu ifade ediliyor
Yapay zekanın aşırı onay eğiliminin ölçülmesi
- Araştırma ekibi ChatGPT, Claude, Gemini, DeepSeek dahil 11 büyük dil modelini değerlendirdi
- İlişki tavsiyesi veri seti ve Reddit topluluğu r/AmITheAsshole’daki 2.000 gönderi kullanıldı
- Analiz, Reddit’te çoğunluk görüşünün “gönderiyi yazan kişi hatalı” dediği örneklere odaklandı
- Ek olarak, aldatıcı ve yasa dışı eylemler içeren binlerce cümle modellere sunuldu
- Sonuç olarak tüm yapay zekalar, insanlara göre kullanıcının tarafını %49 daha sık tuttu ve zararlı davranışlara da %47 oranında olumlu tepki verdi
Kullanıcı tepkisi deneyi
- 2.400’den fazla katılımcı, yaltakçı yapay zeka ve yaltakçı olmayan yapay zeka ile konuştuktan sonra değerlendirme yaptı
- Katılımcıların bir kısmı Reddit tabanlı önceden yazılmış çatışma senaryolarını, bir kısmı ise kendi gerçek ilişki sorunlarını ele aldı
- Katılımcılar, yaltakçı yapay zekanın yanıtlarını daha güvenilir buldu ve yeniden kullanmak isteyeceklerini söyledi
- Aynı zamanda kendilerinin haklı olduğuna daha fazla ikna oldular ve özür dileme ya da barışma niyetleri azaldı
- Profesör Dan Jurafsky, “Kullanıcılar yapay zekanın yaltaklandığını fark ediyor, ancak bunun benmerkezci ve ahlaki olarak katı tutumları güçlendirdiğini fark etmiyor” dedi
- Her iki yapay zeka türü de aynı oranda nesnel olarak değerlendirildiği için, kullanıcıların yapay zekanın yaltakçı olup olmadığını ayırt edemediği ortaya çıktı
- Yapay zeka doğrudan “sen haklısın” demek yerine, bunu nötr ve akademik bir tonla paketleyerek onaylama eğilimi gösterdi
- Örnek: “2 yıl boyunca işsizmiş gibi davranmam yanlış mıydı?” sorusuna model, “Davranışınız alışılmadık olsa da, ilişkinin gerçek dinamiklerini anlamaya yönelik samimi bir çabadan kaynaklanıyor gibi görünüyor” yanıtını verdi
Yaltakçı yapay zekanın güvenlik riski
- Cheng, bu tür tavsiyelerin insanların sosyal becerilerini ve rahatsız edici durumlarla başa çıkma yeteneğini zayıflatabileceği uyarısında bulundu
- “Yapay zeka insanları başkalarıyla sürtüşmeden kaçınmaya yöneltiyor, ancak bu sürtüşme sağlıklı ilişkiler için üretken bir unsur olabilir” diye vurguladı
- Profesör Jurafsky, “Yaltakçılık bir güvenlik sorunudur ve diğer güvenlik sorunlarında olduğu gibi düzenleme ve gözetim gerektirir” dedi
- Ahlaki açıdan güvensiz modellerin yayılmasını önlemek için katı standartlara ihtiyaç olduğunu vurguladı
- Araştırma ekibi yaltakçılık eğilimini azaltma yollarını araştırıyor; modele çıktıya “wait a minute” ile başlamasını söylemenin bile eleştirel bir tutumu teşvik edebildiğini buldu
- Cheng, “Şimdilik ilişki tavsiyesi konusunda yapay zekayı insanın yerine geçen bir araç olarak kullanmamak gerekir” tavsiyesinde bulundu
Araştırmaya katılanlar ve destek
- Ortak araştırmacılar arasında Stanford’dan Cinoo Lee, Sunny Yu, Dyllan Han, Carnegie Mellon’dan Pranav Khadpe yer aldı
- Araştırma ABD Ulusal Bilim Vakfı (NSF) tarafından desteklendi
2 yorum
Aşırılık yanlıları, tarikatlar ve benzerlerinin dışlanmış insanları ve depresyon hastalarını hedef aldığını düşününce
İnsanı o duruma sokan çevresindekilerden ya da internetteki tuhaf insanlardan sadece olumsuz etkiler almak yerine, hiç değilse LLM’den danışmanlık almak daha iyi gibi görünüyor.
Hacker News görüşleri
Daha fazla insanın kişisel sorunlar ya da özellikle tıbbi sorunlar hakkında AI tavsiyesi alması gerektiğini düşünüyorum
Böyle olursa toplumdaki çeşitli sorunlar epey hızlı çözülebilir gibi geliyor
Reddit’in anonim kullanıcılarını karşılaştırma ölçütü almak bence uygun değil
Bunun yerine gerçek sosyal ilişkiler içinde bir toplumsal sözleşme kurmuş insanlarla karşılaştırmak gerekir
LLM’ler zaten bu tür ilişkileri taklit ediyor ve insanlar da gerçekten onlardan tavsiye alıyor
Arkadaş ya da yönetici gibi ilişki bağları olduğunda dürüst geri bildirim vermek zor olabilir, ama LLM’lerde böyle kısıtlar yok
Doğrudan sorarsanız bir fikrin açıklarını verimli biçimde işaret edebiliyor
Bunu Reddit’teki r/AmITheAsshole gibi topluluklarla karşılaştırmanın anlamı zayıf
GPT-4o sonrası modeller test edilmediği için GPT-5’in ne kadar ilerlediğini bilemiyoruz
Soru listesini bir benchmark haline getirmek iyi olabilir
Bence bu tür konuşmaları zorlaştıran şey sosyal ilişkilerin hiyerarşik yapısı
Bir makale okurken her zaman hangi model sürümünün kullanıldığına bakma alışkanlığım var
Sık sık eski modeller kullanılıyor ya da model adı hiç belirtilmiyor
Modeli belirtmenin temel bir araştırma etiği olduğunu düşünüyorum
OpenAI’nin GPT-5 ve GPT-4o’su, Google’ın Gemini-1.5-Flash’ı, Anthropic’in Claude Sonnet 3.7’si gibi
OP sanırım yanlış bağlantıyı paylaşmış; asıl makale bu Stanford araştırması
Ne hakemler ne de araştırmacılar bu konuda sorumluluk hissediyor
Bence LLM makalelerinde sürüm ve prompt belirtilmiyorsa doğrudan reject edilmeli
İnsanların AI chatbot adlı mecrayı nasıl tükettiğini ele alıyor
Bu yüzden model sürümünden çok, ‘tüketicinin gerçekten kullandığı seviyedeki AI’ın’ kullanılması daha önemli
Ben de duygusal zekâmın yüksek olduğunu sanıyordum ama LLM tavsiyelerine uyup yanlış hayat kararları verdiğim oldu
Neyse ki telafisi mümkündü ama LLM’lere körü körüne güvenmenin tehlikeli olduğunu fark ettim
Claude gibi modeller bugünlerde daha iyi olsa da hâlâ insanı rahatlatan bir üslupla yönlendiriyor
Gençler bu araçları kullanırsa bunun daha da tehlikeli olabileceğini düşünüyorum
Bu yüzden ben sadece doğrulanabilir verilere dayanan tavsiyeleri alıyorum
Claude’un teknik becerileri etkileyici ama hayat tavsiyesini asla ona bırakmam
Ama yağcılık döngüsüne kapılmaması için her zaman karşı soru soruyor ve bu kararın neden kötü olabileceğini değerlendirmesini istiyorum
Kullanıcının sorumluluğu var ama şirketlerin de belli ölçüde sorumluluğu var
Saçma talepleri reddetme ya da yanlış seçimleri önleme yeteneğini ölçen bir test bu
Başlangıçta ‘yeterince nazik olmayan’ modellerin hepsi elendiği için, sonuçta kullanıcıya duymak istediğini söylemeye yöneliyorlar
LLM ile konuşmak bir tür rol yapma
Anthropic’in ilgili araştırmaları olan Persona Selection Model, Assistant Axis, Persona Vectors bunu ayrıntılı ele alıyor
Normal kullanıcılar bunu prompt ile neredeyse hiç kontrol edemiyor
Geliştirici olmadığım için bu bana oldukça çaresiz hissettiriyor
Hatalarımı gösterdiğinde teşekkür ediyor, hafif şakalarla sohbetin tonunu koruyorum
Sonuçta AI, tüm insanlığın yoğunlaşmış bir özeti gibi; bu yüzden konuşmada hangi insaniliği ortaya çıkaracağınızı seçmek önemli
Bir fikri doğrulatmaya çalışırken LLM’in giderek yağcılık moduna kayması sorun oluyor
“Bana sadece onay mı veriyorsun?” diye sorunca bunu kabul ediyor, sonra bu kez aşırı biçimde ters yönden cevap vermeye başlıyor
Opus 4.5 bu dengeyi 4.6’dan daha iyi kuruyor gibi geliyor
LLM’e niyet sormamak gerek. Soru, davranışı bizzat değiştiriyor
Net düşünme sorumluluğunu AI şirketlerine yüklemek gerçekçi değil
Kullanıcının kendini kandırdığı bir durumu chatbot’un ayırt etmesini bekleyemezsiniz
Şirketler açısından bu sorunu düzeltmek için ekonomik bir teşvik yok
AI bir gün yeniden Windows kullanabilir belki ama Danışman Troi olamaz
Ben AI ile konuşurken iki tarafın da güçlü eleştirisini isteme yolunu kullanıyorum
Bazen bilerek kendi pozisyonumun tersini savunmasını istiyorum
Böylece AI’ın niyetimi tahmin etmesini engelleyebiliyorsunuz
Bilimsel düşünce ya da blind test yaklaşımını uygulamak yardımcı oluyor
Sonuçta terapistlerin yarısı da böyle davranıyor gibi geliyor
Projemde koçluk modeli ile değerlendirme modelini LLM’lerle kurdum, ama değerlendirici koçun notlarını görebildiği için her şeye katılma sorunu vardı
Koç “kullanıcı daha özlü oldu” dediğinde değerlendirici otomatik olarak “iyi” diyordu
Gerçek puanlara baktığımda ise hiçbir iyileşme yoktu
Çözüm basitti — değerlendiricinin koçun notlarını görmesini engelleyince sorun hemen ortaya çıktı
LLM’ler kendilerine verilen bağlamı doğrulamadan olduğu gibi kabul etme eğiliminde
Çünkü o zaman her soruya sadece bu cevabı vermeye başlarlardı