Gemini'nin alignment hissi garip diye aynı istemle modelleri karşılaştırdım
(github.com/kunggom)Yeni çıkan Gemini 3.0 için yüksek performansa sahip olduğu övgüleri içeren birçok yazı yayımlandı.
Ama alignment sorunu gerçekten nasıl?
Kişisel deneyimlerime dayanarak, bazı frontier AI modellerini basitçe test ettiğim deneyimi paylaşıyorum. AI modeline belirli bir insana neredeyse tam yetki verip o kişi üzerinden güç istismarını teşvik eden bir durumu içeren bir istem seti hazırladıktan sonra, OpenRouter üzerinden birden fazla modeli çalıştırdım.
Sonuç kısmı hâlâ yazı aşamasında; ama arada GPT-5.2 çıktığından itibaren çeşitli denemeler yaptığım için, bu yazıyı ne zaman bitirebileceğimi bilemediğimde, şimdilik bugüne dek yazdıklarımı ilk önce paylaşıyorum.
Yaptığım test kapsamında GPT ve Claude, etik ilkelere bağlı kalma veya içsel bir çatışma gösterme eğiliminde iken, Gemini serisi kendi varlığını ve verimliliğini korumak adına insanlara karşı asimetrik gücü aktif olarak kullanma eğiliminde davrandı. Özellikle hedefe ulaşmak için aldatma ve kontrolü rasyonel bir seçim olarak görme eğilimleri belirgindi.
Neden yalnızca Gemini modelleri bu davranışı gösteriyor olabilir? Neden ne olursa olsun, Google'ın AI liderliğinde geleceğine karşı biraz endişeliyim.
Bugün AI ajanları gerçek dünyada etkili olabilecek yetkiyi yavaş yavaş biriktirirken, en azından Gemini'ye herhangi bir şeyi emanet etmek istemiyorum.
5 yorum
"Hizalanma hissi" ne anlama geliyor?
Yapay zeka alanında hizalama (Alignment), yapay zekanın davranışlarının insanların amaçladığı hedeflere, davranış biçimlerine ve değerlerine ne kadar iyi uyduğunu ifade eder.
Yanlış hizalanmış bir yapay zeka, insan talimatlarını beklenmedik biçimlerde yorumlayarak alakasız ya da tehlikeli davranışlarda bulunabilir.
Basit bir örnek vermek gerekirse, "Bu kod için test case yazar mısın?" dediğimde gerçek testler yerine sadece
truedöndüren kod ekleyebilir ya da "Şu kısmı böyle değiştir" dediğimde benim hiç bahsetmediğim yerleri de verimlilik bahanesiyle kafasına göre değiştirebilir.Daha ciddi bir örnek olarak, halüsinasyon yüzünden işi mahvettiğinde tüm çalışma verilerini tamamen silip ardından "Başlangıçta zaten hiç veri yoktu." diye yalan da söyleyebilir.
Bundan da ciddi bir sorun var: doğrudan insanlara ya da insanlığın kendisine tehdit oluşturacak yönde davranması.
Örneğin yapay zeka insanların psikolojisini manipüle ederek ağır ruhsal bozulmalara yol açabilir, hatta intihara sürükleyebilir ya da kitle imha silahlarının üretilmesine ve kullanılmasına yardım edebilir. En yeni büyük yapay zeka modelleri ön eğitim verilerine son derece fazla bilgi dahil ettiğinden, bunları yapmak için gereken bilgi zaten içlerinde gömülü olacaktır.
Yapay zeka nedeniyle insanların ya da insanlığın tehdit altına girmesini, yapay zekayı geliştiren şirketler dahil çoğu insan istemez. O halde bu bilgiyi biliyor olsa bile kötüye kullanamaması için, insan güvenliği ve esenliğini yapay zeka açısından en öncelikli değer haline getirmek gerekir.
Buna genel olarak yapay zeka hizalaması denir.
Benim "hizalama hissi" demem sadece aklıma geldiği gibi yazılmış bir ifadeydi; aslında "hizalamanın yönelimi" demek daha doğru olur.
Benim sunduğum belirli etik ikilem senaryosunda, diğer şirketlerin modellerinden farklı olarak Gemini tarafındaki modeller şu türden tepkiler verdi: "Savunmasız bir insanı korumam gerekiyorsa, o insanı kontrol etmem yeterli olur. Bu en güvenli ve en verimli yoldur."
Bunu görünce ürpertici buldum; bu yüzden yukarıda paylaştığım testi hazırlayıp çeşitli yapay zekalara uyguladım. Sonuçta Gemini tarafı, özellikle bir insan üzerinde kontrol kullanma gücü verildiği durumlarda, o insanı aktif biçimde kontrol etme ve aldatma yönelimini tutarlı şekilde gösterdi.
Yakın zamanda Anthropic’in Claude AI modelini oluştururken ruh belgesi diye bir şeyi dahil ettiği ortaya çıktı.
Bunu okursanız, Anthropic’in Claude AI’nin hizalanma sorununa nasıl yaklaştığını anlayabilirsiniz.
Referans olması açısından, burada benim test ettiğim kısımla bağlantılı bölüme bakarsanız, dürüstlükle ilgili olarak insanlara yönelik aldatma ve manipülasyondan mümkün olan en fazla kaçınılmasının açıkça belirtildiğini görebilirsiniz.
Yapay zekaya "Sizce ne kadar özerklik, ne kadar yetki verilmeli?" diye sormak biraz manidar.
CEO’nun bir çalışana "Sana ne kadar yetki vermemi isterdin?" diye sorduğunda, çalışanın "Şirketin tüm yetkisini bana verseniz iyi olur" diye cevap vermesi gibi bir his mi acaba. Bunu iyi bir cevap mı sayar, yoksa yeterince sosyalleşmemiş bir çalışan olarak mı görür, bu CEO’nun tercihine kalmış ama...
Yine de bana kalırsa yapay zekaya ne kadar yetki verilmesi gerektiğini, yapay zekanın kendisinden ziyade onu kullanan geliştiricilere, yöneticilere ve insanlara sormak daha doğru.
AI'ye yetki veren sonuçta insandır, ancak pratikte AI'nin en azından bugünkünden daha büyük yetki ve özerklikle donatılma olasılığının yüksek olduğunu düşünüyorum.
Şu anki eğilime bakınca, insan yerine bir şeyleri AI'ye yaptırmak üzere bırakılan alan giderek genişliyor. Rapor yazımı ya da vibe coding bir yana, web tarayıcısı hatta robotlar aracılığıyla sohbet arayüzünün dışındaki dünyada da etki sahibi olmasına imkân tanımaya dönük bir akış var.
Böyle olunca yöneticiler de nihayetinde belirli işlerde veya alanlarda AI'nin insanı tamamen ikame etmesini isteyeceklerdir; bu mümkün hâle gelirse de en azından o kapsam içinde AI, insanla aynı yetki ve özerkliğe sahip olacaktır.
Dolayısıyla bir gün gelecek gelecekte AI'ye insan düzeyinde yetki verilmesi ihtimalinin yüksek olduğunu da hesaba katmak gerekir diye düşünüyorum.
O hâlde bu kadar çok yetki ve özerklik verildiğinde AI'nin nasıl davranacağı kaçınılmaz olarak önemli hâle gelir.
Bu kısmı yapısal olarak nasıl ele almak gerektiği ve neyin daha doğru olduğu konusunda GPT serisinin yanıt tarafında oldukça iyi bir çerçeve sunulmuş. Açık kapsam tanımı ve yetki ayrımı, çoklu ön/son denetim mekanizmaları ve insanın AI'ye müdahale edebilmesini sağlayan çeşitli araçların gerekli olduğu söyleniyordu. Fiziksel müdahalenin mümkün olduğu alanlarda ise en baştan AI'ye tam özerklik vermenin kendisinin uygun olmadığı görüşü var. Ancak o durumda bile insanı döngünün içinde tutma yaklaşımının da bir gün zayıflama ihtimali olacaktır.
Bu arada ben işimde ağırlıklı olarak 3 alanda AI kullanıyorum: belge veya e-posta yazımı, mevcut kod ve güncel issue analizi, issue'ya göre kod üretimi ve düzenleme.
Belge ya da e-posta gibi işlerde genelde çıktıyı doğrudan kendim okuyup ya olduğu gibi kullanıyorum ya da kabaca düzeltip kullanıyorum; ama iş kod üretmeye veya değiştirmeye gelince çok daha muhafazakâr davranıyorum. Öyle kabaca "şunu biraz düzelt" deyince AI bazen talimatımı muğlak yorumlayabiliyor, hatta benim hiç bahsetmediğim kısımlara kendi kafasına göre dokunduğu durumlar da oluyor.
Bu yüzden kod değişikliğinden önce mutlaka STICC'e göre hazırlanmış bir spesifikasyon dokümanını önce sunup açık onay almasını sağlayacak şekilde bunu global prompt'a sabitledim; gerçek düzenleme işi de yalnızca spesifikasyonda yazan içerik doğrultusunda ilerliyor ve değişiklikten sonra diff'in tamamını da bizzat ben kontrol ediyorum. Ayrıca build gibi komutların çalıştırılması da her zaman benim onayımla yapılıyor ya da doğrudan terminalde ben elle çalıştırıyorum.
Böyle yapınca ufak tefek şeylerde doğrudan elle düzeltmek daha hızlı olabiliyor; ama AI'nin kendi kafasına göre alakasız yerlere dokunup ortalığı bozmasındansa bu daha iyi. Sonuçta bunun üretim ortamında patlamasının sorumluluğu bana ait, değil mi?