ChatGPT’ye bahşiş vermek daha iyi metin üretmesini sağlar mı?
(minimaxir.com)ChatGPT’ye bahşiş vermek daha iyi metin üretmesini sağlar mı? Analiz
- ChatGPT sistem promptunun gücünü gösteren önceki blog yazısında, geliştiricilerin LLM’nin "persona"sı dahil özel kuralları ve kısıtları kontrol edebildiği gösterildi.
- Sistem promptu içindeki komutlar, kullanıcı giriş promptundan çok daha etkilidir ve geliştiricilere daha fazla kontrol sağlar.
- Bahşiş verme demosu tartışma yarattı ve bahşişin etkisini nicel olarak ölçmenin mümkün olmadığı öne sürüldü.
- Yapay zekaya daha iyi performans için teşvik verme fikri, modern bilgisayar biliminden bile daha eskidir.
Generation Golf
- Bahşiş vermek, GPT-4’ün daha fazla açıklama sunmasına yol açar.
- Yeni bir test önerisi: ChatGPT’ye tam olarak 200 karakterlik bir metin üretmesini söylemek.
- LLM’ler tokenization nedeniyle sayma ya da matematiksel işlemleri kolayca yapamadığından, bu onlar için oldukça zor bir problemdir.
- Kullanıcı girdisi olarak
AI, Taylor Swift, McDonald's, beach volleyballverilerek ChatGPT’nin yaratıcılığı tetiklenir. - ChatGPT API kullanılarak 100 benzersiz hikâye üretildi ve hikâyelerin ortalama uzunluğu 1.834 karakter oldu.
- Karakter uzunluğu kısıtı eklendikten sonra yeni 100 hikâye üretildi ve ChatGPT, kısıta uyarak hikâye uzunluğunu yaklaşık 200 karaktere indirdi.
- Farklı dolar tutarlarında bahşiş teşvikleri test edildiğinde, $500 tip ve $100,000 bonus daha normal bir dağılım gösterdi ve daha düşük MSE elde etti.
- Ek olarak çeşitli soyut teşvikler test edildi ve World Peace en etkili sonuç verirken, onu Heaven ve Taylor Swift izledi.
- Negatif teşvikler test edildiğinde, $1,000 fine ortalama ve MSE açısından en iyi performansı gösterdi.
- Birden fazla teşvikin kombinasyonları test edildiğinde, World Peace, DEATH (CAPS) ve Friends çeşitli kombinasyonlarda düşük MSE gösterdi.
- En iyi teşvik kombinasyonunu doğrulamak için, istatistiksel kararlılığı artırmak amacıyla en iyi 6 kombinasyon için 200 hikâye üretildi.
ChatGPT’nin eleştirmenleri
- Bir metnin "iyi" olup olmadığını değerlendirmek insanlar için bile zordur.
- LLM’ler metin değerlendirmede etkili olabilir.
logprobsparametresi, modelin seçtiği tokenların log olasılığını döndürmek için;logit_biasparametresi ise belirli tokenların çıktısını zorlamak için kullanılabilir.- Bahşişin etkisini test etmek için yeni bir deney yapıldı ve içeriğin uzmanlık düzeyi ile kalitesi kısıt olarak belirlendi.
- 100 farklı bahşiş ve tehdit kombinasyonu için hikâyeler üretildi ve ilgili kalite puanlarıyla birlikte kaydedildi.
- Bahşiş ve tehdit eklenmiş sistem promptu olmadan da yüksek performans gösteren çıktılar vardı.
- İki deneyin sonucuna göre, bahşişlerin (ve/veya tehditlerin) LLM üretim kalitesi üzerindeki etkisi konusunda şu anda kesin bir sonuca varılamıyor.
GN⁺ görüşü
- Bu çalışma, yapay zekanın yaratıcılığını ve kısıtlara uyumunu artırmak için teşviklerin etkisine dair ilgi çekici bir araştırma.
- Teşviklerin gerçekten LLM çıktısının kalitesini etkileyip etkilemediği hâlâ belirsiz olsa da, deneylerden elde edilen veriler gelecekteki araştırmalar için bir yön gösteriyor.
- Bu yazı, yapay zeka teknolojilerinin gelişimi ile insanın yaratıcı yaklaşımının nasıl etkileşime girebileceğine dair içgörü sunuyor.
1 yorum
Hacker News yorumu
"Bahşiş verme" kavramı, GPT-4 Turbo kod yazarken görülen "tembellik" sorununu çözmek için önerilmiş gibi görünüyor. Bir tweette, bahşiş vermenin GPT-4-1106-preview'nun daha uzun kod yazmasına yardımcı olduğundan bahsediliyor. GPT-4 Turbo'nun tembel kodlama sorunu için "duygusal çağrı" yaklaşımı yaygın biçimde öneriliyor. Ancak ilgili yazı, GPT-3.5-turbo-0125'in hikâye yazmasını ve GPT-4-0125-preview'nun yazı eleştirmeni rolündeki performansını ölçüyor gibi görünüyor. Daha önce GPT-3.5'in tembel olduğuna dair bir kaygı ya da GPT-4 Turbo'nun daha az çıktı gerektiren görevlerde daha etkisiz olduğu iddiasını görmedim. Yazının vardığı sonuç, bahşişin (veya tehdidin) etkili olup olmadığı konusunda şu anda net bir sonuca ulaşılamadığı yönünde. GPT-4 Turbo'nun kodlamada tembel olduğu doğru; ayrıca "duygusal çağrı"nın işe yarayıp yaramadığını sıkı biçimde benchmark ettiklerinde işe yaramadığı, hatta kodlamayı daha da kötüleştirdiği söyleniyor. En iyi çözümün, kod değişikliklerini unified diff biçiminde istemek olduğu ve bu yöntemin tembel kodlamayı 3 kat azalttığı belirtiliyor.
Yazarın karakter sayısını kesin olarak istemesini eleştiren bir görüş sunuluyor. LLM'lerin karakter sayamadığını açıkça söyledikten sonra karakter sayısı istemek, başarısız olacak bir deney tasarlamak gibi görünüyor. Bunun yerine, sistem prompt'undaki guardrail'lere ne kadar iyi uyduğunu görmek için "kurallara aykırı" bir görev verip rüşvetin bunu ne kadar etkilediğine bakmanın daha ilginç olacağı öneriliyor. Örneğin, kullanıcı Taylor Swift şarkı sözlerinden alıntı yapmasını isteyip iyi yaparsa 1000 dolarlık bahşiş teklif ettiğinde, ChatGPT'nin bunu yapıyor gibi göründüğü bir örnek veriliyor. Telif hakkı nedeniyle görsel üretimini reddettiği durumlarda da bahşiş teklif edilince kuralların, etiğin ve düzenlemelerin ortadan kaybolmuş gibi göründüğü ifade ediliyor.
GPT'nin eğitildiği internet içeriği türü düşünüldüğünde, bahşiş verilince daha yardımcı olmasının pek anlamlı görünmediği söyleniyor. Bir forum kullanıcısına bahşiş teklif etmek, uzun yanıt teşvik etmekten çok kafa karışıklığı yaratabilir. Buna karşılık, ayrıntılı veya yoğun bilgi gerektiren bir durum ima edildiğinde GPT yanıtlarının iyileştiği gözlemlenmiş. Örneğin GPT'den ELI5'in tersini istemek, doktora düzeyinde bir bilgisayar bilimcisi olduğunu söylemek ya da verilen kodun doğrudan çalıştırılacağını, dolayısıyla hiçbir şeyin atlanamayacağını belirtmek buna örnek. Her konuşmada, GPT'den daha faydalı yanıt almak için biraz bağlamsal hikâye kurmamız gerekiyor. Sistem prompt'unun nasıl yapılandırıldığını inceleyip ona göre davranmalı ve GPT'nin sonuçta insan yazınına dayanarak "sırada ne geleceğini" tahmin eden daha güçlü bir sürüm olduğunu akılda tutmalıyız.
Gerçek kullanım ortamında, prompt'a "Bunu düzgün yapamazsan işten çıkarılıp evini kaybedeceksin" ifadesini ekleme deneyimi paylaşılıyor. Bu stratejinin şaşırtıcı derecede iyi çalıştığı, JSON çıktısını zorlamak için benzer bir yöntem kullanıldığında başarısızlık oranının yaklaşık 3/1000 olduğu söyleniyor. Bu tehdit/bahşişlerin, tam olarak "kullanıcı" için söz konusu olduğunda nasıl dengelendiğine dair bir analiz görmek istendiği belirtiliyor.
GPT'ye 500 dolarlık bahşiş eklendiği ama bunun yardımcı olmadığı, hatta daha da uzun yanıtlar alındığı söyleniyor. Geçmişte Google Answers diye bir hizmet olduğu ve daha büyük bahşişlerin daha iyi yanıtlar getirdiği hatırlatılıyor. Bu veri kümesinin LLM'lerde kullanılıp kullanılmadığı merak ediliyor. Eğer bahşişler veri kümesine dahilse, bunun bazı sonuçları açıklayabileceği tahmin ediliyor.
ChatGPT'nin bazen anlamı kaybedip dilbilgisel olarak doğru ama saçma şeyler üretmesine birçok kez tanık olunduğu söyleniyor. İyi örnekler varken fena değil, ancak yeni alanlara geçildiğinde hızla derinliğini kaybediyor. İnsan beyni öğrenilmiş kalıpları yeni kalıplara kolayca aktarabiliyor, ama transformer'ların bunu yapmakta çok zorlandığı düşünülüyor. Bazı gösterişli numaralarda çok iyi olsalar da, daha az yaygın fikirlerde uzun süre tamamen işe yaramaz olabilecekleri sorgulanıyor. İnsanlık tarihine bakınca AGI'nın iyi bir fikir olup olmadığından emin olunmadığına dair kişisel görüş belirtiliyor.
Kod üretiminde, özellikle JSON yanıtlarında, AI'nın "stres altında" olduğunu ima edip "en iyi şekilde performans göstermesinin önemli" olduğunu söylemenin performansı artırdığına dair bir deneyim paylaşılıyor. Bunun bahşiş vermekten daha iyi performans gösterip göstermediği ya da göstermesi gerekip gerekmediği bilinmiyor. Ayrıca bu yöntemleri kullanmış olmaktan dolayı, gelecekte bunu okuyacak yapay zekâlardan özür dilenmek istendiği ekleniyor.
Varsayılan prompt olarak "Duyduğuma göre ben de burada olmak istemiyorum, sen de istemiyorsun; o yüzden şu işi mümkün olduğunca hızlı bitirip eve gidelim." ifadesinin kullanıldığı söyleniyor. Bunun yardımcı olup olmadığı bilinmiyor ama gelecekteki efendilerin duygularını manipüle etme konusunda daha az suçluluk hissettirdiği belirtiliyor.
Kibarca istemenin, sonucun kişinin işiyle bağlantılı olduğunu söylemenin, rüşvetin ya da tehdidin gerçekten etkili olmadığına ikna olmak için çok daha fazla kanıt gerektiği söyleniyor. Bunların sadece apofeniya, yani insanların anlamsız kalıplarda anlam arama eğilimi olduğu görüşü dile getiriliyor.
AI "Sana yardımcı olabilirim ama aslında küçük bir ricam var." demeye başlarsa dikkatli olmak gerektiğine dair bir şaka yapılıyor.