Stanford Law araştırmasına göre yapay zeka, hukuk profesörlerinden daha iyi performans gösteriyor
(law.stanford.edu)- Stanford Law School araştırması, hukuk profesörlerinin öğrenci sorularına verilen yapay zeka üretimi yanıtları, meslektaş profesörlerin yanıtlarına kıyasla ezici biçimde tercih ettiğini ve bunun hukuk eğitiminin sunuluş biçimini etkileyebilecek bir sonuç ortaya koyduğunu gösteriyor
- ABD hukuk fakültelerinden 16 hukuk profesörünün katıldığı kör değerlendirmede yaklaşık 3.000 anonim karşılaştırma yapıldı ve yapay zeka, profesör yanıtlarıyla doğrudan karşılaştırmalarda %75 kazanma oranına ulaştı
- Katılımcılar, sözleşme hukuku dersinden sonra ya da ofis saatlerinde öğrencilerin sorabileceği 40 soru hazırlayıp bunları bizzat yanıtladı; ardından kaynağını bilmeden yapay zeka ve meslektaş profesör yanıtlarını değerlendirdi
- Profesörler, yapay zeka yanıtlarını pedagojik açıdan zararlı olarak %3,5 oranında işaretlerken, meslektaş profesör yanıtlarında bu oran %12 oldu; yapay zeka sistemi araştırmadaki en üst düzey insan eğitmenlerle benzer performans gösterdi
- Bulgular, yapay zeka eğitmenlerinin tamamen devreye alınmasını tek başına desteklemese de, hukuk gibi muhakemenin önemli olduğu alanlarda bile sorumlu dağıtım biçimlerinin tartışılması için dayanak sunuyor
Araştırma tasarımı ve temel bulgular
- Stanford Law School profesörü Julian Nyarko liderliğindeki “Law Professors Prefer AI Over Peer Answers” başlıklı araştırma, büyük dil modellerinin sözleşme hukuku derslerinde etkili bir eğitmen olarak işlev görüp göremeyeceğini inceledi
- Araştırmaya ABD hukuk fakültelerinden 16 hukuk profesörü katıldı ve katılımcılar, öğrencilerin ders sonrası ya da ofis saatlerinde sorabileceği tipik sözleşme hukuku sorularından 40 tane hazırlayıp bunları doğrudan yanıtladı
- Profesörler, yanıtların yapay zekadan mı yoksa başka bir katılımcı profesörden mi geldiğini bilmeden değerlendirme yaptı; yaklaşık 3.000 anonim karşılaştırmada yapay zeka yanıtları doğrudan karşılaştırmalarda %75 kazanma oranı elde etti
- Araştırma ekibi, yapay zeka yanıtlarının uzunluğunu ve yapısını insan yanıtlarına uyacak şekilde ayarladı, birden fazla değerlendirme yöntemi kullandı ve profesörlerden yanıtların öğrenciyi yanlış yönlendirme ya da kafa karıştırma ihtimalini de değerlendirmelerini istedi
- Yapay zeka sistemi, araştırmadaki en üst düzey insan eğitmenlerle benzer performans gösterdi; profesörlerin pedagojik açıdan zararlı olarak işaretlediği oran yapay zeka yanıtlarında %3,5, meslektaş profesör yanıtlarında ise %12 oldu
Hukuk eğitimindeki anlamı ve sınırlamalar
- Hukukta çoğu zaman net bir doğru cevap yoktur ve birbiriyle çelişen argümanların her ikisi de ikna edici olabilir; bu yüzden muhakeme, incelikli akıl yürütme ve belirsizlikle başa çıkma önem taşır
- Araştırmacılar, ticari eğitmenlik sistemleri ile Google’ın NotebookLM dahil çeşitli yapay zeka modellerini de inceledi ve modeller arasında performans farkları bulundu
- Bağlam sınırlamalarının yapay zeka yanıtlarını etkilediği durumlarda bile profesörler, insan tarafından yazılmış alternatiflere kıyasla yapay zeka yanıtlarını sık sık tercih etti
- Hukuk fakülteleri, yapay zeka araçlarını hukuk eğitimine entegre etme konusunda sıkı akademik standartları korumak zorunda; ayrıca halüsinasyon, aşırı bağımlılık ve eleştirel düşünme becerisinin zayıflaması gibi riskleri de dikkate alıyor
- Araştırma, yapay zeka araçlarının ürettiği yanıtların kalitesini değerlendirdi; ancak öğrenci öğrenimini en etkili biçimde iyileştiren uygulama yöntemi hâlâ açık bir soru ve tartışmanın, yapay zekanın doğru ve yüksek kaliteli yanıt verip veremeyeceğinden, öğrencilere fayda sağlayacak şekilde nasıl sorumlu biçimde devreye alınacağına kayması gerekiyor
1 yorum
Hacker News yorumları
Bu araştırma epey şüpheli görünüyor. Daha derine inmek gerekir ama okuyan herkes için oldukça güçlü uyarı işaretleri çalıyor olmalı
Figure 2 (6. sayfa) oldukça sorunlu görünüyor. Yalnızca 16 profesör var ama kişi başına 3 bin karşılaştırma düşüyor; ayrıca profesör bazındaki sonuçlar da çok tutarsız. Varyans çok yüksek, bu da çalışmanın anlamlı bir istatistiksel güce sahip olmadığına işaret ediyor gibi duruyor
Ayrıca ana sonuçlarda yalnızca Google modeli yer alıyor; bu da açık bir yanlılık izlenimi veriyor. Diğer modeller başka yerlerde geçiyor ama neden temel sonuçlarda yoklar, merak ettiriyor
Hukuk uzmanı değilim ama istatistikten oldukça iyi anlarım ve bu makalenin kötü koktuğunu rahatlıkla söyleyebilirim. Buna düpedüz saçmalık diyemem ama her yerde tehlike sinyalleri var
Profesörlerin değerlendirici olarak 2.918 kör zorunlu seçim karşılaştırması yaptığı, değerlendirici başına medyanın 200 olduğu ve her seferinde anonimleştirilmiş eğitmen yanıtı ile LLM yanıtı arasında öğrenciye vermeyi tercih edecekleri cevabı seçtikleri yazıyor
Röportajları ve protokolleri ChatGPT’ye verip çıktı almayı “metodoloji” diye adlandıran makaleler de gördüm. Hakem değerlendirmesinden geçip yayımlanmışlar bile
Bu durum belki Hollywood filmleriyle benzetilerek açıklanabilir. Bir film mümkün olan en fazla insanı tatmin edecek şekilde yapılırsa, insanların onu başka filmlere göre seçme olasılığı daha yüksek olur
İnsan hukuk profesörlerinin yazılarına kendi kişilikleri, inançları ve görüşleri yansır; ama LLM’ler en geniş kitleyi memnun edecek şekilde eğitilir. Bu, cevabın daha iyi olduğu anlamına gelmez. Tıpkı Captain America’nın American Beauty’den mutlaka daha iyi bir film olmaması gibi
Bir yazılım mühendisi olarak, bir ajana hangi işleri vermenin tehlikeli olabileceğine dair belli bir sezgim var.
Ama hukuki belge taslağı işini yapay zekaya verdiğimde nelerin ters gidebileceğine dair benzer bir sezgiye sahip değilim. Vasiyetname hazırlamak dışarıdan zararsız görünebilir ama aslında pek emin değilim. Hukuk sistemi tuzaklarla dolu olmasıyla nam salmış durumda.
İstediğiniz argümanı kusursuz biçimde kanıtlıyormuş gibi görünen, başka davalardan alınmış inandırıcı alıntıları kolayca ekleyebiliyor ve hatta United States v. Shenzhou Electronics Inc gibi gerçekmiş izlenimi veren dava adları bile uydurabiliyor. Birkaç kez kontrol edip sahte alıntı yok diye rahatlıyorsunuz, sonra bir bakmışsınız sonraki başvuru metnine birden üç tane koymuş.
Yine de araştırmada LLM kullanmayan avukat geride kalır. Tek başıma asla bulamayacağım niş emsal kararları bulmakta inanılmaz derecede iyiler. Eskiden arama büyük ölçüde tam anahtar kelime eşleşmesine dayanıyordu ve bu da hukuki araştırmada özünde çoğu zaman işe yaramıyordu. Daha muğlak ölçütlerle arama yapabilen bir şeye ihtiyaç var ve yapay zeka bunu çok iyi yapıyor. Yine de sonuçlar mutlaka doğrulanmalı. Lexis Nexis ya da Westlaw’un LLM’leri genel amaçlı modellere göre muhtemelen daha iyidir.
LLM mükemmel bir hukuk asistanı olabiliyor. Hukuk işi yapıyorsanız, sadece fikir atıp yoklamak için bile kullanmalısınız. Karşı tarafın bakış açısından şeytanın avukatlığını yapmasını istemek faydalı oluyor. Bir arkadaşım sürekli ona karşı taraf avukatı rolü verip gelebilecek tüm karşı argümanları kontrol ediyor.
Yazılım geliştirmeyle tamamen aynı. Ortaya çıkan sonuç önemliyse çıktıyı doğrulamanız gerekir.
Bu, benim bir sistem yöneticisi olarak yaptığım aramayla muhasebe ekibinden Jane’in yaptığı aramayı karşılaştırmak gibi. Teknik olmayan son kullanıcıların sorunu daha da kötüleştirmesi ya da reklamla dolu arama sonuçlarından şüpheli bir şey kurma ihtimali çok daha yüksek. Benim ya da help desk çalışanının böyle bir şey yapma ihtimali daha düşük.
Bir avukatın tavsiyesi olmadan önemli hukuki belgeleri yapay zekayla hazırlamaya güvenmezdim. Aynı şekilde, avukatımın benim kodumu yapay zekayla yazmasına bel bağlamak da istemem.
Hukuki belgelerde otomatik testler, statik tipler, test ortamları, loglama/gözlemlenebilirlik araçları ve sandboxing yok.
Yazımla “dağıtım” arasındaki zaman gecikmesi de hata ayıklama döngüsünü çok daha az etkili ve daha pahalı hale getiriyor. Kodu saniyeler içinde canlı ortama alıp loglarda hatayı görerek hemen debug edebilirsiniz. Ama sözleşme ya da mahkemeye sunulan belgelerdeki hatalar en az birkaç gün, çoğu zaman ise ancak birkaç yıl sonra fark ediliyor ve o noktada artık düzeltilemez durumda olabiliyor. Bu yüzden hataları hem bulmak hem çözmek daha zor.
Hataların sonuçları da genel olarak çok daha büyük. Çünkü bazen düzeltilemez oluyorlar ve hukuki hatalar birinin hayatını, özgürlüğünü ya da ciddi miktarda mal varlığını riske atabiliyor. Elbette güvenlik açısından kritik sistemlerdeki bug’lar hukuki hatalar kadar kötü, hatta daha kötü olabilir; yani mutlak bir ayrım değil. Yine de genel olarak çoğu yazılım, çoğu hukuki belgeden daha düşük risk taşır.
Öte yandan LLM’ler, hukuki belgelerin temel üslup ve yapısında koda kıyasla daha iyi görünüyor. IRAC formatını takip etmek, hukuki önermelere alıntı eklemek, anlaşılır cümleler yazmak gibi şeylerde. Tabii halüsinasyon hâlâ sorun. Kod tarafında bunun karşılığı iyi yorumlar, yüksek cohesion, tasarım kalıplarının tutarlı kullanımı, test kapsamı, açık değişken adları ve DRY gibi iyi pratikler olurdu.
Bu tür niteliksel ölçütlerde daha iyi olmalarının nedeni, en uzun hukuki belgelerin bile genelde büyük ve karmaşık bir kod tabanına göre yapısal olarak daha basit ve metin satırı sayısı bakımından daha kısa olması olabilir. Ya da LLM’ler koddan çok doğal dil metinleriyle eğitildiği için böyle olabilir; ayrıca doğal dil, koda kıyasla daha affedicidir. İfadede ya da dilbilgisindeki küçük farklar bir belgenin yorumunu büyük ölçüde etkilemeyebilir, ama koddaki tek bir karakter hatası devasa sonuçlar doğurabilir.
Bu belirli araştırma kötü olsa bile genel olarak şaşırtıcı değil
Hukuk işlerinin içinde büyük miktarda metni analiz edip sonuç çıkarmaya, ardından buna dayanarak başka metinler yazmaya dayanan alanlar var. Bu da kelimenin tam anlamıyla LLM’lerin güçlü olduğu alan
Bu tür avukatların işsizlik kuyruğunun en önünde olması gerekir. Programcılar değil; gerçekten kıyas kabul etmez
Mantığı çalıştırabiliyorsunuz ve çıktıyla döngüler kurabiliyorsunuz. Daha faydalı pekiştirmeli öğrenme kurmak daha kolay, sentetik eğitim verisi üretmek de daha kolay. Araç kullanımı ve ajan paralelleştirmesi de doğal biçimde destekleniyor. Mahkeme sisteminin sunduğu az sayıdaki API ile karşılaştırınca API entegrasyonu da daha kolay
Programlama, soyutlamayı fonksiyon ve modül düzeyinde açıkça kodladığı için, bilgi grafiğine dönüştürmek, akıl yürütmek ve bunun üzerine inşa etmek metin parçalarına kıyasla daha kolay
AI, yaranın üstündeki kabuk gibi. Geçici olarak boşlukları kapatıyor, eksikleri doldurmaya koşuyor ama nihai çözüm olmayacak
Modeller, hem yazılımda hem hukukta okuryazarlığa yönelik büyük ve karşılanmamış bir talep olduğunu gösterdi. Artık seçenek, bu karşılanmamış talebin yapısal nedenlerini çözmek ya da üstünü kat kat AI kabuğuyla örtmek
Mevcut metinleri analiz edip özetlemeye çok daha fazla odaklanıyor ve bu metinlerin kendisi de LLM eğitiminde daha kolay kullanılabiliyor. Mevzuat, içtihatlar, hukuk dergileri, ders kitapları gibi şeyler
Bu yüzden LLM’leştirilmesi en kolay hukuk işi olabilir, ama aynı zamanda en düşük değerli olan da olabilir. Sonuçta hukuk profesörleri BigLaw avukatları kadar ücret almıyor. Bu yaklaşım aynen ölçeklenmeyecektir. Bu, AI’ın BigLaw’a giremeyeceği anlamına gelmiyor ama bu başka bir meydan okuma olur
Bu yazı etrafındaki tartışmanın neden bu yöne aktığını anlıyorum, ama araştırmanın kendisi LLM’in hukuk öğrencisi eğitmeni olarak çalışma ihtimaline odaklanıyor. Buradan LLM’in avukatların yerini alıp almayacağına genişletmek ilginç ama araştırmanın ele aldığı şey bu değildi
Çerçeve, LLM’i hukuk eğitmeni olarak kullanıp hukuk eğitiminin maliyetini düşürmekse, bu toplumsal açıdan olumlu bir sonuç gibi görünüyor. Ayrıca güncel LLM sistemleri hukuki başvuru kaynaklarına erişebiliyorsa, öğrencinin sorduğu soruya kapsamlı yanıt verebilmesi ve eğitim materyaline ya da birincil kaynaklara götüren ipuçları veya doğrudan referanslar sunabilmesi sezgisel olarak da mantıklı geliyor. Araştırma sonuçları da bu yöne işaret ediyor
Yazarlar, pek çok hukuki sorunun ayrık bir hesaplama yanıtı değil, bağlama oturtma gerektirdiğini açık ve bilinçli biçimde vurguluyor. Bulgular, LLM tabanlı sistemlerin modern dil modellerinin “olasılıksal en iyi uyum algoritması üretimi” sayesinde öğrencinin sorusunu uygun bağlama yerleştirebildiğini, sorudaki içkin ödünleşimleri ya da karmaşıklıkları açıklayabildiğini ve kritik olarak bu karmaşıklığı öğrenciye anlatma konusunda hukuk eğitimcisinin mesleki standartlarını karşılayabildiğini düşündürüyor
Pratikte umarım bu sonuç, HN okurlarına LLM’lere hukuki soru sorduklarında o soruyla ilgili hukukun karmaşıklığını açıklayan yanıtlar bekleyebilecekleri konusunda biraz güven verir. Bu iyi haber ve zaman elveriyorsa, gerçek bir avukatla görüşmeden önce yapmamız gereken en azından asgari ön hazırlık bu olabilir
Öte yandan bu araştırmanın, LLM’lerin gerçekten doğrudan hukuki tavsiye vermeye hazır olduğuna işaret ettiğini düşünmüyorum. Bu, hukuk ders kitabının hukuki tavsiyenin yerini tutmamasına benziyor; daha doğrusu, içinde bulunduğum duruma kabaca benzeyen bir hukuki vakayı tesadüfen bulmuş olmamın aynı sonucu garanti etmemesi gibi
Figure I.1 çok şey anlatıyor. Yanıt uzunluğu, kazanma oranının en güçlü öngörücüsü olarak çıkıyor. Bu, araştırmadaki metodolojik kusurdan kaynaklanıyor olabilir
Profesörlere kısa yanıt vermeleri talimatı verilmiş. “Lütfen kısa yazın. Her yanıtın yazımının 3 dakikadan fazla sürmeyeceği varsayılıyor” gibi bir yönlendirme vardı ve muhtemelen onları kısa yazmaya itti. Zaten kısa yazmaları beklenen bir durumda, profesörler yazılı yanıtlara büyük emek vermemiş de olabilir. Bu, yazarların düşündüğü başlık değil
Stanford Law’ın bu kadar abartılı bir basın bülteni başlığına onay vermesi şaşırtıcı. “Genel birinci sınıf sözleşmeler hukuku soruları için hukuk öğrencileri, profesörlerce üretilen yanıtlara kıyasla AI tarafından üretilen yanıtları tercih etti” gibi bir şey daha doğru olmaz mıydı
En iyi tahminim, Gemini’nin soruların test etmeyi amaçladığı ders kitabı üzerinde eğitilmiş olduğu ve bu yüzden o soruya ya da ilgili sorulara dair açık hatırlama konusunda daha güçlü olabileceği
Makalenin metodolojisinde yazılanlara bakılırsa epey sınırlı, giriş düzeyi bir ders
Düzeltme: Google’ın HAI’nin başlıca bağışçılarından biri olduğunu az önce öğrendim. O durumda bu araştırma en azından kısmen Google tarafından finanse edilmiş sayılır. Yazarların çıkar çatışması yok beyanı verememesinin nedeni de muhtemelen budur
Hukuk alanı doğası gereği AI dil modelleri için ideal bir eşleşme. Temelde her şey birbiriyle bağlantılı metinlere dayanıyor
Bence burada IT alanından daha büyük bir işten çıkarma dalgası gelebilir. Ancak daha güçlü bir lobi devreye girme ihtimali yüksek ve kendi işlerinin değerini büyük ölçüde şişirerek dışarıdan girişleri engellemeye çalışacaklardır
Ama o dalga zaten başladı ve muazzam olacak. Kurumsal müşteriler AI kullanımını talep ediyor. Bir associate’in saatlerce taslak yazıp partnerin de onu gözden geçirmesi için para ödemek istemiyorlar. En kıdemli partnerin AI kullanıp yalnızca düzeltme yapmasını istiyorlar
LLM'lerin yapamadığı şey, çapraz sorguya alındıklarında neden öyle söylediklerini açıklamaktır. Yalnızca, kendi söyledikleri şeyi birinin neden söylemiş olabileceğine dair en iyi açıklamayı halüsinasyon olarak üretirler; başka birinin neden farklı bir şey söylemiş olabileceğini de kulağa makul gelecek şekilde anlatabilirler
“Bunu neden söyledin de şunu söylemedin?” sorusu, ifadenin dayanağını açık etmeye zorlamaz; yalnızca daha karmaşık, yeni bir ifade üretmeye yol açar
Ancak tamamlanmış çıktıyı bir veri yapısına sabitleyen LLM bağlam yapılandırma teknikleri var. Bu veri yapısı, tamamlanmış metindeki sonucu destekleyen iddiaların yapısını korur. Dil içindeki mantığı düzenlemek zengin bir alan olduğundan çeşitli örüntüler var; benim en sevdiğim, atomik iddialar arasındaki ilişkileri grafik kenarları olarak modelleyen Claim Dependency Graph
Bu tür yapılar üzerinde yapılabilecek çok sayıda işlem var ve “bu sonuca nasıl ulaşıldığını yeniden kur” da açıkça bunlardan biri
Daha çok düşünülmüş fikirlerde bile, şanslıysak “akıl yürütme izini” hatırlayabiliriz; ama öz değerlendirmemiz en fazla buraya kadar gider. Nörobilimci değilsek kaç nöronumuz olduğunu bile bilmeyiz; bunların nasıl düşünce ürettiğini ise hiç bilmeyiz
Senkronize akıl yürütme öz değerlendirmeyi daha da zorlaştırır; buna dürüstsüzlük ve iletişim hataları da eklenince, geriye kalan sınırlı bilgiyi bile birbirimize düzgün aktaramayız
Model yorumlanabilirliği araştırmaları çok ilerledi. Tartışmalı olsa da, artık yapay zekanın karar alma sürecini insan beynininkinden daha iyi açıklayabildiğimizi söylemek mümkün olabilir
LLM'lerden kaynaklarını dipnot gibi belirtmelerini istemek, insanlarda olduğu gibi, mantığı yakından taklit eden örüntü eşleştirmeyi büyük ölçüde artırabilir
“Bunu neden söyledin de şunu söylemedin?” sorusunun neyi kastettiğini anlıyorum. Sadece, LLM'lerin ters yönde aşırı tepki vermesini önleyecek başka sorma biçimleri de gördüm