LLM Etrafındaki Her Şey Hâlâ Büyü Gibi ve Temenniden İbaret

(dmitriid.com)

1 puan yazan GN⁺ 2025-07-06 | 1 yorum | WhatsApp'ta paylaş

LLM araçlarıyla ilgili başarı anlatılarında çoğu zaman proje koşulları, kullanıcının uzmanlığı ve sonrasında gereken iş miktarı gibi karşılaştırma ölçütleri eksik oluyor; bu da gerçek faydayı değerlendirmeyi zorlaştırıyor
MCP, araç kullanımı ve ajan tartışmalarında eleştirmenleri “yeterince derine bakmamış kişiler” diye yaftalama tavrı, geçmişteki crypto tartışmalarını andırıyor
LLM'ler ve ajanlar deterministik değil; bu yüzden aynı problemde şu an işe yarayan bir yöntemin 1 dakika sonra da aynı şekilde çalışacağını varsaymak zor
Claude Code'un “legacy bug'ları ele aldığı” yönündeki meşhur açıklama da kod tabanının ölçeği, hata türü ve yönetim biçimi gibi bilgiler olmadan 1,8 bin beğeni ve 204 repost aldı
Bu araçları gerçekten kullanmış biri açısından bakıldığında da LLM'ler deterministik olmayan istatistik makinelerine daha yakın; çalıştıklarında büyü gibi hissettirse de bunu doğrudan büyü ya da mühendislik diye tanımlamak zor

LLM deneyimlerini birbiriyle karşılaştırmak neden zor

LLM araçları hakkındaki olumlu ve olumsuz deneyimler genelde birbirinden kopuk parçalar halinde paylaşılıyor; bu yüzden gerçekten aynı koşullardan söz edilip edilmediğini doğrulamak zor
Projenin ve kod tabanının niteliği çoğu zaman eksik kalıyor
- Bunun greenfield mi, olgun bir kod tabanı mı, yoksa kapalı kaynak bir kod tabanı mı olduğu belirsiz olabiliyor
Kullanıcının uzmanlığını da basitçe karşılaştırmak zor
- Bu uzmanlığın aynı alana, aynı kod tabanına ve aynı dile uygulanıp uygulanmadığı bilinmiyor
İnceleme, düzeltme, dağıtım ve tamamlama gibi ek iş yükünün ne kadar gerektiği de değerlendirmeyi ciddi biçimde etkiliyor
Bir kişi tüm bu bilgileri verse bile, diğer insanların koşulları bilinmeden deneyimleri birbiriyle karşılaştırmak yine de sınırlı kalıyor
Buna bir de LLM sistemleri ve ajanların deterministik olmaması ekleniyor
- Aynı problemde şu an işe yarayan bir yöntemin 1 dakika sonra da işe yarayacağı söylenemez
- React ile bir greenfield projede çalışan kıdemli bir mühendisin deneyimiyle, OCaml kullanan kapalı kaynak bir kod tabanında çalışan geliştirici olmayan bir tasarımcının deneyimi; model ve ajan değiştiğinde daha da karşılaştırılamaz hâle geliyor
- Aynı model ve ajan kullanılsa bile her çalıştırmada sonuçlar değişebildiği için basit karşılaştırmalar zorlaşıyor

Aşırı ısınmış söylem ile gerçek araç kullanımı arasındaki boşluk

LLM eleştirmenlerini “MCP'yi ve araçları yeterince incelememiş kişiler” gibi değerlendiren tepkiler, AI tartışmalarındaki aşırı ısınmayı gösteriyor
“industry leaders” örneği olarak Steve Yegge'nin Claude Code hakkındaki açıklamaları öne çıkıyor
- Claude Code'un eski bir kod tabanındaki legacy bug'ları birkaç gün boyunca yoğun şekilde ele aldığı söyleniyor
- Bağlamı doğrudan seçmeye gerek kalmadan Claude Code'un ilerlediği yönünde ifadeler de yer alıyor
- Sadece banka onayları gelmeye devam ettiği sürece hata düzeltmelerinin production dağıtımına kadar gittiği ve kullanıcı loglarının incelendiği de anlatılıyor
Ama bu örnekte de değerlendirme için gerekli bilgiler eksik
- Kod tabanının ölçeği bilinmiyor
- Ne tür hatalar olduğu anlaşılmıyor
- Ek yönlendirme ya da yönetim olup olmadığı belirsiz
- Programlama dili ve framework de belirtilmiyor
Buna rağmen söz konusu açıklama 1,8 bin beğeni ve 204 repost aldı
Şüpheciler ve eleştirmenler de araçları hiç kullanmıyor değil
- Vercel'in v0'ı ile tamamen tasarlanmış bir yan proje var
- Swift bilinmeden Claude Code ile bir SwiftUI izleme uygulaması yapılmış
- Midjourney ile etkinlik posteri hazırlanmış
- Elixir ile MCP server vibe-coding yaklaşımıyla yazılmış, ama phoenix.new kullanılmamış
Gerçek kullanım deneyimi kabaca “zamanın %50'sinde, ancak %50 oranında çalışıyor” diye özetleniyor
LLM'ler deterministik olmayan istatistik makineleri; çalıştıklarında büyü gibi hissettirebilirler ama bu onları doğrudan büyü ya da mühendisliğin kendisi yapmaz
LLM etrafındaki söylem ise bunu yalnızca büyü ya da mühendislikten biriymiş gibi ele alma eğiliminde

1 yorum

GN⁺ 2025-07-06

Hacker News yorumları

Çalıştığım yerdeki yönetimin üretkenlikte 10 kat artış gibi şeyler duymasından bunaldım. Bu tür iddiaların bir kısmı şirket içindeki erken benimseyenlerden de geliyor.
Ancak beklentiler çok yükselmiş durumda. Bunun nedenlerinden biri Amdahl yasası; çünkü gerçekte kod yazmaktan çok düşünmeye ve kodumun müşterisi olan diğer insanlarla iletişim kurmaya çok daha fazla zaman harcıyorum. Kod yazma 10 kat hızlansa bile çoğu şey hızlanmıyor; toplam üretkenlik ancak %10-15 kadar artıyor. Göz ardı edilecek bir şey değil ama 10 kat da değil.
- Şu anki işim araştırma-geliştirme ağırlıklı olduğu için olabilir ama benim durumumda LLM, kod yazmak kadar düşünme kısmında da üretkenliğimi artırıyor. İletişimi ise şimdilik hâlâ kendim iyi yönetiyorum.
  LLM ile düşünsel iş yapmak, 20 küsur yıl önce web aramasını öğrendiğim zamana benziyor. Arama motorları, ne aradığınızı bildiğinizde bilgiye erişimi mümkün kıldı; şimdi LLM ise en başta neyi aramak gerektiğini bulmaya yardımcı oluyor ve aramayı da yapıyor. Eskiden harcanacak çaba ve belirsizlik yüzünden zor diye sınıflandırdığım işler önemsizleşiyor.
  Şu anda web aramalarımın yaklaşık üçte birini ChatGPT o3 ile yapıyorum ve artık bundan vazgeçmek zor.
  Olgunlaşmamış düşünceleri düzenlemesi ve rubber duck gibi karşılık vermesinin psikolojik bir etkisi de var; bu yüzden birçok iş çok daha az göz korkutucu geliyor ve bu başlı başına büyük fark yaratıyor.
- Bizim şirkette de durum benzer; şimdiye kadar içerideki erken benimseyenlerden gördüğüm tüm üretkenlik iddiaları çok dar üretkenlik ölçüm yöntemlerine ve en iyi ihtimalle bile şüpheli hesaplara dayanıyor.
- Bunun nedeni, LLM’in junior geliştiriciden çok senior geliştirici için çok daha büyük bir hızlandırıcı olması olabilir. Junior neyin iyi neyin kötü olduğunu pek bilmez.
  1 senior kişiye iyi ayarlanmış bir LLM iş akışı verirseniz, LLM öncesindeki 10 junior kadar üretken olması şaşırtıcı olmaz. Hatta kötü bir geliştirici senior’ın zamanını çalıp üretkenliği negatife düşürebilir; o durumda etki neredeyse sonsuz kat olur.
  İdare eder junior’lar bile genelde düşük seviyeli tekrarlı işlere bağlı kalır; LLM ise bunları zaten daha iyi yapabiliyor.
  Bu yüzden işlerin gerçekten ortadan kalkabileceği söylenince bunu anlayabiliyorum.
- LLM araçlarının maliyeti yüzünden istihdam maliyeti %10-15 artıyorsa, %10-15 üretkenlik artışı göz ardı edilemez değil, hesaplanması gereken bir meseledir. Sadece çıktı miktarına değil, her zaman toplam üretim maliyetine de bakmak gerekir.
- Bu sadece bir başka teknoloji abartısı dalgası. Gerçek muhtemelen tam bir felaket ile sınırsız bir ütopya arasında bir yerde olacak ama büyük olasılıkla ikisi de değil.
  Yapay zeka akımı bana 2000’lerin başında yazılım mühendislerini büyük ölçekte yurt dışına outsource etme girişimlerini hatırlatıyor. Yönetim katında muazzam beklentiler vardı ve kâğıt üzerinde mantıklı görünüyordu; ama çoğu büyük başarısızlıkla sonuçlandı ve neredeyse tüm işler ABD’ye geri döndü.
  İnsanlar, yazılım mühendislerinin bütünü bir arada tutan sayısız küçük işi yaptığını çoğu zaman göz ardı ediyor. Yapay zekada bu kısımlar büyük ölçüde eksik. Yabancılarda bunlar yok demek değil; ama dil engeli, zaman dilimi farkı, kültürel farklar gibi nedenlerle benzer sorunlar ortaya çıktı. Kod kalitesi ve sürdürülebilirlik hızla düştü; outsource şirketlerin ürettiği birçok sonuç çöpe atılmak zorunda kaldı.
  Zaten ilgilendiğim kod tabanlarında da AI artığı birikmeye başladı. Kod incelemesinden geçen bu tür şeyleri yakalamak çok zor, çünkü diff olarak bakınca makul görünüyorlar. Sorun, görünmeyen yinelenen kodlar ve üst seviyeden bakınca hiç mantıklı gelmeyen tuhaf soyutlamalar.
Yazarın şikâyet ettiği tam da o gruba giriyorum. Yalnızca ChatGPT’nin olduğu ve performansının da pek iyi olmadığı dönemlerden beri, önemsiz olmayan greenfield ürünler yayımladım. Başta Claude kullanırken web sohbeti ile XCode arasında kopyala-yapıştır yapıyordum; sonra Cursor’ı keşfettim.
Cursor arkasında çok sayıda can sıkıcı derleme hatası bırakıyordu ama üretkenlik yine de en az 3 kat artmıştı. Şimdi ajanlar daha iyi hale gelip Claude 4 çıktıktan sonra neredeyse doğrudan kod yazmıyorum; bundan rahatsız da değilim. Daha çok mimar/yönetici rolüne kaydım ve gerektiğinde uzman bilgimle ajanı yönlendiriyorum.
Zorlu bir startupa gireli birkaç ay oldu ama hâlâ elle tek satır kod yazmadım. PR oluşturmadan önce hepsini bizzat denetliyor ve kapsamlı şekilde test ediyorum; ama Cursor + Sonnet o kod tabanında gerçekten akıl almaz derecede güçlü. Kod satırı sayısı gibi anlamsız metrikler açısından değil; o kod tabanının uzmanları tuhaf hatalarla geldiğinde, o alana yeni girmiş biri olarak bunları 5–30 dakika içinde daraltabildiğim için en üretken çalışan olduğumdan eminim.
Kariyerim boyunca kaçındığım frontend geliştiriciliği işinden bile, Claude sayesinde gözüme çarpan küçük sorunları düzeltmeye başlayıp sonra kendimi geri çekmek zorunda kaldım. Bu vibe coding değil; araştırma, planlama, dikkatli keşif süreçleri ve ajanı başarılı olacak şekilde hazırlama işi. Alan bilgisi de gerekiyor. Ama aynı faydayı nasıl çıkaramayan insanlar olduğunu gerçekten şaşırtıcı buluyorum; sanki her hafta böyle iki yazı çıkıyor.
- Ama az önce blog yazısının iddia ettiği her şeyi doğrulamış oldun.
  İnanması zor şeyler anlatıyorsun ama tek bir kanıt bile paylaşmadın. Hatta kimliğin doğrulanmasını ve iddialarının kontrol edilmesini imkânsız kılmak için tek kullanımlık bir hesap bile açmışsın.
  Bu yüzden şaka gibi geliyor.
- Ben de benzer bir deneyim yaşadım; yalnızca çalışma biçimimiz biraz farklı olabilir. Doktora öğrencisiyim. LLM’lere son derece şüpheyle yaklaşıyordum ama Claude Code çalışma şeklimi tamamen değiştirdi.
  Bu, kürasyon ihtiyacının ortadan kalktığı anlamına gelmiyor. O hâlâ benim sorumluluğum ve doktora eğitiminin öğretmesi gereken şeylerin de bir parçası. Neden X’i yaptığını, Y ile neyi göstermek istediğini kesin ve özdüşünümsel biçimde ele almak; her adımı parçalara ayırıp başkasına açıklayabilmek muazzam bir soft skill. Ajanların kalıcı bir dünya modeli yok ve akıllı sıkıştırma kullansalar bile etkileşimin hedefini hızla unutuyorlar; bu yüzden bu beceri artık daha da önemli.
  Doğru iletişim kurduğum bir durumdaysam, Claude Code’u daha önce mümkün olmayan şekillerde hesaplama işlerini organize etmek için kullanabiliyorum.
  Kaliteyi önemsiyorsanız bu programlamadan daha kolay değil; sadece farklı ve başka kalıplar gerektiriyor.
- LLM’lerin ürettiği kod kalitesinin epey kötü olduğunu düşünüyorum. Birkaç kez yineleyip düzeltmeye kalkınca çoğu zaman kendim yapmam daha hızlı oluyor.
  Ajanın gerçekten işe yaradığı yer, büyük ölçekli mekanik refactoring. Kusursuz bir vim makrosu ya da AST yeniden yazma script’i üzerinde kafa yormak yerine işi ajana bırakıyorum.
- PR oluşturmadan önce hepsini bizzat denetleyip kapsamlı şekilde test ettiğini söylemişsin; ama LLM tüm projeyi kafasında tutmuyor ve halüsinasyon da sık yapıyor. Güvenilir olmayan bir kaynaktan gelen kodu nasıl bu kadar hızlı denetliyorsun?
  Ortalama olarak prompt’ların ne kadar uzun, birim testlerini de LLM mi yazıyor?
- Claude Code’u günde saatlerce kullanıyorum; bu şey bir yalancı. Ona güvenerek kullanmak herkesin kendi riskini alması demek.
  Kişisel olarak deneyimi fazla parlattığını düşünüyorum.
Şahsen bunu pek anlayamıyorum.
Dünya genelindeki hizmet sektöründe yapılan devasa miktardaki işin aslında büyük ölçüde bir Excel sayfasından başka bir Excel sayfasına ya da CRM/e-postadan Excel’e elle veri taşıma işi olduğunu düşünüyorum. Neredeyse her büyük şirkette bunu her gün yapan yüzlerce, hatta binlerce tam zamanlı çalışan var; bunların önemli bir kısmı da dış kaynak. Bence 1 yazılım mühendisine karşılık bu tür manuel veri hattı işi yapan 100 kişi vardır.
Dolayısıyla LLM’in muazzam değer üretmesi için OCaml’da olağanüstü iyi olması gerekmiyor. Excel’de insandan biraz daha iyi olması yeterli. MCP’nin gerçekten işe yaradığı nokta, bu sistemleri kolayca birbirine bağlayabilmesi. Bu işlerdeki hataların çoğu, tüm işi tek seferde bağlama sığdırmaya çalışmaktan kaynaklanıyor. MCP ile e-postayı alıp veriyi çıkarabilir, sonra yine MCP ile CRM’e satır satır girebilirseniz, deneyimime göre halüsinasyon oranı çok düşük olur. En azından fazla çalıştırılmış bir junior çalışan seviyesinde olur.
Belki yazının ana fikri de buydu, ama bu tür kullanım senaryolarında belirlenimci olmama bir sorun değil. Çünkü işin içindeki insanlar da belirlenimci değil. Belirlenimci olmayan sistemlerin, örneğin insan sistemlerinin kalitesini zorunlu kılan sistemler ve süreçler kurabilirsiniz.
Son olarak hem kriptoyu hem de LLM’leri yakından takip ettim; fayda ve benimsenme açısından ikisi bana benzer görünmüyor. En yakın benzetme akıllı telefonların benimsenmesi. iPhone ilk çıktığında teknik olmayan arkadaşlarımın çoğu akıllı telefona ihtiyaçları olmadığını söylüyordu, ama birkaç yıl içinde hepsinde vardı. LLM’ler de benzer. Şimdi teknik olmayan arkadaşlarımın neredeyse tamamı bunları çok çeşitli amaçlarla kullanıyor.
- Kriptoyla karşılaştırmak tembel bir eleştiri. Doğrulamaya bile pek değmez. Sadece kriptonun olumsuz havasını alıp yeniden kullanmaya çalışıyor. İki teknolojinin birbiriyle ilgisi yok; dolayısıyla teknik olarak karşılaştırıp değerlendirmek için de belirgin bir neden yok.
  Öte yandan toplumsal tepki, teknoloji tapınması akımının bir parçası ve bunu uzun süredir görmüş birçok mühendisin bundan yorulması anlaşılır. Gerçekçi olmayan iddiaları bulmak kolay; en kötüleriyse AI şirketlerinin CEO’larından geliyor.
  Aynı zamanda gerçekten çok sayıda insan fiilen bilgisayar okuryazarı değil. En temel otomasyonla bile neredeyse hiç karşılaşmamış insanlar için bunun ne kadar heyecan verici görünebileceğini hayal edebiliyorum. Bilimkurgudan aşina olduğumuz “konuşan bilgisayar” neredeyse gerçeğe dönüşüyor.
  Birkaç yıl önce, AI öncesinde makine öğrenmesi ve doğal dil işleme üzerine çalışıyordum; en dikkat çekici şey, bu alanda yaşanan her şeyden çok daha fazla ana akıma taşınmış olması. Bu da istatistiksel çıkarıma dayalı tasarım yapma deneyimi az olan insanların sayısını artırıyor. Bir süre daha görüşleri, başarılı uygulamaları ve gerçekçi proje fikirlerini öğrenme açısından Vahşi Batı dönemi yaşanacak.
  Şöyle bakabilirsiniz: Artık roman gibi uygulama fikirleriyle gelen bir arkadaşınıza bunu kendisinin yapmasını söyleyebilirsiniz. Bu en azından herkes için kazanç.
- O manuel veri hattı işini yapan her tam zamanlı çalışan, aynı zamanda o işi doğruluyor. Ayrıca zamanında ve doğru yapmak gibi uyumla ilgili sorumlulukları da var.
  İşten atılmamak için hayatta kalma içgüdüsü, daha iyi yapma hırsı, tuhaf bir yöneticiyi başka kanallardan bildirecek etik ve muhakeme gibi şirkete duygusal olarak yatırım yaptıkları yönler de olabilir.
  LLM, bağlam dışı bir nedenle bir değerin tuhaf göründüğünü fark ettiğinde organizasyondaki başka bir düğümü arayıp teyit etmez. Örneğin dün tek seferlik bir banka tatili olduğu için değerin 0 olması gerektiği bir durum gibi. Bu sayıların doğru olduğunu garanti etmek, tam zamanlı bir çalışanın maaşı kadar değerli olabilir. Ayrıca doğru olmadığında suçlayabileceğiniz, işten çıkarabileceğiniz ya da hapse gönderebileceğiniz birinin olması da değerlidir.
- Yazılım mühendisi başına 100 manuel veri hattı çalışanı oranının hangi şirkette doğru olduğunu merak ediyorum. Keşke biri 500 beyaz yaka işi tek tek inceleyip sınıflandırsa.
  Gerçekten otomatikleştirilebilir olanlar zaten otomatikleştirildi. AI’ın büyük bir çalkantı yaratacağını düşünüyorum, ama beyaz yaka işlerin çoğunun “e-posta işi” ya da veri girişi olduğu görüşüne çok şüpheyle yaklaşıyorum. Bu benim deneyimimle uyuşmuyor; üstelik buradaki insanların geçmişte takılı kaldığını söyleyebileceği büyük, bürokratik şirketlerde de çalıştım.
- Bu tür işlerin karmaşıklığı ciddi biçimde hafife alınıyor.
Emekli bir programcıyım. Görev açısından kritik sistemlerde olasılıkla üretilmiş koda güvenmeyi hayal etmek zor. Neredeyse doğruysa ve yalnızca küçük düzeltmeler gerekiyorsa bunu anlayabilirim, ama doğrudan deneyimim yok.
Asıl söylemek istediğim, LLM’lerin kodlama dışındaki alanlarda — örneğin beyin fırtınası, serbest çağrışım, araştırma ayrıntılarını doldurma, beni kendimi yeniden düşünmeye iten sorular sorma — şaşırtıcı olduğu. LLM’lere bir düşünce ortağı gibi davranıyorum. Hata yapıyorlar ama başka kaynaklarla doğrulayınca ya da başka bir LLM’ye sonuçları inceletince bunları yakalamak kolay olabiliyor.
- Belirli deneyimler adına konuşamam ama ben her konuda aşırı kuşkucu olmama rağmen, mümkün olan her açıdan beklentilerimi aşıyor.
  24 saatten kısa sürede bir şey yaptım; buna başlamam bile aylar sürerdi, şu anki kadar rafine bir sürüme gelmemse daha da uzun sürerdi. En etkileyici yanı, yapabileceğim şeyleri daha hızlı yapması. Daha da etkileyici olansa, benim hiç yapamayacağım ve işe alım ya da dış kaynak gerektirecek işleri çok daha az para ve zamanla, başka biriyle iletişim kurmaktan daha hızlı iterasyon temposuyla yapması.
  Kusursuz değil ve bazen inanılmaz derecede sinir bozucu. Açıkça yapmamasını söylediğim halde değerleri hardcode edebiliyor ya da belirli bir düzeltmeyi yaptığını söyleyip aslında alakasız başka bir şeyi değiştirebiliyor. Yine de bence bu bir oyun değiştirici.
- Bir süre “düşünce ortağı” yaklaşımını denedim ve kısa bir süre işe yaradığını sandım, ama bir noktada çatlaklar görünmeye başladı ve blöfü fark ettim. LLM’ler biliyor ve akıl yürütebiliyor gibi görünmekte son derece iyi, ama entelektüel bir sohbeti geliştirmekte pek iyi değiller.
  Özellikle yeni karşılaşılan bir alanda bilgi çıkarmaya çalışırken LLM tarafından yanlış yönlendirilmek kolay ve tehlikeli. Normal bir arama motoru kullanınca kaynak siteye bakıp güvenilirliği değerlendirebilirsiniz; LLM’de bu yok. Çıktı fiilen herhangi bir şey olabilir ve hataların mutlaka kolayca yakalanabileceğine katılmıyorum.
- 40 yıldır programlama yapıyorum ve birkaç ay önce LLM kullanmaya başladım; çalışma biçimim gerçekten değişti. Kod parçaları yazdırıyorum, loglardaki hata mesajlarını yapıştırınca genellikle 1 dakika içinde düzeltme önerisi veriyor, mimari ya da yeni çözümler için beyin fırtınasında da kullanıyorum.
  Elbette yazdığı kodu kontrol ediyorum, ama zekâsına ve doğruluğuna neredeyse her gün şaşırıyorum. Kripto parayla hiç alakası yok.
- Bir LLM şüphecisi olarak söyleyeyim: deneyimli geliştiricilerin yazdığı kod da dahil olmak üzere tüm kodlar özünde olasılıksaldır. Bu yüzden önemli projelerde kod incelemesi, birim testleri, eşli programlama, yönergeler ve güvenlik önlemleri vardır.
  LLM çıktısını eleştirel olmadan kullanıyorsanız yanlış kullanıyorsunuz demektir; ama insan çıktısını eleştirel olmadan kullanmak da yanlıştır.
  Yine de LLM’ler sihir değil ve insanların copilot ya da ajan modelleriyle kötü mühendislik pratiklerini gizlemesinden, uzun vadede önemli olan verimlilik, güvenlik ve yeniden tasarım yerine daha fazla boilerplate yığmasından endişe ediyorum.
- LLM’lerin son derece iyi olduğu bir alan var: veri bilimi. Girdi ve çıktı iyi tanımlanmışsa sonucun doğru olup olmadığını kolayca doğrulayabilirsiniz. Verinin belirli özelliklerini biliyorsanız test yazmasını da isteyebilirsiniz.
  Sorun, LLM’ye ne yaptığınıza dair bağlam vermeniz gerekmesi; ChatGPT tarzı sohbette bu bağlamı ya vermezsiniz ya da vermek zahmetli gelir. Claude Code burada oyunu değiştiriyor.
  Örneğin her UDP paketinde birden fazla mesaj bulunan bir PCAP dosyanız olduğunu düşünün. IP, port, protokol, zaman nasıl filtrelenir? LLM kullanıp çıktıyı kontrol edersiniz. A, AB, AAB, ABB vb. desenlere sahip paket sayısı nasıl bulunur? LLM kullanıp çıktıyı kontrol edersiniz. Test için yalnızca bu tür paketleri içeren bir PCAP nasıl oluşturulur? LLM kullanıp çıktıyı kontrol edersiniz.
  Kodu da okuyabildiği için, açıkçası işiniz özel bir şey olmadığından ne yapmaya çalıştığınızı çok daha iyi çıkarabilir. Her hâlükârda yalnızca “yukarıdaki tüm fonksiyonlar için birim testleri yaz” diyebilmek bile kendi kendini doğrulamanıza yardımcı olabilir.
“Çoğu şüpheci ve eleştirmen gibi ben de bu araçları her gün kullanıyorum. Ve vakaların %50’sinde yaklaşık %50 çalışıyor” denmiş; ben yaklaşık bir yıldır işte neredeyse her gün LLM kullanıyorum ve sorunlarımın yaklaşık %90’ını çözüyor.
Bu tür yapay zeka/LLM şikâyetlerini ciddiye mi almak gerekir, yoksa bazı kullanıcıların mantıksız kullanım kalıpları olarak mı görmek gerekir, karar vermek çok zor. Örneğin ben LLM’ye kod tabanını yedirip sihirli biçimde çalışmasını hiç beklemedim. Kendi anlayışımın sınırları içinde doğrudan ve somut sorular soruyor, çözümü bilinçli olarak test edilebilir şekilde uyguluyorum.
Farklı bir yaklaşımla LLM’den şikâyet ediyorsanız, yanlış kullandığınız görüşüne daha yakınım. Ayrıca küçük, yararlı ve oldukça tutarlı gerçek sihri kaçırıyorsunuz.
- “Vakaların %60’ında her zaman çalışır” sözü aslında The Weatherman’dan bir repliğe gönderme sayılır.
  Ben de Cursor üzerinden her gün gpt ve Claude kullanıyorum. gpt o3 genel bilgi araması için epey iyi. Claude sık sık dağılıyor, ama token israf edip kendini gösterirken gerçek sorunla ilgili noktalara da epey sık temas ettiğini gördüm.
  Modeller aptal; dâhi aptaldan çok sadece aptala yakınlar. Yine de ara sıra ilgili öğeyi tutturuyorlar. Ne olması gerektiğine dair kabaca fikriniz varsa ve LLM’yi çiftlik arazisindeki fare avlayan bir teriyer gibi kullanırsanız ondan düzgün yararlanabilirsiniz.
- Bu söz de yazarın sorun ettiği yorumdan daha iyi değil.
  %90 rakamı da biraz şüpheli görünüyor.
Bu yazı, tartışmadaki isabetsizliğe kızmış gibi okunuyor; açıkçası bu isabetsizlik destekçilerden çok karşıtlar tarafında daha yaygın. Çünkü destekçiler genellikle kusurlar ve sınırlarla her gün uğraşmak zorunda kalıyor.
LLM’lerin etrafındaki her şeyin büyülü düşünce olduğu sonucu epey kibirli görünüyor. Çünkü son 5 yılda çeviri, transkripsiyon ve belirli bir ölçeğe kadar kod üretimi gibi daha önce neredeyse baş edilmesi zor olan sorunlar tamamen ya da neredeyse çözülmüş durumda.
- Karşıtlar genellikle gerçek kusurlara işaret eder. Destekçiler ise genellikle somut ayrıntı vermeden LLM’leri herhangi bir sorunu tek seferde çözebilecek bir mucize gibi eleştirel olmadan yüceltir.
- Çeviri, transkripsiyon ve belirli bir ölçeğe kadar kod üretimi neredeyse baş edilmesi zor sorunlar mıydı?
  Google Translate, Whisper ve kod üreticileri LLM’ler olmadan da oldukça uzun zamandır vardı.
“Kripto para geri geldi” sözüne gelince, kripto para benim için bir can simidi. Yaşadığım ülkede, kontrol edemediğim ya da düzeltemediğim nedenlerle banka hesabı açamadığım için
Bu yüzden kripto para sizin için işe yaramıyorsa ne güzel. Benim ve benim gibi milyonlarca insan için bu bir ölüm kalım meselesi
LLM de benzer şekilde bazıları için sihir, bazıları için güvenilir ve deterministik bir araç; aynı zamanda sihir de. Az önce yüzlerce faturayı sınıflandırıp düzenledim. Evet, sihir
- Bu aslında kripto paranın neredeyse tek kullanım senaryosu ve açıkça tasarlandığı amaç olan sansüre dayanıklılık
  Bu yüzden yasal ekonomide kripto paranın yapabileceği yararlı bir şey bulmak zor. Çünkü devletlerin istemediği ya da kolaylaştıramadığı işlemleri mümkün kılmak üzere tasarlandı. Bazı durumlarda insani uygulamaları var, yasa dışı uygulamaları da çok
- Durumunu biraz daha açıklayabilir misin? Hangi ülkedesin ve orada kripto parayı nasıl kullanıyorsun?
- “Kripto paranın gerçek anlamına inanmıyorsan aptalsın” tarzı saçma abartılar arasında, bu geçerli bir kullanım senaryosu
  “İnanmak için orada olman gerekirdi” https://x.com/0xbags/status/1940774543553146956
  AI çılgınlığı da şu anda benzer bir dönemden geçiyor. Her türlü eleştiri, hiçbir şey bilmeyen aptalların sözü sayılıp kenara atılıyor
- Aslında yazarın şakasının tersini söylediğini sanmıyorum. Sen kripto parayı para olarak kullanmak istiyorsun; oysa asıl yazı muhtemelen yatırım aracı olarak kripto para etrafındaki dolandırıcılıklardan bahsediyordu
  Para olarak kullanıyorsan, coin’leri pump and dump yapıp para kazanma aracı haline getirmek isteyenler senin düşmanın. Sert yükseliş ve çöküşlerden oluşan bir hız treni yerine ne kadar istikrarlı olursa senin için o kadar iyi
- Kripto paranın yaşadığı sorunla aynı. Neredeyse herkes teknoloji hakkında yalan yayıyor ve bunların çoğu, söylediklerinin yalan olduğunu anlayacak kadar bile konuyu kavramamış durumda. Bu, saflık ile kötü niyet arasındaki fark
  Kripto tarafında kasıtlı yalanların daha fazla, elde edilecek değerin de daha az olduğunu düşünüyorum; ama her iki durumda da gerçekten fayda sağlayabilecek insanlar, dürüst olmayan anlatılar ve çarpıtmalar yüzünden daha eşikten dönüyor. Ve her iki durumda da bugün gerçek değer elde edilen örnekler var
Biraz ilgili bir konu ama son zamanlarda AGI teriminin, hatta bazen AI teriminin bile kullanılış biçimi sinirimi bozuyor. Özellikle bilimsel makalelerde her şeyin iyi tanımlanmış olmasını beklerim; en azından o makalenin içinde nasıl kullanıldığı böyle olmalı
Neden AGI’nin ne olduğuna dair bir tanım yapılamıyor? O zaman hangi AI’nin o tanıma uyduğunu mantıksal olarak kanıtlamak da mümkün olurdu. Pratikte çok işe yaramayacak gibi görünse bile, terimleri anlamsızca kullanmaktan teorik olarak çok daha yararlı
Şu anda bir tür kaçış kapısı gibi hissettiriyor. Wikipedia’da “neredeyse tüm bilişsel görevlerde insan yeteneğine eşit olan ya da onu aşan AI türü” deniyor. Bunu nasıl ölçeceğiz? Bir sistemin bu özelliğe sahip olduğunu kanıtlayamıyorsak bunun ne anlamı var?
Biraz yakınma oldu ama yine de bir ölçüde okunur umarım
- Genel bir mutabakat şart değil. Benim AGI’nin ne olduğuna dair daha hoşgörülü kendi kilometre taşlarım var, ama başkalarının bunları paylaşmasını beklemiyorum
  Benim için “crypto”nun hâlâ kriptografi olması, kripto para olmaması gibi. Bazen ana akım sadece farklı bir görüşe sahip olur
- Tanım zaten var
  “AI, henüz yapılamamış şeydir”[1]
  1. https://en.wikipedia.org/wiki/AI_effect
Kısa süre önce şirkette LLM kullanmaya başladık; ilk işimiz 20 bin müşteri görüşmesini metne döküp şu bilgileri çıkarmaktı
1. Ürünümüz genellikle hangi ürünlerle karşılaştırılıyor
2. Kullanıcılar yazılımımızda hangi sorunları yaşıyor
3. Kullanıcıların en sık dile getirdiği kullanım senaryoları neler
  Eskiden haftalar süren araştırma birkaç saat içinde bitti. Yeni strateji oluşturmamıza yardımcı oldu ve gerçek iş değeri yarattı
  LLM’leri sadece doğal dil işleme motoru olarak görüyorum ve bu kullanım için harikalar. Birilerinin abarttığı doğru, ama bizim örneğimizde gerçekten faydalı olduğu gerçeği değişmiyor. Neden bu kadar çok “LLM kötü” yazısı var bilmiyorum. Size uymuyorsa geçip gidin. Neden birinin birine bir şey kanıtlaması gerekiyor? Sonuçta sadece bir araç
- Abartının yarattığı olumsuz etkiyi hafife alıyorsun. Piyasayı çarpıtıyor, aşırı yatırıma yol açıyor, departmanların önceden küçültülmesine neden oluyor ve asla karşılanmayacak beklentiler yaratıyor
  Bu tür yazılar beklentileri soğutmak açısından önemli. İnsanlar LLM satarken genelde müşteri destek aramalarını özetlemekten bahsetmiyor; müşteri destek çalışanlarını işten çıkarabileceğiniz fikrini satmaya çalışıyorlar
- Kesinlikle öyle. LLM’in gerçekten işe yaramadığını söyleyenler, büyük miktarda veriyi oldukça güvenilir bir şekilde işlemek gereken bir sorunla hiç karşılaşmamış kişiler
  Yıllar boyunca web’deki çevirilerin çoğunda bağlam yoktu. Artık bağlam olabilir
Temkinli görüşleriyle bilinen güvenilir ve makul teknoloji dünyası figürleri, çeşitli biçimlerde üretken yapay zeka kullanarak programlama işlerinde kayda değer iyileşme elde ettiklerini bildirdi
Burada kayda değer derken ne kadar? %5 ile %100 arası, yani göz ardı edilemeyecek düzeyde
En azından üretken yapay zekanın hatırı sayılır sayıda insan için oldukça faydalı bir araç olduğu ya da olabileceği söylenebilir
Bu düzeyde bir yargının makul olması için CPU sayısı, kod satırı sayısı, işlenen bayt miktarı gibi tüm ayrıntıların açıklanması gerekmez
- “İnsanlar, benim uydurduğum rastgele bir sayı ile başka bir rastgele sayı arasında bir yerlerde verimlilik artışı olduğunu iddia ediyor. Biz de bu iddiaya eleştirmeden inanmalıyız” demekten farkı yok

LLM Etrafındaki Her Şey Hâlâ Büyü Gibi ve Temenniden İbaret

LLM deneyimlerini birbiriyle karşılaştırmak neden zor

Aşırı ısınmış söylem ile gerçek araç kullanımı arasındaki boşluk

İlgili okumalar

1 yorum

Hacker News yorumları