- LLM etrafındaki mevcut tartışmalar, net nicel kanıtlar olmadan yürütülüyor
- Her kullanıcının deneyimi son derece parçalı ve gerçek kullanım ortamı ya da arka plan bilgisi gibi temel unsurlar neredeyse hiç paylaşılmıyor
- Deterministik olmama özelliği nedeniyle aynı görev bile zamana göre farklı sonuçlar veriyor; bu da güvenilirlik açısından sınırlamalar yaratıyor
- Sektör liderlerinin abartılı iddiaları, eleştirel süzgeçten geçirilmeden kabulü ve aşırı beklentileri teşvik ediyor
- Yazar da gerçekte çeşitli AI araçlarını günlük olarak kullandığını, ancak istediği sonucu ancak yaklaşık yarı yarıya bir olasılıkla alabildiğine dair sahadan deneyimini paylaşıyor
LLM etrafındaki tartışmalar ve teknolojiye bakış
LLM'e yönelik eleştiriler ve genel hava
- Son dönemde AI, özellikle de LLM'ler (büyük dil modelleri) hakkındaki tartışmalarda, eleştirel bakış açısı çoğu zaman "teknolojiyi gerçekten anlamayan insanların görüşü" diye küçümsenen bir atmosfer oluşmuş durumda
- Hacker News gibi yerlerde, "AI hakkında soru sormanın meselenin özünü bilmemek" anlamına geldiği türden tepkiler tekrar tekrar görülüyor
Kullanıcılar arasındaki deneyim farkı
- LLM'lerin gerçek faydası konusunda, "belli ölçüde yardımcı oluyor" diyen kullanıcılarla "her şeyi denedim ama pek işe yaramıyor" diyen kullanıcılar arasında belirgin bir görüş ayrılığı var
- Bu farkın ortaya çıkma nedeni, deneyimlere dair somut ölçütlerin ve bilgilerin paylaşılmaması
- Hangi projede kullanıldığı
- Kod tabanının durumu (yeni proje, olgun kod, kapalı kaynak vb.)
- Kullanıcının uzmanlığı ve bu uzmanlığın gerçek problemle ne kadar ilişkili olduğu
- LLM'in ürettiği çıktının gerçekten rafine edilip dağıtıma alınmasına kadar ek olarak ne kadar emek harcandığı gibi somut bilgilerin yokluğu
Deneyimleri karşılaştırmanın zorluğu ve deterministik olmama
- Bir kullanıcı tüm bilgileri ayrıntılı şekilde paylaşsa bile, başka kullanıcılarla deneyim karşılaştırması yapmak neredeyse imkânsız
- LLM'ler ve otomasyon ajanları özünde deterministik değil
- Aynı probleme aynı şekilde istek gönderildiğinde bile her seferinde farklı sonuçlar elde ediliyor
- Proje türü, kullanılan model, araçlar, dil gibi pek çok değişken olduğu için tutarlı doğrulama zorlaşıyor
Sektör liderleri ve abartılmış beklentiler
- Sektör liderlerinin LLM performansını fazlasıyla öne çıkardığı çok sayıda örnek var
- Örneğin bir sektör lideri, "Claude Code" kullanarak eski bir bug'ı şaşırtıcı derecede kolay düzelttiğine dair deneyimini, ayrıntı paylaşmadan anlatıp geniş yankı uyandırabiliyor
- Kodun boyutu, bug'ın zorluk seviyesi, ek emek gerekip gerekmediği, kullanılan programlama dili ve framework gibi kritik bilgiler atlanırken, yalnızca çok olumlu mesaj yayılıyor
- Bu tür örnekler 1,8 binden fazla beğeni ve 204 yeniden paylaşım alarak, abartılı pazarlamanın ne kadar kolay yayıldığını gösteriyor
Kullanım deneyimi ve gerçeklik algısı
- Yazar da Vercel'in v0'ı, Claude Code, Midjourney gibi çeşitli AI araçlarını her gün kullanıyor
- Swift bilgisi olmadan SwiftUI ile bir izleme uygulaması geliştirmek
- Midjourney ile etkinlik afişlerini otomatik üretmek
- Elixir tabanlı MCP sunucu fonksiyonları yazmak gibi deneyimleri var
- Ancak başarı oranı yaklaşık %50 ile sınırlı ve ortaya çıkan sonuçlar hiçbir zaman tam anlamıyla tutarlı değil
- LLM'ler bazen gerçekten büyü gibi hissettirse de, gerçekte deterministik olmayan istatistiksel modellerden ibaret
- Yazar, bu gerçekliğe rağmen sektördeki tartışmaların hâlâ ikili karşıtlıkta (büyü vs. mühendislik) sıkışıp kaldığını vurguluyor
Sonuç
- LLM ve AI etrafındaki ortamda, sağlam ve açık doğrulama sistemleri olmadan abartılı hayallerin, beklentilerin ve inançların tercih edilme eğilimi var
- Eleştirel düşünmeyi bırakmamak ve işlevleriyle etkilerini gerçekten ayrıntılı biçimde doğrulamaya çalışmak önemli
- Tartışmalarda asıl önemli olan, somut ve nicel bilgilerin paylaşılması
- LLM'lerin sınırları ve imkânlarına dengeli bir bakışla yaklaşmak gerekiyor
1 yorum
Hacker News görüşleri
Çalıştığım yerde yönetimin 10 kat verimlilik artışı laflarını duyması sinir bozucu geliyor. Hatta bazıları, şirketimizdeki erken benimseyenlerin bunu bizzat söylediğini aktarıyor. Ama bu beklentiler fazla yüksek. Amdahl yasası da işin içinde; zamanımın çoğunu kod yazmaya değil, düşünmeye ve iletişime harcıyorum. Kodlama gerçekten 10 kat hızlansa bile (çoğu durumda öyle değil), toplam verimlilik artışı ancak %10~15 olur. Bu yine de oldukça iyi bir sonuç, ama 10 kat değil
Belki de şu anki işim daha çok R&D ağırlıklı olduğu için, LLM bana "düşünme" tarafında da "kodlama" kadar büyük kazanç sağlıyor (iletişimi ise kendim hallediyorum). LLM ile düşünme işi yapmak, 20 yıl önce web aramayı ustalıkla kullanmayı öğrenme hissine benziyor. Eskiden arama motorlarında ne aradığımı bilmem gerekiyordu; şimdi ise LLM önce neyi aramam gerektiğini buluyor (hatta benim yerime arıyor da). Eskiden zor diye sınıflandırdığım işler artık LLM sayesinde kolayca çözülebiliyor. Şu anda web aramalarımın yaklaşık üçte birini ChatGPT o3 ile yapıyorum. Bunu artık bırakmayı hayal bile edemem. Ayrıca LLM’in yarım kalmış düşüncelerimi toparlaması ve benimle tartışma ortağı olması gibi psikolojik bir etkisi de büyük. Bu sayede birçok şey çok daha az korkutucu geliyor, bunun farkı da az değil
Bizim şirkette de durum benzer. İçerideki erken benimseyenlerin iddia ettiği verimlilik artışları ya çok dar bir çerçevede ölçülüyor ya da hesapları zaten biraz gevşek oluyor
LLM’ler junior geliştiricilerden çok senior geliştiricilere daha büyük bir hızlandırma sağlayabilir (çünkü junior’lar iyi/kötü kodu iyi ayırt edemiyor). Gelişmiş bir LLM iş akışı kullanan bir senior, eskiden on junior’ın çıkardığı üretkenliğe ulaşabilir gibi geliyor. Hatta kötü bir geliştirici söz konusuysa, senior’ın zamanını çalarak net verimliliği eksiye bile düşürebilir. Fena olmayan junior’lar bile, LLM’in zaten daha iyi yaptığı tekrarlı işlerde kalıyor. Bu yüzden işlerin gerçekten ortadan kalkabileceğini düşünüyorum
LLM araçları kullanınca verimlilik sadece %10~15 artıyorsa, LLM araç maliyeti yüzünden istihdam maliyeti de %10~15 artıyorsa ortada özel bir avantaj yok diye düşünüyorum. Toplam üretim maliyetine bakmak gerektiği görüşündeyim
Kişisel projelerde rahatlıkla 10 kata yakın hızlanıyorum. Ama şirkette birçok ekiple konuşma, gereksinim değişiklikleri, PR review gibi şeyler yüzünden bu ortam tutmuyor. Böyle optimize edilmiş tasarım ve standart kalıplar ancak küçük startup’larda ya da tek kişilik projelerde mümkün. Birkaç kişi bir araya gelince, kendi içinde uzlaşmak bile zorlaşıyor. AI’ın en iyi sonucu vermesi için her şeyin standart olması lazım, ama gerçekte her şey biraz kayık olduğu için gerçek organizasyonlarda o etkiyi görmek zor. Aynı kafada birkaç istekli geliştirici birlikte çalışırsa 10 kat mümkün olabilir, ama kurumsal ortamda neredeyse imkânsız. AI’ın orta kademe yönetim ve proje planlama tarafına daha uygun olduğunu düşünüyorum
Yazının şikâyet ettiği tarafta olan kişi benim. ChatGPT’nin hâlâ çok yetersiz olduğu dönemde greenfield bir ürün çıkardım. Sonra Claude ve web chat ile XCode arasında kopyala-yapıştır yaptım, ardından Cursor kullandım. Build hataları sık sık oluyordu ama yine de verimlilik en az 3 kat artmıştı. Şimdi ajan performansı iyileşti, Claude 4 de çıktı; artık neredeyse hiç kod yazmıyorum. Architect/Manager rolünde, uzmanlığımla sadece ajanları iyi yönlendiriyorum. Startup’ta aylardır doğrudan tek satır kod yazmadım. Kendim PR açmadan önce her şeyi inceliyor, testleri de sıkı tutuyorum ama Cursor+Sonnet kombinasyonu çılgın gibi. Satır sayısı falan önemli değil; hatta uzun süredir çalışan mevcut kod tabanı uzmanları bana küçük bug soruları soruyor. Claude sayesinde frontend geliştiricisinin işine kadar el attım; bu yüzden dikkatli davranıyorum. Sadece sorgu atmıyorum; ayrıntılı araştırma, planlama ve adım adım keşif süreci uygulatıyorum. Alan bilgisi şart. Yine de insanların bunu bu kadar faydalı kullanamamasına şaşırıyorum. Sanki her hafta böyle iki makale görüyorum
Benim de deneyimim benzer ama bağlam biraz farklı (PhD öğrencisiyim). LLM’lere karşı şüpheciydim ama Claude Code’dan sonra çalışma biçimim tamamen değişti. Yine de kürasyon tamamen bana kalıyor (hem doktorada öğrenilen önemli bir soft skill olduğu için hem de LLM hedefi ya da bağlamı hızla kaybedebildiği, hatırlayamadığı için). Doğru iletişim kurabiliyorsanız, CC ile hesaplamayı daha önce mümkün olmayan şekilde organize edebiliyorsunuz. Programlama daha kolay hâle gelmiyor ama tamamen farklı bir biçim ortaya çıkıyor
Güvenilmeyecek LLM kodunu hızlıca nasıl incelediğiniz, LLM’in unit test de yazıp yazmadığı, ortalama prompt uzunluğu gibi gerçek doğrulama/inceleme sürecini merak ediyorum
LLM çıktısına doğrudan güvenip güvenmediğini sorgulayan bir itiraz. LLM tüm proje bağlamını kavrayamıyor ve çok sayıda saçmalama/hallucination üretiyor; bu yüzden doğrulama şart
LLM kod kalitesinin genel olarak çok yetersiz olduğunu düşünüyorum. Defalarca tekrar düzeltmek gerektiği için çoğu zaman doğrudan kendim yazmak daha hızlı oluyor. Ama büyük ölçekli mekanik refactor işlerinde ajanlar çok faydalı. Karmaşık vim macro’ları ya da AST script’leri yazmak yerine ajan kullanıyorum
Aylardır doğrudan tek satır kod yazmıyor olma fikri bana kişisel olarak çok sıkıcı geliyor
Blog yazısındaki iddiaları (doğrulanamazlık, olağanüstü başarı iddiaları vb.) aynen yeniden doğrulamış oluyor. Hesap da yeni açılmış gibi görünüyor
Bence gerçek hizmet sektörü emeğinin çoğu Excel sheet taşımak ya da CRM/email ile Excel arasında veri taşımak gibi manuel işlerden oluşuyor. Büyük şirketlerde bu tür tekrarlı işleri yapan tam zamanlı çalışanların, software engineer’lara kıyasla yüz kat fazla olduğunu düşünüyorum. Bu yüzden LLM’in OCaml yapamaması önemli değil; Excel’de insandan biraz daha iyi olsa bile muazzam değer yaratır. MCP gibi şeylerle email-CRM-Excel zincirini bağlayıp otomasyon kurarsanız hata oranı ve hallucination da ciddi biçimde azalır. İnsan da deterministik değil; bu tür süreçlerde determinizm çok kritik değil. LLM ile crypto, fayda ve benimsenme açısından tamamen farklı. Bana akıllı telefonların yaygınlaşmasını hatırlatıyor. Teknik olmayan arkadaşlarım bile artık LLM’leri çok farklı amaçlarla kullanıyor
Crypto ile kıyasın yapıcı olmadığını düşünüyorum. Teknik olarak hiçbir ilişkileri yok. Ama teknolojiye aşırı inanç durumu var. Basit otomasyonla bile hiç karşılaşmamış insanlara LLM SF gibi gelebilir. Bu alan daha önce hiç bu kadar ana akım olmadı. Bundan sonrası, başarıların ve başarısızlıkların, farklı görüşlerin ve sahadan deneyimlerin iç içe geçtiği bir vahşi batı dönemi olacak gibi. İyi tarafı şu: arkadaşınızın uygulama fikrini artık kendisi deneyebilir
Manuel veri temizliği yapan FTE’lerin de sonuç doğrulama, son teslim tarihine uyma ve hukuki sorumluluk gibi yükleri var. LLM, geçici istisnai durumları (örneğin tatilde değerin 0 olması gerektiği gibi) bağlam dışından anlayıp kontrol edemez. Bu tür doğrulama için bir FTE çalıştırmak gayet değerlidir
Bir software engineer başına 100 veri işleme/boru hattı tipi manuel FTE oranının hangi şirketler için geçerli olduğunu merak ediyorum. Back office/data entry işlerinin gerçekten çoğunlukta olduğunu düşünmüyorum. AI’ın etkisinin büyük olacağına katılıyorum ama tüm white-collar iş gücünün neredeyse email+data entry personelinden oluştuğu iddiasına şüpheyle yaklaşıyorum
Bu tür işlerin karmaşıklığı hafife alınıyor diye düşünüyorum
Emekli bir programcı olarak, olasılıksal olarak üretilmiş koda mission-critical sorumluluk vermeyi hayal bile edemiyorum. Biraz düzeltilince kullanılabilecekse bunu anlayabilirim. Kodlama dışı alanlarda (beyin fırtınası, yaratıcı düşünme, araştırma desteği) LLM’ler hayranlık uyandırıyor. LLM’leri düşünce ortağı gibi kullanıyorum. Hataları oluyor ama başka kaynaklarla doğrulayınca ya da başka bir LLM’e inceletince kolayca yakalanıyor
Ben de doğası gereği çok şüpheci biriyim ama gerçekten kullanınca her açıdan beklentilerimi aştı. Birkaç saat içinde normalde aylar sürecek bir projeyi prototipten yayına kadar ilerlettim. Yapabildiğim işleri daha hızlı yapıyorum; yapamadığım işleri de (outsource etmem veya işe alım yapmam gereken şeyleri) küçük maliyetle ve hızlıca hallediyorum. Elbette kusursuz değil, sinir bozucu yanları var (açık talimatları görmezden gelmesi, yalan söylemesi vb.) ama benim için game changer oldu
LLM’i düşünce ortağı olarak kullanmak bir süre işe yarıyor gibi gelmişti ama bir noktada sanrısal tarafı ortaya çıkıyor. LLM, bilgiye ya da akıl yürütmeye sahipmiş gibi görünme konusunda çok iyi yanıltıyor. Özellikle benim bilmediğim alanlarda daha tehlikeli. Arama motorunda güvenilirliği kaynaklardan karşılaştırabilirsiniz ama LLM’de bu yok. Hata yakalamak da her zaman kolay değil
40 yıllık geliştiriciyim; birkaç ay önce LLM kullanmaya başladım ve çalışma biçimim ciddi biçimde değişti. Log hata mesajını yapıştırıyorum, 1 dakika içinde düzeltme geliyor; tasarım beyin fırtınası yapıyor, yeni çözüm önerileri sunuyor. Kodu yine doğruluyorum ama doğruluğu ve zekâsı beni her gün şaşırtıyor. (Crypto ile hiç benzemiyor)
LLM şüphecisi tarafındayım ama aslında insanların yazdığı tüm kod da özünde olasılıksal. Bu yüzden code review, unit test, pair programming ve kılavuzlar var. Ne LLM ne de insan çıktısı eleştirisiz şekilde kullanılmalı. Ama LLM’in sihir olmadığını, faydalı olduğu yerlerin dışında verimlilik, güvenlik, refactoring gibi uzun vadeli değerleri yok sayıp sadece boilerplate çoğaltmak için kötüye kullanılmasından endişe ediyorum
Bence LLM’in en iyi olduğu alan data science. IO net olduğu için sonucu doğrulamak kolay. Belirli verinin özelliklerini biliyorsanız test kodu üretmesini de kolayca isteyebilirsiniz. Bağlam gerektiğinde Claude Code büyük fark yaratıyor. Örnek olarak PCAP dosyasındaki her UDP paketinin içinden birden fazla mesajı çıkarmak, filtrelemek, pattern matching yapmak, test için ayırmak gibi işler. "Tüm bu fonksiyonlar için unit test yaz" derseniz LLM kendi kendini doğrulama sürecine de girebiliyor
Ben bir yıldır neredeyse her gün LLM kullanıyorum ve vakaların %90’ında sorunumu çözüyor. AI/LLM hakkında olumsuz görüşlerin ne zaman ciddiye alınması gerektiğini bilmiyorum. Benim deneyimimde tüm kod tabanını verip sihir beklemek diye bir şey yoktu; yalnızca bildiğim/anladığım şeyler hakkında, doğru ve spesifik sorular soruyor, çözümü doğrulanabilir şekilde uyguluyorum. Böyle yapmıyorsanız LLM’i yanlış kullanıyorsunuz demektir. Gerçekten sihir hissini yaşamak istiyorsanız anahtar, küçük, gündelik ve tutarlı kullanımdır
Weatherman parodisi gibi, "%60 ihtimalle her zaman çalışır" diye dalga geçen bir yorum. Ben de GPT ve Claude’u Cursor ile her gün kullanıyorum. GPT o3 genel bilgi araması için iyi, Claude ise bazen çuvallıyor. Modelin kendisi aptal gibi ama bazen özüne de dokunuyor. Ne istediğinizi kendiniz biliyorsanız ve LLM’i iyi terbiye ederseniz üretken şekilde kullanabileceğinizi düşünüyorum
"Benim deneyimimde %90 çalışıyor" iddiası da pek inandırıcı gelmiyor diyen bir görüş
Yazının yazarı sanki yorumcuların isabetsiz değerlendirmelerine kızmış gibi. Oysa bence LLM’in sorunlarını ve sınırlarını en iyi bilenler, bunlarla her gün karşılaşan kullanıcılar yani savunucuları. Çeviri, transkripsiyon, kod üretimi (belli bir ölçeğe kadar) gibi, eskiden imkânsız ya da neredeyse imkânsız olan sorunlar artık tamamen ya da neredeyse tamamen çözülmüş durumda
Çeviri, transkripsiyon ve kod üretimi gerçekten imkânsıza yakın mıydı? Google Translate, Whisper ve benzerleri uzun zamandır vardı diye itiraz eden bir yorum
Gerçek kusurları ortaya çıkaran taraf eleştirmenlerdir; savunucular ise tam tersine LLM’i sanki her işi yapan bir şeymiş gibi eleştirmeden övüyor
Son dönemde özellikle bilimsel makalelerde AGI ve AI terimlerinin çok muğlak kullanıldığını düşünüyorum. En azından her makalenin kendi tanımını açıkça vermesi gerekirdi. AGI’nin ne olduğunu net tanımlarsanız, belirli bir AI’ın o tanımı karşıladığını mantıksal olarak da gösterebilirsiniz. Pratik faydası sınırlı görünse bile, anlamsız bir terim kullanmaktan çok daha iyi. Şu an ise AGI tanımı olmadan kaçamak biçimde kullanılıyor gibi. Wiki’de "insan düzeyindeki ya da onu aşan neredeyse tüm bilişsel görevler" gibi yazıyor ama bunu ölçmek mümkün değil. Bu kadar boş bir terimi neden kullanalım diye düşünüyorum
Herkesin aynı anlamda kullanması da gerekmiyor. AGI için kendi ölçütünüz olabilir (çoğunluk katılmasa da). Benim için crypto hâlâ cryptography demek. Ana akım kullanımla benim kişisel ölçütüm farklı olabilir
AI için bir tanım aranıyorsa, AI effect bağlantısındaki "henüz gerçekleştirilememiş olana AI denir" açıklamasını hatırlatan bir yorum
Şirkette yakın zamanda LLM kullanmaya başladık. İlk işimiz 20 bin müşteri destek çağrısını deşifre etmek ve veri çıkarmaktı (rakip ürünler, sorun noktaları, tipik kullanım senaryoları vb.). Eskiden haftalar sürecek araştırma birkaç saatte bitti. Yeni bir iş stratejisi bile oluşturduk ve gerçekten büyük değer elde ettik. LLM, doğal dil işleme motoru olarak çok güçlü. Abartılı pazarlama çok ama bize pratikte gerçekten yardımcı oluyor. Sadece bir araç; bunu birine kanıtlama ihtiyacı da hissetmiyorum
Aşırı pazarlamanın tamamen zararsız olmadığını düşünüyorum. Piyasayı bozabilir, aşırı yatırımı tetikleyebilir, organizasyon küçültmelere ve gerçekçi olmayan beklentilere yol açabilir. Bu tür yazılar piyasayı ve beklentileri soğutmak için gerekli. LLM satanlar genelde müşteri çağrısı özetlemekten değil, insanları ikame edecek türlü abartılı senaryolardan bahsediyor
Büyük ölçekli veriyi güvenilir biçimde işleme deneyimi olmayanlar ancak LLM’lerin işe yaramadığını söyler gibi geliyor. Artık çeviri bile bağlama çok daha duyarlı biçimde yapılabiliyor
Güvenilir teknoloji sektörü insanları da GenAI’ın geliştirici verimliliğine büyük katkı sağladığını doğrudan söylüyor. Bunun anlamı %5 ile %100 arasında çok geniş olabilir. En azından bunu oldukça faydalı bir araç olarak kabul etmek gerekir diye düşünüyorum. Böyle bir iddia için satır sayısı, bayt, CPU gibi somut sayılar gerekmeyebilir
LLM teknolojisinin de elbette doğru kullanılacağı yerler var, ama zaten çok fazla kişi bunu yanlış kullandığı için artık geri dönüş yok. Sayısız acemi geliştirici risk alıp başarısız olacak, tonla yatırım boşa gidecek gibi. Şirketler de artık vazgeçemeyecek kadar her şeylerini buna yatırmış durumda