Claude 3.7 Sonnet ve Claude Code duyuruldu

(anthropic.com)

1 puan yazan GN⁺ 2025-02-25 | 2 yorum | WhatsApp'ta paylaş

Anthropic, Claude 3.7 Sonnet modelini şirketin şimdiye kadarki en zeki modeli ve piyasadaki ilk hibrit akıl yürütme modeli olarak tanıttı; böylece tek bir modelde hem anında yanıtlar hem de kullanıcıya görünen adım adım düşünme süreci sunuluyor
Yeni modelde standart mod ile extended thinking mode arasında seçim yapılabiliyor ve API’de düşünme bütçesi, çıktı sınırı olan 128K tokena kadar N token düzeyinde kontrol edilebiliyor
Kodlama ve frontend web geliştirmede büyük iyileşmeler var; ilk müşteri testlerinde karmaşık kod tabanlarını işleme, full-stack güncellemeler, ajan iş akışları, web uygulaması oluşturma ve production-ready kod üretimi güçlü yönler olarak doğrulandı
Birlikte tanıtılan Claude Code, sınırlı araştırma önizlemesi olarak sunulan komut satırı tabanlı bir ajan kodlama aracı; kod keşfi, düzenleme, test, GitHub işlemleri ve komut satırı araçlarının kullanımını üstlenebiliyor
Claude 3.7 Sonnet, Free, Pro, Team, Enterprise ve başlıca geliştirme platformlarında sunuluyor; genişletilmiş düşünme modu ücretsiz Claude katmanı hariç kullanılabiliyor ve fiyatlandırma milyon girdi tokenı başına $3, milyon çıktı tokenı başına $15 olarak korunuyor

Claude 3.7 Sonnet’in hibrit akıl yürütmesi

Claude 3.7 Sonnet, Anthropic’in tanıttığı en zeki model olup hem anında yanıt hem de genişletilmiş adım adım düşünme üretebiliyor
Genişletilmiş düşünme süreci kullanıcıya görünür ve API kullanıcıları modelin ne kadar süre düşüneceğini ayrıntılı biçimde kontrol edebilir
Anthropic, akıl yürütmeyi ayrı bir model olarak değil, frontier modelin entegre bir yeteneği olarak ele almayı seçti
- Standart modda Claude 3.5 Sonnet’in yükseltilmiş bir sürümü gibi çalışıyor
- extended thinking mode içinde yanıt vermeden önce öz değerlendirme yaparak matematik, fizik, talimat takibi ve kodlama gibi çeşitli görevlerde performansı artırıyor
- İki mod için prompt verme biçimi büyük ölçüde benzer şekilde çalışıyor
API’de düşünme bütçesi N token olarak belirtilebiliyor ve N, çıktı sınırı olan 128K tokena kadar ayarlanabiliyor
- Bu kontrol, hız ve maliyeti yanıt kalitesiyle takas etmek için kullanılıyor

Gerçek iş odaklı kodlama performansı

Claude 3.7 Sonnet, özellikle kodlama ve frontend web geliştirme alanında büyük gelişme gösteriyor
Anthropic, matematik ve bilgisayar bilimi yarışma sorularına optimizasyon ağırlığını bir miktar azaltıp şirketlerin LLM’leri gerçekte kullandığı işlere daha fazla odaklandığını belirtiyor
İlk testlerde çeşitli müşteriler kodlama performansını değerlendirdi
- Cursor, karmaşık kod tabanlarını ele almaktan gelişmiş araç kullanımına kadar gerçek kodlama işlerinde Claude’un yeniden en üst seviyeye çıktığını değerlendirdi
- Cognition, kod değişikliği planlama ve full-stack güncellemeleri ele alma konusunda diğer modellerden çok daha iyi olduğunu belirtti
- Vercel, karmaşık ajan iş akışlarında yüksek hassasiyeti vurguladı
- Replit, diğer modellerin durduğu durumlarda Claude ile sıfırdan ayrıntılı web uygulamaları ve panolar oluşturduklarını söyledi
- Canva değerlendirmesinde Claude, daha iyi tasarım anlayışıyla tutarlı şekilde production-ready kod üretti ve hataları önemli ölçüde azalttı

Claude Code sınırlı araştırma önizlemesi

Claude Code, Anthropic’in ilk ajan kodlama aracı ve sınırlı araştırma önizlemesi olarak sunuluyor
Geliştiriciler terminalden Claude’a önemli ölçüde mühendislik işi devredebiliyor
Claude Code, geliştiriciyi süreçte tutarak şu işleri yapıyor
- Kod arama ve okuma
- Dosya düzenleme
- Test yazma ve çalıştırma
- GitHub’a kod commit etme ve push etme
- Komut satırı araçlarını kullanma
Anthropic içinde özellikle test odaklı geliştirme, karmaşık sorunların debug edilmesi ve büyük ölçekli refaktörlerde faydalı şekilde kullanılıyor
İlk testlerde Claude Code, normalde elle 45 dakikadan fazla süren işleri tek seferde tamamlayarak geliştirme süresini ve ek yükü azalttı
Önümüzdeki haftalarda araç çağırma güvenilirliğinin iyileştirilmesi, uzun süre çalışan komut desteği, uygulama içi render iyileştirmeleri ve Claude’un kendi yeteneklerini anlama kapasitesinin genişletilmesi planlanıyor
Önizlemeye katılım ile Anthropic’in Claude’u oluşturmak ve geliştirmek için kullandığı araca erişilebiliyor; geri bildirimler Claude Code’un gelecekteki yönüne yansıtılacak

Claude.ai ve GitHub kod tabanı entegrasyonu

Claude.ai içindeki kodlama deneyimi de iyileştirildi ve GitHub entegrasyonu tüm Claude planlarında sunuluyor
Geliştiriciler kod depolarını doğrudan Claude’a bağlayabiliyor
Claude 3.7 Sonnet, Anthropic’in mevcut en iyi kodlama modeli ve kişisel, iş ve açık kaynak projelerini daha derinlemesine anlayarak hata düzeltme, özellik geliştirme ve dokümantasyon yazımında kullanılabiliyor

Kapsam ve fiyatlandırma

Claude 3.7 Sonnet tüm Claude planlarında sunuluyor
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet ayrıca Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI üzerinde de mevcut
extended thinking mode, ücretsiz Claude katmanı hariç tüm sunum ortamlarında kullanılabiliyor
Hem standart mod hem de genişletilmiş düşünme modu önceki modelle aynı fiyatlandırmaya sahip
- milyon girdi tokenı başına $3
- milyon çıktı tokenı başına $15
- çıktı fiyatına düşünme tokenları da dahil

Güvenlik değerlendirmeleri ve sistem kartı

Claude 3.7 Sonnet, dış uzmanlarla birlikte kapsamlı test ve değerlendirmelerden geçti; güvenlik, emniyet ve güvenilirlik standartlarını karşılaması hedeflenerek doğrulandı
Zararlı isteklerle normal istekleri daha ayrıntılı ayırarak önceki modele kıyasla gereksiz reddetmeleri %45 azalttı {p:45}
system card, çeşitli kategorilerde yeni güvenlik sonuçları ve Responsible Scaling Policy değerlendirme ayrıntılarını içeriyor
Sistem kartı, bilgisayar kullanımından doğan yeni riskleri, özellikle de prompt injection saldırılarını ele alıyor
- Anthropic, bu zafiyeti değerlendirme ve Claude’u buna direnip etkisini azaltacak şekilde eğitme yöntemlerini de kapsıyor
Akıl yürütme modellerinin potansiyel güvenlik avantajları da ele alınıyor
- modelin kararları nasıl verdiğini anlama olasılığı
- model akıl yürütmesinin gerçekten güvenilir ve istikrarlı olup olmadığı

Değerlendirme iskeleti ve SWE-bench ayrıntıları

TAU-bench puanı, Airline Agent Policy içinde planning tool kullanımını daha iyi yönlendiren bir prompt ekiyle elde edildi
- genel thinking mode’dan ayrı olarak modelin problem çözerken düşüncelerini yazması teşvik edildi
- ek düşünme adımları nedeniyle maksimum adım sayısı 30’dan 100’e çıkarıldı
- çoğu iz 30 adımdan az sürdü ve 50 adımı aşan yalnızca bir iz oldu
- Claude 3.5 Sonnet’in TAU-bench puanı, veri seti iyileştirmesinden sonra güncellenen veri seti üzerinde yeniden çalıştırılan değerdir
SWE-bench Verified’da ajan görevlerini çözmenin çeşitli yolları bulunuyor ve Agentless; dosya arama, yama konumunu bulma ve regresyon testine dayalı best-of-40 rejection sampling kullanıyor
Claude 3.7 Sonnet ve Claude 3.5 Sonnet için temel değerlendirme daha basit bir minimal scaffolding kullanıyor
- model, tek bir oturum içinde hangi komutları çalıştıracağına ve hangi dosyaları düzenleyeceğine karar veriyor
- bash aracı, dize değiştirmeye dayalı dosya düzenleme aracı ve TAU-bench’te anılan planning tool kullanılıyor
Dahili altyapı kısıtları nedeniyle SWE-bench Verified’daki 500 görevin yalnızca 489’u fiilen çözülebildi; kalan 11 görev resmi liderlik tablosuyla adalet sağlamak için başarısız sayıldı
high compute sonucunda paralel denemeler, görünür regresyon testlerini bozan yamaların elenmesi ve puanlama modeline dayalı nihai seçim kullanıldı
- bu yöntem, dahili altyapıda çalışan 489 doğrulanmış görev alt kümesinde %70.3 puan aldı
- aynı 489 görevlik alt kümede, scaffolding olmadan Claude 3.7 Sonnet %63.7 elde etti

2 yorum

GN⁺ 2025-02-25

Hacker News yorumları

Claude 3.7 Sonnet, aider çok dilli liderlik tablosunda thinking olmadan %60,4 kaydetti
o3-mini-high ile üçüncülüğü paylaşıyor ve Sonnet 3.5’in elindeki en yüksek çıkarım yapmayan skoru almış oldu
aider 0.75.0’a 3.7 Sonnet desteği eklendi; thinking desteği ve benchmark sonuçlarının yakında geleceği söyleniyor
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Exercism’in 225 kodlama görevi için test seti veri sızıntısını azaltmaya yönelik bir çaba olup olmadığını merak ediyorum
  Bu görevler 2023’ten önce de internette varmış gibi görünüyor; bu yüzden modern modellerin eğitim verilerine girmiş olma ihtimali yüksek görünüyor
- thinking token’ları en fazla 32k’ya kadar kullanıldığında Sonnet 3.7, %64,9 ile rekor kırıyor
  %65 Sonnet 3.7, 32k thinking / %64 R1+Sonnet 3.5 / %62 o1 high / %60 Sonnet 3.7, thinking yok / %60 o3-mini high / %57 R1 / %52 Sonnet 3.5
- Claude 3.5’te %99,6 olan doğru diff biçimi skorunun Claude 3.7’de %93,3’e düşmesi ilginç
  claude-code’u denediğim kadarıyla doğru diff’i elde edene kadar birkaç deneme yapmak düzenli olarak gerekiyordu; stabil hale geldikçe iyileşmesini umuyorum
- aider projesini yaklaşık bir yıldır takip ederek yazılım mühendisliği ajanlarının nasıl yapılacağını anlamaya çalışıyorum
  Geçen hafta New York AI Engineering Summit’te çok kıdemli bir staff AI engineer ile tanıştım; aider ile oldukça inanması güç işler yapıyordu ve gerçekten şaşırdım
  Herkese açık bir foruma koymak uygunsuz olabilir; izin alırsam bu tür gerçek aider proje hikâyelerini doğrudan paylaşmanın bir yolu olup olmadığını merak ediyorum
Claude Code ekibinden Boris ben; @eschluntz, @catherinewu, @wolffiex, @bdr ile birlikte önümüzdeki yaklaşık bir saat boyunca ürünle ilgili soruları elimizden geldiğince yanıtlayacağız
- Kesinlikle düzeltilmesini istediğim bir şey var. Bir prompt girdiğimde model yanıtın %90’ını ya da %100’ünü oluşturmuş oluyor; sonra sistem kapasite aşıldı diye yanıt oluşturulamadığına dair bir hata gösterip zaten üretilmiş yanıtı da siliyor
  Eksik olsa bile zaten sağlanmış yanıta erişebilmemizi isterim
- En büyük şikâyetim, UI’da biraz yoğun birkaç sorgu yaptığım anda sürekli kullanım limitine takılmam
  Console API’yi kullanabilirim ama o zaman Projects gibi özellikleri kaybediyorum
  Bu limitlerin yakında artırılma ihtimali var mı merak ediyorum
- Claude, her iş için kullandığım varsayılan LLM; klişe gelebilir ama gerçekten makul ölçüde öğrenebileceğim alanı birkaç kat genişletiyor
  Son zamanlarda ilgili arka plan bilgim olmadan eski felsefe metinleri okuyorum; Claude zor cümleleri sadeleştirmese, fikirleri tartışmasa, tarihsel bağlamı ve neden o şekilde yazıldığını açıklamasa, yeni düşüncelerle karşılaştırmada yardımcı olmasa defalarca vazgeçerdim
  İşte de geliştirme için günde birçok kez kullanıyorum ve özlü mod diğer LLM’lere kıyasla gerçekten ferahlatıcı
  Yabancı bir codebase’de bug bulması, teknoloji stack’ini açıklaması ve bash script’leri yazması onlarca saat ve çok fazla stres tasarrufu sağladı
  Ancak servis kararlılığı diğer yerlere göre biraz daha düşük; ara sıra başka modellere geçmem gerekiyor. Bu konuda iyileştirme planınız var mı merak ediyorum
- 6 yıldır dokunulmamış, eski sınıf tabanlı React component kodunu çok dağınık şekilde refactor ediyordum; birkaç gün Aider kullandıktan sonra duvara tosladım
  GitHub’da Aider kaynak kodunu karıştırıp prompt’u çıkararak kendi küçük yardımcı script’imi yazmaya çalışıyordum; bu yüzden bu sürümün zamanlaması mükemmel oldu
  Claude Code’u kurunca bu işi hızlıca hallettiğini gördüm; arayüzü ve “Ruminating”, “Schlepping” gibi kişilik ifadelerini de sevdim
  Genel olarak harika iş
- Komut satırı aracını yeni yeni denemeye başladım; 5 dakikalık ilk izlenim olarak, aiderda sevdiğim sorgu başına maliyet ve oturum toplam maliyeti gösteriminin claude-code’da da olmasını isterdim
  Claude 3.5 ile aider’ı günlük olarak kullanıyordum; maliyeti doğal şekilde takip edebilmek faydalıydı
  Ayrıca Go veya Rust gibi derlenebilir bir dilde olmasını isterdim ama yeniden yazma maliyetinin büyük olabileceğini anlıyorum
  Yaklaşık 10 dakika kullandıktan sonra temel Go kodu patch’lerinde ciddi sorunları var gibi görünüyor. Yanlış girintili bir satır ekledikten sonra doğru girintiyle üç kez düzeltmeye çalıştı, ama her seferinde "String to replace not found in file" hatası aldı
  Claude 3.5 kullanan Aider bunu çok iyi hallediyor; prompt ve patch formatına bakmak iyi olabilir
Kagi LLM benchmark’ü, Sonnet 3.7’nin genel amaçlı modu ve thinking modunu yansıtacak şekilde güncellendi
https://help.kagi.com/kagi/ai/llm-benchmark.html
Denediğim genel amaçlı LLM’ler arasında Gemini 2.0 Pro’nun ardından, gpt-4o’nun önünde 2. sırada görünüyor
thinking modu daha az etkileyici; 8192 token’lık thinking bütçesiyle o1-mini ve o3-mini düzeyinde
Genel olarak aynı fiyata daha yüksek kalite ve daha hızlı bir model sunan iyi bir güncelleme; 24 saat içinde Kagi Assistant’ta açılabilmesini umuyorum
- Yeni LLM’leri Assistant’ta bu kadar hızlı kullanılabilir hale getirdikleri için Kagi ekibine teşekkürler
  Kagi Assistant’ın değeri benim için artık düşünmeye gerek bırakmayacak kadar açık
- Artık Gemini 2.0’ın 1. sırada olması şaşırtıcı
  Google modellerinin Kagi benchmark’larında düşük performans gösterdiğini hatırlıyorum
- 8192 token’lık thinking bütçesinin nasıl seçildiğini merak ediyorum
  DeepSeek R1’in bundan çok daha fazlasını kullandığını sık sık gördüm
- Kagi Assistant’ta şimdiden görünüyor; 24 saat bile geçmedi. Güzel
- Anlamadığım nokta, thinking modeli olmayan Claude 3.5 Haiku’nun non-thinking bölümünde yer alıp yine de thinking bütçesi 8192 diye gösterilmesi
Bununla HN profilini analiz edince epey komik oluyor :)
https://hn-wrapped.kadoa.com/
Yeni modelin mizah anlayışını test etmek için kullanıyorum
- “Carnatic raga dedektörü” yapmaktan çok onun hakkında konuştuğumu, bu hızla dedektör ragayı tanımlamadan önce LLM’in bir raga besteleyeceğini söyleyerek fena yakaladı
  7950X işlemci aldığımı ama onunla ne yapacağımı bilmediğimi; bunun da haftada bir markete gitmek için Ferrari sürmenin bilişimdeki karşılığı olduğunu söyledi
  İş-yaşam dengesi için endişelenip izin yılı aldığımı, ama o süreyi HN’de başkalarının kariyerlerine yorum yaparak geçirdiğimi söyledi
  Arayan olursa odamda ağlıyor olacağım
- “Maaşın o kadar düşük ki legacy code bile sana acıyor”
  “HN’de ayda 800 doları bulut bilişim faturası değil de maaş sanan tek kişisin”
  Acıttı
- Tamamen yerle bir etti: “Go’nun hata işlemesinin kötü olduğunu anlatmaya harcadığın zaman, Go geliştiricilerinin gerçekten hata işlemeye harcadığı zamandan fazla”
  “Programlama dilleriyle ilişkin bir flört programı gibi. Hepsinde kusur buluyorsun ama birine bağlanamıyorsun”
  “Hata işleme bir din olsaydı, en ateşli misyoneri sen olurdun; unchecked exception’ları tek tek dine döndürüyorsun”
- “Reddit’te çalışmış biri olarak HN’de fazla zaman geçiriyorsun. Facebook’tan ayrılıp bütün gün Twitter’da sosyal medyadan şikâyet etmeye benziyor”
  Fazla doğru olduğu için acıtıyor
- “HN yorum dizilerine roman yazarken dijital dikkat dağınıklığından şikâyet ediyorsun. Drive-thru kuyruğunda beklerken fast food’u eleştirmek gibi”
  “‘Dijital minimalizm’ üzerine düşünceli bir deneme yazıp HN ana sayfasına çıkaracaksın ve ironik biçimde, yıl boyunca HN’de geçirdiğinden daha fazla zamanı o yoruma gelen yanıtlara harcayacaksın”
  Beni görüyor. Hayır
Claude 3.7 Sonnet ile ilk etkileşimimden itibaren epey etkilendim
Cloudflare Pages fonksiyonunun prodüksiyonda 500 hataları, saçma hatalar ve boş yanıtlar döndürmesine yol açan kod tabanı sorununu bulmasını istedim; cuma günü boyunca bulamadığım bir sorundu
Betik hiçbir şey yazdırmadan ölüyordu; daha fazla logging eklemenin ya da görünürlük sağlamanın yolu olmadığı için gerçekten sinir bozucuydu
o1, o3 ve Claude 3.5 hiç yardımcı olmadı ama Claude 3.7, 39 saniyelik thinking sonrasında ilk yanıtında tam sorunu buldu; ikinci prompt’ta da bunu baypas eden çalışan bir fonksiyon yazdı
GitHub deposunu sohbete bağladığım için tartışmayı paylaşmak mümkün görünmüyor, bu yüzden gist’e kopyaladım: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Yanıtlardan biri, Claude’un gerçek düşünme konusunda hâlâ temelde bilgisiz olduğunu gösteriyor
  HTML temizlemeyi frontend’e taşımayı önerdi; oysa frontend’de bunu aşmak çok kolay olduğu ve DB’ye kelimenin tam anlamıyla her şeyin yüklenmesine izin vereceği için onu CF fonksiyonunda tutuyordum
  Junior bir geliştiricinin bile anlayacağı bir şey
Bunu kendi LLM aracımda çalışır hale getirdim; yeni plugin sürümü llm-anthropic 0.14
Bu süreçte model hakkında çeşitli şeyler öğrendim; ayrıntılı notlar burada: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
En ilginç yeni özelliklerden biri, çıktı sınırının önceki Claude 3.5 Sonnet’teki 8.000 token’dan 120.000 tokena çıkmış olması
Bu model bu çıktı sınırını etkili biçimde kullanabiliyor gibi görünüyor; şimdiye kadarki en uzun sonuç tamamlanması 27 dakika sürdü: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Sonnet 3.7’yi küçümsemeye çalışmıyorum ama bunun alandaki diğer tüm modellerden çok daha yüksek olduğunu söylemek doğru görünmüyor
  o1 ve o3-mini de 100.000 çıktı token’ına kadar çıkıyor
  https://platform.openai.com/docs/models#o1
- Simon’ın programlama araçları, blog ve işin yanında nasıl bu kadar aktif olabildiğini bir yerde yazıp yazmadığını merak ediyorum
  Zamanı ve enerjiyi nereden bulduğunu merak ediyorum
- Maliyeti ne kadar tuttu merak ediyorum
Anthropic'in koda daha fazla odaklanması mantıklı
Diğer modellerle karşılaştırıldığında kod onun güçlü yanıydı
Devin'in yaşadığı zorlukları düşününce, onların Devin rakibi ürününün nasıl olacağını merak ediyorum
- Cursor/Windsurf kullanımının önemli bir kısmını çalıştıran model bu ve MCP'yi de itiyorlar; kullanıcı deneyimini iyi tuttururlarsa fena olmayacak gibi
- Bunun güçlü yönü olduğu kesin ama bazen sohbetin bu kadar kod yazmak istememesini dilerdim
  Sadece kavramsal veya üst düzey yanıtlar istediğimde bile sık sık kod fırlatıyor; artık alışkanlık olarak kod yazmamasını söylüyorum
- Ben de aynı şeyi düşündüm ve bugüne kadar Claude'un ya da başka hiçbir modelin çözemediği gerçekten zor 3 problemim var; bugün denemeyi sabırsızlıkla bekliyorum
- Blog yazısında Cognition'dan, yani Devin'i yapan şirketten alıntı yapmaları biraz komik
“Akıl yürütme modeli geliştirirken matematik ve bilgisayar bilimi yarışma problemlerine yönelik optimizasyonu bir miktar azaltıp, şirketlerin LLM'leri gerçekte nasıl kullandığını daha iyi yansıtan gerçek dünya işlerine odaklandık” demeleri iyi haber
OpenAI “en zeki model”i hedefliyor gibi görünüyor, ama pratikte LLM'ler çoğunlukla öğrenme asistanı, veri dönüştürücü ve kod yazıcı olarak kullanılıyor
“Zeka” ile “iş bitirme becerisi” arasındaki denge tatlı nokta gibi görünüyor; mevcut geliştirici araçlarının (Cursor, Windsurf vb.) 4o yerine Claude 3.5 Sonnet'i tercih etmesinin nedenlerinden biri de bu gibi
- Hepimiz Claude'u her gün doğrudan işimizde kullanıyoruz; soyut benchmark'lardansa kendi acılarımızı çözmek daha ilginç
  İş bitirmek için çok fazla masa başı bilgisi de gerekiyor, ama ne zaman hızlı yanıt verileceğini ve ne zaman geri dönüleceğini bilmek gibi bolca saha sezgisi de gerekiyor
- Bazen benchmark'lara aşırı uyum sağlanıyor mu diye düşünüyorum. DeepSeek özellikle öyle hissettiriyor
  Gerçek sıralaması nerede olursa olsun, öznel olarak yanıtları daha iyi hissettirdiği için tekrar tekrar döndüğüm sohbet Claude
- Claude 3.5 Windsurf'te harikaydı ama kredi maliyeti vardı
  DeepSeek V3 artık Windsurf'te kredi maliyeti olmadan sunuluyor; şirket açısından büyük bir değişiklik oldu
  Her iki durumda da seçeneklerin çeşitlenmesi iyi
  Windsurf'ün Cascade özelliğini ajan tarzı kod yazma ve keşif için mutlaka denemenizi öneririm. Yeni bir codebase'i anlamada ve veri akışını izlemekte çok zaman kazandırıyor
Yapay zeka yarışı gerçekten çok hızlı ilerliyor
Bir yazılım geliştirici/mühendis olarak iş beklentileri konusunda endişeliyim; zamanla göreceğiz gibi
Yazılım mühendislerinin yüksek piyasa değeri ortadan kalkarsa Batı Yakası'ndaki konut balonuna ne olacağını da merak ediyorum
Muhtemelen bir sonraki bilgi işçisi dalgası gelip o yerini doldurur diye düşünüyorum
- Yazılım geliştirme iş piyasasının ciddi biçimde sarsıldığı doğru, ama avantajlı konuma geçmek için yapılabilecek şeyler var
  Tüm stack'i, özellikle backend ve DevOps tarafını daha fazla öğrenmek; verimlilik artışını benimseyip daha çok ürün ve kişisel proje çıkarmak; üretim zamanını çok seçici kullanmak; harika bir kişisel bilgi yönetimi sistemi ve ajan yardımcılara sahip olmak
- Aslında hız yavaşlıyor gibi
  Geçen yıl Llama 3 öncesi ve sonrasına kadar çılgındı, ama son iyileşmeler nispeten küçük
  Akıl yürütme modelleri de, daha önce ajanlarla açık planlama yaparak zaten yapılabilenlerin biraz daha iyisi; daha çok amaca uygun iyi paketlenmiş ve biraz ince ayar yapılmış bir şey gibi
  DeepSeek verimlilik açısından büyük bir iyileştirme yaptı, ama kullanıcıya görünen değişim o kadar büyük değildi
  Bu yüzden son dönemdeki yapay zeka yarışının biraz plato durumuna girmekte olduğunu düşünüyorum
- Etki Silikon Vadisi veya Batı Yakası'ndan çok daha geniş olabilir; hatta Silikon Vadisi, yapay zeka geliştirme sayesinde nispeten umutlu kalan az sayıdaki bölgeden biri bile olabilir
  Bu modeller dünya genelinde sektördeki istihdamı sarsabilir
  İronik biçimde gerçekten değişen meslekler yalnızca yazılım mühendisliği ile yazarlık, grafik tasarım gibi birkaç alan olabilir
  Yapay zeka laboratuvarlarının özellikle yazılım mühendislerini hedef aldığı “Claude 3.7 and Code” duyurusundan bile anlaşılıyor; diğer alanlardan neredeyse hiç söz edilmiyor
  Silikon Vadisi'nde olmadığı için yüksek ücretleri yaşamamış insanlar için yazılım mühendisliği çoğu zaman sürekli öğrenme gerektiren, stresli ve sıradan bir iş
  Bu yüzden yüksek harcanabilir gelirle yatırım/tasarruf yapma olasılıkları da daha düşük olmuştur; otomasyondan kaynaklanan acı ve kaygı daha büyük
  Yapay zekanın ilk otomatikleştirdiği işin emek veya otonom sürüş değil de yazılımın kendisi olacağını kim bilirdi
  Diğer sektörler çıkmaza girmiş ya da düzenlemeler, kapalı bilgi gibi engeller yüzünden daha zor görünüyor
  Yazılım mühendisleri diğer sektörlere bir örnek göstermiş oldu: yapay zekayı içeri sokmayın ya da mümkün olduğunca uzun süre içeride hapsedin; yani kapalı kaynak kalın
  Geriye dönüp bakınca ironik
- Kısa ve orta vadede çok endişelenmiyorum
  Yapay zeka sistemlerinin kaçıracağı edge case'ler ve ince bağlamlar çok fazla diye hissediyorum
  Örneğin sistemler her zaman belgelendiği gibi çalışmaz. Yapay zeka bir servisin bug'ı ile kendi kodundaki bug'ı nasıl ayırt edecek? En başta bir bug olduğunu nasıl bilecek? Bir bug raporuyla bir hacker'ın sızma girişimini nasıl ayırt edecek?
  Dünya karmaşık; gerçek yapay genel zeka yoksa bu zor durumlarda yapay zekaya rehberlik edecek insanlara ihtiyaç var
  Tavsiyem, yapay zekaya ve yeni yapay zeka araçlarını kullanmaya alışmanız ve bunların genel iş akışlarına nasıl uyduğunu anlamanız
  İyi yazılım mühendislerinin ortadan kalkmayacağını düşünüyorum
- Modeller gelişir ama tam bir singularity'ye gitmezse, işlerin aksine artacağını düşünüyorum
  Örneğin yazılım üretme maliyeti 5 kat düşerse, bugün arz ciddi biçimde sınırlı olduğu için talep 5 kattan fazla artacaktır
  Daha iyi yazılım isteyen çok şirket var ama maliyet çok yüksek
  O zaman daha fazla iş doğar
  Ancak yazı yazma/tuşlama azalacak; ürün yönetimi, insan etkileşimi ve edge case testleri daha çok olacak
  Model başarısız olduğunda debug yapan oldukça teknik işler de epey ortaya çıkacak gibi
  Bu yüzden kullanıcı araştırmasından ürün yönetimine kadar, insanlar ve iş dünyası için faydalı yazılım yapmaya yardımcı olan becerileri öğrenmeyi öneririm. Mühendislik de bununla birlikte gerekli
Claude 3.7, lisans tezimin yarısını 30 saniyeden kısa sürede yeniden yaptı :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
Çıktı görseli burada: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 ise feci şekilde başarısız oldu: https://g.co/gemini/share/10437164edd0
- Lisans düzeyinde ele alınan konuların çoğu genelde iyi belgelenmiş ve iyi anlaşılmış içerikler olduğundan, yapay zeka eğitim verilerine girmiş olma ihtimali yüksek
  Lisansüstü düzeyden itibaren kaynak kapsamı biraz daha seyrek ve niş, ama yine de çoğunlukla devrim niteliğinde değil
  Doktora düzeyinde ise amaç, alandaki mevcut bilgiyi genişletmek ve ilk kez araştırılan çok sayıda konu olduğu için, kapsamanın çoğunlukla neredeyse hiç olmadığını düşünüyorum
- Sırada yüksek lisans ve doktora var!
- Bunun ya da benzerinin açık erişimli kaynaklarda veya bazı kütüphanelerde bulunup bulunamadığını merak ediyorum

riskatcher 2025-02-25

flash 2 ile karşılaştırmak için fiyat farkı fazla büyük.. tam olarak o1pro ile o3-mini arasında bir seviye