OpenAI Codex gerçek kullanım incelemesi

(zackproser.com)

17 puan yazan GN⁺ 2025-05-21 | 3 yorum | WhatsApp'ta paylaş

OpenAI Codex, GitHub entegrasyonuna dayalı çok görevli bir kod ajanı olup, doğal dil üzerinden birden fazla işi paralel olarak yönlendirmeye imkân veren bir arayüz sunuyor
Kullanıcılar bir günlük işi hızla yükleyip dal oluşturma ve PR açma sürecini otomatik olarak devredebilir; ayrıca mobilde de kullanılabildiği için nihayetinde uzaktan çalışma odaklı iş akışlarını destekleyebilir
Ancak şu anda yetersiz hata işleme, tutarsız kod kalitesi, mevcut dalları güncellemenin zorluğu, sandbox ağ erişiminin kapalı olması gibi sorunlar nedeniyle büyük refactor işleri için uygun değil
Codex, küçük bakım işlerinin otomasyonu için faydalı ve tekrarlanabilir işleri hızlıca halletmede pratik
İleride model iyileştirmeleri, çoklu model karışımı ve gelişmiş entegrasyon özellikleri eklenirse üst seviye bir orkestrasyon aracına dönüşme potansiyeli taşıyor

OpenAI Codex nasıl çalışıyor

OpenAI Codex, sohbet tabanlı bir UI ile sunuluyor ve davet ya da aylık 200 dolarlık Pro aboneliği üzerinden erişilebiliyor
Kullanıcıların çok adımlı kimlik doğrulama sürecinden geçip Codex GitHub uygulamasını her organizasyon için onaylaması gerekiyor; ardından Codex depoyu kendi sandbox ortamına kopyalayarak komut çalıştırma ve dal oluşturma işlerini üstleniyor
Onlarca açık ve özel depoyu yönetiyorsanız, çok sayıda proje arasında geçiş ve iş kuyruğu yönetimi açısından oldukça verimli
Yalnızca 1-2 depo yönetiyorsanız, mevcut LLM ya da yapay zeka özellikli editörleri kullanmak daha hafif bir seçenek olabilir

Codex'in güçlü yönleri

Çoklu iş paralelliği ve arayüz
- Her iş için depo ve dal belirtilebildiğinden, bir günlük işi doğal dille paralel biçimde kaydetme akışı oldukça doğal hissettiriyor
- Codex çok sayıda işi aynı anda işlemeyi teşvik ediyor ve bu da yazarın çalışma alışkanlıklarıyla iyi örtüşüyor
Esnek iş akışı ve mobil destek
- Codex akıllı telefonda da mobil uyumlu çalıştığı için, ofis dışında da verimli çalışma ihtimali yüksek
- İşe başlarken birden fazla görevi kaydedip dışarıdayken de planlama ve ilerleme takibini sürdürmeye yönelik ideal bir kullanım senaryosu hedefleniyor
Sohbet tabanlı geri bildirim ve PR oluşturma
- Devam eden işlerin log ve durumunu sohbet arayüzünden kolayca görüntüleyebilir, ek talimatlar da verebilirsiniz
- Değişiklikler tatmin ediciyse Codex Pull Request (bundan sonra PR) oluşturuyor ve açıklamayı otomatik tamamlıyor
- Adım adım yürütme loglarını ve komut geçmişini görebilmek faydalı

İyileştirilmesi gereken noktalar

Yetersiz hata işleme
- İşin başlamaması ya da PR oluşturmanın başarısız olması gibi durumlarda net geri bildirim eksikliği, kullanılabilirliği düşürüyor
Kod kalitesi ve tek seferlik iş yürütme
- Codex modeli GPT-3 ailesine dayanıyor ve 12'den fazla dili destekliyor; ancak paralel yürütmede memnuniyet oranı ancak %40-60 civarında kalabiliyor
- Ufak bakım işleri için yararlı olsa da, büyük ölçekli refactor işlerinde tekrar tekrar PR üretmesi nedeniyle verim düşüyor
Dal içinde kesintisiz güncelleme desteğinin olmaması
- Mevcut PR ve dallara ardışık commit bağlamak zor olduğundan, çok aşamalı refactor işleri verimsiz kalıyor
- Şu anda Codex, tek seferde doğrudan aktarılabilen basit işler için daha uygun
Çalıştırma sandbox'ında ağ erişimi kısıtları
- Tasarım gereği harici ağ erişimi yok, bu yüzden paket güncelleme ya da bağımlılık yönetimi gibi birçok gerçek iş senaryosunda sınırlar ortaya çıkıyor
- Örnek: harici paket kurma isteği çalışmıyor
- Bu tür işler için hâlâ yerelde manuel çalışmak ya da mevcut botlara (Dependabot vb.) güvenmek gerekiyor

Did it unlock insane productivity gains for me?

Henüz patlayıcı bir üretkenlik artışı hissettirmedi
Codex'in gerçek bir üretkenlik devrimine dönüşebilmesi için
- Daha fazla işi tek seferde çözebilir hâle getirecek özelleştirme ve algoritma iyileştirmeleri gerekli
- Mevcut dal ve PR güncelleme akışının iyileştirilmesi
- Delegasyon ve entegre yönetim yeteneklerinin güçlenmesi ve çeşitli OpenAI API'leriyle entegrasyonun genişlemesi
- Codex'in üst seviye bir orkestratöre evrilmesi gerekiyor
Şu an Codex, rutin bakım ve küçük güncellemeleri otomatikleştirmede daha kullanışlı
Büyük ölçekli özellik geliştirme ve refactor işleri için IDE + LLM destekli iş birliği daha uygun

Final Thoughts

Codex sessiz ama umut vadeden bir araç
İleride olgunlaşacak özellikler düşünüldüğünde, işlerin başlangıç noktası ve koordinasyon aracı olarak konumlanma ihtimali yüksek
Şimdilik hafif ve tekrarlı işlere odaklanıp iyileştirmeleri bekleme zamanı

3 yorum

yangeok 2025-05-23

Görünüşe göre şimdilik 200 doları gözden çıkaracak bir hava yok.

GN⁺ 2025-05-21

Hacker News görüşleri

Plus abonesiydim ve Codex’i denemek istediğim için Pro’ya yükselttim ama açıkçası deneyimime göre sonuçlar biraz hayal kırıklığı yarattı.
UX de hâlâ tam oturmamış gibi geliyor ve sonucun ne kadar sürede çıkacağını bilememek insanı geriyor.
Codex’in asenkron yapısı sayesinde birden fazla işi aynı anda çalıştırabilmek yine de iyi tarafı.
Bir diğer şikayetim de, bu aracın gerçekten faydalı olabilmesi için ortamı ayrıca tanımlamak gerekmesi.
Test için gereken container’ları çalıştıramadığı için kullanışlılığı ciddi biçimde düşüyor.
Ortam tamamen internetten izole olduğu için kullanım alanı sınırlı.
ChatGPT’nin o3’ünün güçlü olmasının nedeni, web’i kullanarak bilgi aramasını da kendi başına yapabilmesi; Codex’te ise bu taraf zayıf.
Karşılaştırmak gerekirse Claude’u da sık kullanıyorum; GitHub reposunu kaynak olarak verip proje oluşturduğunuzda karmaşık React uygulamalarında yabancı olduğum bug’ları bile iyi buluyor.
Gemini de geniş context window’u sayesinde bu tür işleri iyi destekliyor.
Elbette OpenAI’nin neyi hedeflediğini de anlıyorum.
Codex’in gerçekten bir ekip arkadaşı gibi birden çok işi üstlenip çözmesini isterdim ama şu an için pull request’e fazla odaklanmış gibi.
Bu yüzden tekrar Plus’a düşürüp biraz daha beklemeyi düşünüyorum.
- Container desteğinin kesinlikle gerekli olduğunu düşünüyorum.
OpenAI’de çalışıyorum ama Codex ekibinde değilim; buna rağmen Codex’i çeşitli projelerde başarıyla kullandım.
Benim çalışma biçimim şöyle:
Her zaman aynı prompt’u birkaç kez çalıştırıp her seferinde farklı sonuçlar alıyorum.
Birden fazla implementasyonu karşılaştırıp en iyisini buluyor, prompt’u nasıl değiştirsem daha iyi sonuca yönlendirebileceğimi düşünüyorum.
Modelin yanlış yaptığı kısımları prompt’a düzeltme olarak ekleyip bunu tekrarlı biçimde uyguluyorum.
İşi böyle küçük parçalara bölüp paralel deneyleri tekrar ederek, çok büyük projeleri bile birkaç saat içinde yalnızca prompt ayarı ve kod incelemesiyle bitirebiliyorum.
Bu yaklaşım sadece API dönüşüm işlerinde değil, Triton kernel’ları gibi derin kodlarda da çok işe yarıyor.
- "Birden fazla implementasyon arasından en iyisini seçiyor ve prompt’ta neyi daha iyi yapmam gerektiğini düşünüyorum ki sonuç daha iyi olsun."
  Uzman olmayanlar için, neyin ‘en iyi’ olduğunu nasıl ayırt ettiğinizi merak ediyorum.
  Sonuçta doğru yönü bulmak için o alanda uzmanlık gerekiyor ve bence bu da LLM’lerin yazılım mühendisliği işlerini ortadan kaldıramamasının gerekçelerinden biri.
- Elinizle yaptığınız bu çalışma biçiminin aslında reinforcement learning (RL) için temel oluşturabileceğini düşünüyorum.
  UI tarafında bu deneyimi biraz cilalayıp gerçek veriye dönüştürseler güzel bir eğitim veri seti çıkabilir.
- Bunun, kodu doğrudan elde yazmaktan pratikte ne kadar daha hızlı olduğunu merak ediyorum.
- Prompt’u yeni baştan değiştirdiğinizde önemli bir şey değişirse o ana kadarki işi çöpe attığınız oluyor mu diye merak ediyorum.
  Küçük değişiklikler sonucu çok etkiliyorsa ve ortada önceden örnek de yoksa daha zor olmalı.
  Bu çalışma biçimi sürekli tekrarlandığında insanı yorabilir ya da özden uzaklaştırabilir diye düşünüyorum.
  Bana verimsiz gelebilir ama başkalarının bu tür tekrarlı işlere daha yüksek sabrı olup olmadığını merak ediyorum.
Ekibimde Codex’le ilgili bir değerlendirmeyi pod’da paylaşmıştım (https://latent.space/p/codex).
Tek seferde baştan sona kod üretmede çok güçlü bir model (pod’daki tespitime göre OpenAI SWE görevlerine uygun olacak şekilde özellikle oneshot için fine-tune edilmiş).
Buna karşılık entegrasyon tarafı zayıf (ör. browser entegrasyonu yok, GitHub entegrasyonu da eksik — her iterasyonda yeni bir pull request açtırması, mevcut branch’e devam commit’i atmayı zorlaştırdığı için can sıkıcı).
Yine de bu tür entegrasyonların zamanla iyileşmesini bekliyorum.
Saatte eşzamanlı 60 Codex instance çalıştırabilmek, Devin’le (eşzamanlı 5) ya da Cursor’la (arka plan agent’ı gelmeden önce eşzamanlı 1) karşılaştırıldığında niteliksel olarak farklı bir seviye gibi geliyor.
Codex modelinin performans farkını çok belirgin hissetmedim ama OpenAI Codex’in GPT-3’ten türediğini söylese de gerçekte o3 fine-tune’u.
- “o3 fine-tune” iddiasının kendisi bile kafa karıştırıcı olabilir.
  OpenAI’nin adlandırma kuralları da kafa karışıklığı yaratıyor; zaten bu sorun çoğu yapay zeka şirketinde var.
  Codex başlangıçta GPT-3 tabanlı eski bir modeldi, şimdi ise CLI ve araçlar dahil farklı yerlerde aynı isim yeniden kullanılıyor.
  Google da aynı şekilde “Gemini Ultra” adını hem model adı hem de abonelik ürünü adı olarak kullanıp kafa karıştırıyor.
- Benim için en rahatsız edici taraf ağ erişimi kısıtlaması.
  1. git fetch, upstream sync ve entegrasyon bug düzeltmeleri yapılamıyor
  2. dış kütüphaneleri yeni baştan çekip entegrasyon denemesi yapılamıyor
    Görünüşe göre setup script’te apt install bile çalışmasın diye domain’ler engellenmiş.
    Agent da kodun tüm bağlamını kavramaktan çok doğrudan git grep ile başlamaya meyilli (UI’da görünüyor), o yüzden pek etkileyici gelmedi.
- Claude Code ile karşılaştırınca hangi yönleri farklı, merak ediyorum.
Birden fazla repo üzerinde hızlı değişiklik yapabilme özelliğinin gerçekten harika olduğunu düşünüyorum.
Bir sürü örnek uygulamayı birlikte yönetiyorum; README formatını değiştirmek ya da linkleri güncellemek gibi işler 20’den fazla yerde tekrarlandığında gerçekten sıkıcı oluyor.
Bu tür angaryaları Codex’e bırakıp sonra sadece merge butonuna basabilsem çok mutlu olurum.
- Ben de tamamen aynı hissediyorum.
  Yakında o noktaya geleceğimizi düşünüyorum.
  Şimdilik küçük bakım işlerini Codex’e dağıtırken, büyük refactor’ları ya da kritik geliştirmeleri IDE içinde yapmaya devam ederiz gibi görünüyor.
Bu tür araçların, geliştirici olmayan kişilerin kod değişikliği yapmasında işe yarayıp yaramayacağını merak ediyorum.
İçerik değişiklikleri veya basit CSS düzenlemeleri gibi şeyleri gerçekten kendim yapmak istemiyorum; testi de görsel olarak kontrol edebildiğim için benim sadece code review yapmam yeterli olur.
Geliştirici olmayan biri ticket’a bakar, işi başlatır ve sonuç için sadece “bu iyi görünüyor” der; ben de gözden geçiririm.
Backlog’daki küçük bug’lar ve iyileştirmeler için ideal bir workflow gibi geliyor.
- AI Assist gibi araçların sonuçta en iyi low-code platformuna dönüşebileceğini düşünüyorum.
  Belki de bu şekilde yazılım mühendisleri gerçekten yer değiştirebilir.
- Ama içerik değişiklikleri bile çoğu zaman derin düşünme gerektiriyor.
  Ölçek biraz büyüyünce üst ve alt akış bağımlılıkları oluşuyor; tek bir field ekleseniz bile tüm sistemin bunu dikkate alması gerekiyor.
  CSS gibi küçük değişiklikler de önemsiz görünse de gerçekte ne kadar küçük olduğunu kullanıcının anlaması zor.
- Accessibility, çoklu platform (mobil/masaüstü) gibi sayısız mesele de yakında hızla öğrenilecek.
  Hatta bu akım, insanları yazılım mühendisliğine “inbound” eden bir huni gibi bile görünüyor.
Küçük işlerde %40~60 başarı oranı bence gayet iyi sayılır.
Daha karmaşık ve derin mantık gerektiren işlerde zorlandığını duymak faydalı oldu.
- Benim testlerimde, birazcık bile eleştirel düşünme gerektiren işlerde Codex tamamen dağılıyor.
  Şu anki performansı berbat bir junior engineer seviyesinde.
  Örneğin bir değişiklik istediğimde, compiler warning’lerini susturmak için bir sınıftaki değerleri topluca nullable yapmıştı.
  Yüzeyde çalışıyor ve derleniyor ama veri bütünlüğünü de ortadan kaldıran tamamen yanlış bir sonuç.
  Buna benzer örnekler epey var.
  Tüm codebase’i denetimsiz biçimde Codex’e bırakırsanız teknik borç hızla birikir diye düşünüyorum.
Codex’in biz başında yokken işi iyi yürütmesini sağlayacağı beklentisi bana fazla iyimser geliyor.
Birçok kişi için “başında yokken de etkili çalışıyor” fikri aslında “işsizler kuyruğu” ile çok yakın duruyor.
- Geliştiricilerin bu değişime sevinmesi bana başlı başına ilginç geliyor.
  Sanki bir gün sadece oturup agent’ların her şeyi yapmasını izleyerek para alacağız gibi bir yanılgı var ve bu bana şaşırtıcı geliyor.
  İş kolaylaşsa bile sonunda işlerin tamamen ortadan kalktığı bir yöne gidebilir.
- Üretkenlik artışı tarihinde çalışanların daha fazla boş zaman elde etmesi neredeyse hiç görülmüş bir şey değil.
  Sonuç genelde hissedar ve yönetici kazançlarının artması, kalan çalışanların iki kat iş yükü taşıması ve geri kalanların işsiz kalması oluyor.
- Kısa vadede işsizliğe kadar daha vakit var gibi düşünüyorum.
  Bu modellerin geniş bir görev yelpazesinde işleri %90~95 doğrulukla gerçekten yapabilmesi için muazzam emek gerekiyor.
  Sonuçta her şeyde ilk %60~70 kolay, son %5~10 ise gerçekten zor.
  Yukarıda da dendiği gibi, aynı işi birçok kez çalıştırıp farklı sonuçlar çıkarıp aralarından seçmek şu an çok daha maliyetli; bunu tüm işlere yaygın uygulamak isterseniz inference maliyeti de ciddi oluyor.
  Bir noktadan sonra code review, özellikle makinenin yazdığı kod için, zorunlu hale gelecek.
  Küçük projelerde ya da küçük özelliklerde makinenin yaptığı işe güvenilebilir ama uzun süre yaşayacak bir codebase ise insanların mimariyi kurmaya ve incelemeye devam etmesi gerekecek.
  Yapay zeka farklı yöntemleri daha hızlı keşfetmeye yardımcı olabilir ama son karar yine insanda kalır; kaliteyi korumak için doğrudan tasarım veya review şart olur diye düşünüyorum.
  Yakın gelecekte mühendislik ekipleri arka plan agent’larını aktif biçimde kullanmanın yollarını arayacak gibi görünüyor.
  Şu anki gibi her şeyi güçlü modellere outsource etme yaklaşımına şüpheyle bakıyorum.
  Bugünkü AI code review deneyimi epey sinir bozucu; daha iyi workflow’lara ihtiyaç var.
  Önümüzdeki birkaç yıl boyunca “arka plan agent” kavramı şirket bazında zorunlu bir Infra bileşeni haline gelebilir.
  Çoğu şirket muhtemelen bu agent altyapısını kendi host etmek yerine API üzerinden kullanacaktır.
  Agent tabanlı engineering altyapısı hâlâ çok erken aşamada olduğu için önümüzdeki 3~5 yılda yeni iş fırsatları da yaratabilir.
- Daha iyimser bakarsak, bir şeyi ne kadar ucuza üretebilirseniz (ör. kod), ona olan talebin de o kadar artabildiği durumlar var.
  Geliştirici olmayanlar yönetici rolüne kayabilir ama pratikte insanlar, iş ne kadar önemliyse o kadar güvenilir birine, yani insana, emanet etme eğiliminde oluyor.
- Yazılım geliştiricileri atlara, Codex ya da Claude Code gibi yeni model agent’larını da otomobillere benzetebiliriz diye düşünüyorum.
  Bazı atlar otomobil sürücüsü olur, bazıları ise artık araba çekmesine gerek kalmadığı için işsiz kalır; çerçeve buna mı benziyor diye merak ediyorum.
Desteklenen dillerin listelendiği derli toplu bir yer bulamadım.
Resmî tanıtımda ya da incelemelerde de doğru düzgün yer almıyor; çoğu sadece web sayfası yazım hatası düzeltme gibi örneklerden söz ediyor.
Bir haftada gptel-tool ile hızlıca yapılabilecek seviyede görünüyor.

horace 2025-05-27

Hizmetçi gibi kullanırsan işe yarıyor demek!

OpenAI Codex gerçek kullanım incelemesi

OpenAI Codex nasıl çalışıyor

Codex'in güçlü yönleri

Çoklu iş paralelliği ve arayüz

Esnek iş akışı ve mobil destek

Sohbet tabanlı geri bildirim ve PR oluşturma

İyileştirilmesi gereken noktalar

Yetersiz hata işleme

Kod kalitesi ve tek seferlik iş yürütme

Dal içinde kesintisiz güncelleme desteğinin olmaması

Çalıştırma sandbox'ında ağ erişimi kısıtları

Did it unlock insane productivity gains for me?

Final Thoughts

İlgili okumalar

3 yorum

Hacker News görüşleri