Şirket gibi para harcamadan evde yapay zeka ile kod yazmak

(stephen.bochinski.dev)

5 puan yazan GN⁺ 2026-06-15 | 2 yorum | WhatsApp'ta paylaş

Kişisel yapay zeka ile kod yazma maliyetini düşürmenin seçenekleri üçe ayrılıyor: self-hosting, açık kaynak model API kiralama ve frontier aboneliklerini optimize etme
Self-hosting, ekipman satın alıp açık kaynak modelleri yerelde çalıştırarak sonrasında token başına ücret ödememeyi sağlar; ancak başlangıç maliyeti yüksektir ve evde çalıştırılabilen modeller frontier laboratuvarlarının modellerinden daha zayıftır
Açık kaynak modelleri API ücretiyle kiralamak, GPU kurulumuna binlerce dolar bağlamadan, performans çıkarma işinden kaçınarak ve gelecek ay daha ucuz ya da daha iyi bir seçeneğe geçmeyi kolaylaştırarak öne çıkar
OpenAI ve Anthropic’in frontier abonelikleri aylık yaklaşık 400 dolar karşılığında liste fiyatına göre yaklaşık 2.800 dolarlık API kullanımını sağlayabilir; ancak büyük ölçekli AI-native iş akışları dahil tokenleri hızla tüketir
En uygun yöntem, frontier aboneliklerini zor muhakeme ve spesifikasyon yazımı için kullanıp açık kaynak API’leri küçük ve mekanik işler için kullanan karma bir stratejidir

Üç seçenek

Evde şirket düzeyinde harcama yapmadan yapay zeka ile kod yazmanın üç yolu var ve hangi yöntemin uygun olduğu büyük ölçüde önümüzdeki 1 yılda çıkacak donanım ve model yayınlarına ne kadar güvendiğinize bağlı
Self-hosting, ekipmanı kendiniz satın alıp açık kaynak modelleri yerelde çalıştırma yöntemidir ve sonrasında token başına maliyet oluşmaz
- Başlangıç maliyeti yüksektir ve evde fiilen çalıştırabileceğiniz modeller frontier laboratuvarlarının sunduğu modellerden daha zayıftır
- Ancak yavaş ve ucuz modellerin gece boyunca çalıştığı uzun süreli görevlerle ekipmanı sürekli değerlendirebildiğiniz durumda maliyet/fayda açısından anlamlıdır
- Çoğu insan için evdeki ekipmanı bu kadar sürekli yüksek yükte tutmak zordur ve bugün aldığınız donanım 1 yıl sonra kötü bir tercih gibi görünebilir
Açık kaynak model API kiralama, aynı açık kaynak modelleri sağlayıcılardan API ücretiyle kiralama yöntemidir ve çoğu insan için en uygun seçenektir
- Tek bir GPU kurulumuna binlerce dolar yatırmanız gerekmez ve açık modellerde uzun süreli çalışma performansı çıkarma zahmetinden kaçınırsınız
- Gelecek ay daha ucuz ya da daha iyi bir seçeneğe geçmek kolaydır ve ekipmanı yeniden satmanız gerekmez
- OpenRouter gibi servisler bu geçişi neredeyse tek satırlık bir değişiklik kadar kolay hale getirir
Frontier abonelik optimizasyonu, OpenAI ve Anthropic aboneliklerinden mümkün olan en yüksek verimi alma yaklaşımıdır
- Aylık yaklaşık 400 dolarlık planlarla liste fiyatına göre yaklaşık 2.800 dolarlık API kullanımı elde edilebilir; bu da limite ulaşana kadar büyük bir indirim etkisi yaratır
- Planlarda kullanım ölçülür ve büyük ölçekli AI-native iş akışları dahil tokenleri hızla tüketir
- İnsan tarafından doğrudan yönlendirilen işler için uygundur, ancak tüm gün çalışan ajanların motoru olmak için yetersiz kalır

En iyi çalışan kombinasyon

En iyi sonuç veren yaklaşım, frontier abonelikleri ile açık kaynak model API’lerini birlikte kullanmaktır
Birkaç frontier aboneliği zor muhakeme ve spesifikasyon yazımı için korunur, küçük mekanik işler ise açık kaynak model API ücretleriyle yürütülür
Spesifikasyon odaklı geliştirme kullanıldığında, pahalı modeller planı oluşturur ve ucuz modeller bu planın içini doldurur
Bu yaklaşım iyi uygulanırsa, 20 mühendisten oluşan bir ekibin bir ayda çıkaracağı üretim yaklaşık 1.000 dolara elde edilebilir

2 yorum

pencil6962 2026-06-19

Gerçekte ise ucuz bir model aboneliği almak yeterli. Metinde anlatılanlarla benzer bir şey söyleniyor.

GN⁺ 2026-06-15

Hacker News yorumları

Bir duraklama dönemine girmişim gibi hissediyorum ve bir sonraki seviyeye nasıl çıkacağımı bilmiyorum. Şu anda aylık 100 $'lık Codex planında sürekli 5.5-xhigh kullanıyorum ve bu yeterli görünüyor
Sonraki adımda ne yapacağımı düşünüyorum, chat oturumuyla isteği uygulama öncesi son ana kadar somutlaştırıyorum, ardından Codex commit bazlı işi halledince yerel geliştirme sunucusunda kısaca kontrol ediyorum. Gerekirse düzeltme istiyorum, sonra commit attırıyorum ve spesifikasyona göre bir sonraki adımı önermesini istiyorum. Zaten ara sıra sandbox dışı istekleri “onaylamam” da gerekiyor
Gece boyunca çalıştırmaya değecek bir iş henüz bulamadım. Büyük bir planı tek seferde yaptırmak mümkün olabilir ama ara çıktıları biraz farklı isteme durumu sık yaşandığı için bu bana israf gibi geliyor
Sıradaki adım olarak Codex GUI isteklerini tünelleyebileceğim bir makine VM'i gibi bir şeye bakmam gerekecek sanırım. Tüm Mac'ime “tehlikeli” erişim izni vermek istemiyorum
İnsanların yan projelerde ne yaptığını, token'ları nasıl bu kadar hızlı yaktığını ve neden aylık 200 $'lık iki aboneliğe ek olarak ekstra token ücreti gerektiğini anlamıyorum
- Bunun nedeni probleme bir mühendis gibi yaklaşman ve bir “influencer” ya da “10x geliştirici” gibi yaklaşmaman. Yani bunu mühendislikle çözülecek bir problem olarak görüp yapay zekayı sadece bir araç olarak ele alıyorsun. Benim deneyimime göre bir mühendisin saatlerce gözetimsiz yapay zeka kod üretimi gerektiren problemi neredeyse hiç olmuyor
  Yapay zekanın saatlerce durmaksızın çalışmasının az da olsa mantıklı olduğu yalnızca tek bir durum gördüm. İçinde beş firmware imajı bulunan bir widget'ı tersine mühendislikle inceliyordum; binary'leri dump edip yapay zekaya birbirine bağlı firmware projelerini decompile ettirdim ve tersine mühendislik yaptırdım. Karmaşık ama kapsamı son derece iyi tanımlanmış bir işti. Zor bir işten çok hacimli bir işti ve çıktı, doğrudan derlenebilir bir şey değil, bilgi amaçlı C benzeri metin yığınlarıydı. Çıktının kalitesi büyük ölçüde girdi assembly'sine bağlıydı ve toplam çıktı kod biçiminde bir dokümantasyondu
  Risk sıfır olduğu için yapay zekanın bunu gözetimsiz şekilde istediği kadar işlemesine hiç çekinmeden izin verebiliyordum. Yine de yapay zeka assembly'yi tanıyabileceğim bir C projesi biçimine sokunca benim okumam ve akıl yürütmem çok daha kolay oluyor. Bence kolay bir kazanım
- Uzman olmayan kişilerin yapay zekayla bir şeyler yaptığı epey video izledim; 12 saatlik işleri yakan insanlar kelimenin tam anlamıyla çıktıyı bile okumuyor ve ne yaptıklarını anlamıyor
  Bir program yapmasını istedikten hemen sonra, ortaya çıkınca doğrudan yapay zekaya nasıl çalıştırılacağını soruyorlar. Hata çıkarsa yapay zekaya neyin yanlış olduğunu soruyor ya da her şeyi çöpe atıp modeli/harness'ı değiştirerek baştan deniyorlar
  Bir örnek: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
  Bu, senin anlattığın profesyonel iş akışından tamamen farklı. Daha çok tüketiciye yönelik bir oyuncak gibi
- Claude'u aylık 20 $'lık plana düşürdüm ve şimdi neredeyse sadece web chat için kullanıyorum. Kodlama için ise Claude Code üzerinde DeepSeek'i API ücretlendirmesiyle kullanıyorum
  320.000.000 token için yaklaşık 4,8 $ harcadım. Claude planını kullanırken, fiyatı haklı çıkarmak için LLM'in sürekli bir şey yapıyor olması gerektiği baskısı vardı. DeepSeek'e geçince artık böyle düşünmüyorum. Aboneliği kullanmıyor olsam bile suçluluk hissetmiyorum ve limitleri de dert etmiyorum. Çünkü gerekirse daha fazla öderim. Özellikle saatlik sınır olmaması paralel çalıştırma tarafında büyük fark yaratıyor
- “Sonra ne yapacağını düşünmek”, gerçekten iş üretmeye çalışan herkesin keşfettiği asıl darboğaz. Sistem benim düşünme hızımı yakalayabiliyorsa iyi gidiyor demektir
  Daha fazla token satın almak düşünme kapasiteni “level atlatmaz”. Daha otomatik şeyler çalıştıranlar muhtemelen kendi düşüncelerinin önüne geçmiş oluyor ve sonunda bu da onları yavaşlatacaktır
- Aylık 200 $'lık Codex ile çocuklar için eğlence ve merak amaçlı oyunlar yapıyorum. Geliştiriciyim ve oyun oynadım ama hiç oyun geliştirmedim. Gece boyunca süren işler de var; ama bunların çoğu “benim 3D asset pipeline'ımla ilgilenip bir şeyler eklemek için zaman harca” türünden
  RTX 5090 üzerinde Trellis2 -> ultrashapes -> Trellis2 -> rigging bağlantısı ve animasyon kurulumunu çalıştırıyorum
  Ama o işin %99'u aslında Codex'in çıktıyı beklemesi. 12 saat çalışsa da çoğu sadece bolca sleep ayarlamaktan ibaret. Token'ları hiç tamamen bitirmedim. Aylık 100 $'lık Codex'te 10 ajanı aynı anda çalıştırıp asset pipeline'ı çılgın gibi kodlayınca yaklaşık 3 günde haftalık limite takıldım ve yükseltme yaptım. Aylık 200 $'lık planda kredi 4 kat olduğu için henüz sınıra çarpmadım ve rahatça yüklenebiliyorum
“Başlangıç noktası self-hosting. Bir makine satın alır, açık kaynak modeli lokalde çalıştırırsan sonrasında token başına ücret ödemezsin” deniyor ama elektrik faturası bedava değil
Bana göre bu, sonuçta gizlilik için bir prim ödemek anlamına geliyor ve benim için buna değer
- Tam da yeni bir dizüstü bilgisayara ihtiyacım vardı ve ilgilendiğim başka şeyleri yeniden derlemek için yeterince hızlı olan ikinci el M1 Max'i bir arkadaşımdan oldukça ucuza aldım
  Bu yüzden benim durumumda ek donanım maliyeti yok. Çünkü bu bir ikame alımdı
  Evde bu cihazda yapay zeka modeli çalıştırmak benim tercihim ve gerekirse OpenRouter kullanırım
  Bu yazıdaki ekonomik hesabın doğru olduğunu kabul ediyorum. Ama sevdiğimiz işi yapan makinelerin bakımını üstlenen insanlara dönüşmenin sonucu bana fazlasıyla hüzünlü geliyor. Uzun vadede bu tür ince farkları tartmanın anlamlı olup olmayacağını da bilmiyorum
  Hayatımda yaptığım hata—artık biraz yaşlandığım için fiilen düzeltmesi zor olsa da—işten yeterince tatmin almaya devam edersem bunun başka kişisel tatmin eksikliklerini telafi edebileceğine inanmış olmamdı. Sevdiğim ve iyi olduğum bir işle insanlara doğrudan yardım edebilmeyi hep sevdim; bu da geleneksel bir aile hayatı kurmanın zorluğundan doğan üzüntüyü bastırıyordu
  Bu keyfi her zaman yeni yollarla bulabileceğimi sanmıştım ama insan emeğine doğru yeniden ek bir kayma olmazsa, kendi ekipmanımla kendi yöntemimle bunları keşfetmenin bu küçük keyfi bile yeterli olmayacak
  Kendi ellerimizle kurduğumuz dünya kasvetli. Bu günlerde onun içinde daha da yaşlanmaktan korkuyorum
- Mevcut nesil kartların en az 5 yıllık bir ömrü olabileceğini düşünüyorum. 3090 da 24GB RAM sayesinde hâlâ kullanılabilir, çünkü birkaç yıl boyunca ev tipi makine öğreniminde sınırlayıcı etken doğrudan bellek oldu
  6000 alırsan 7-8 bin dolar tutar ama yeniden satış değerinin oldukça iyi kalması muhtemel. 3090 bile hâlâ tavsiye edilen satış fiyatının %50'sinden fazlasına gidiyor. LLM yapmasan bile “geleneksel” evrişimli sinir ağı görsel model eğitimi için ilginç bir değer önerisi sunuyor. 96GB ile muazzam batch size'lar kullanılabilir. Yükseltmenin en büyük nedeni watt başına performansın neredeyse iki katına çıkmış olması. Örneğin 4000 Pro Blackwell, benzer performansta 3090'ın yaklaşık yarısı kadar tüketiyor
  İnsanlar sermaye harcamasının sanki tamamen yok olup gittiğini varsayma eğiliminde ama RAM örneğinde gördüğümüz gibi, gerekirse elden çıkarılamayacağından emin olmamak daha iyi
- Güneş panelin varsa aslında bir ölçüde neredeyse bedava sayılabilir. O zaman gündüz saatlerinde özel AI hesaplama fiilen daha ucuz oluyor denebilir mi diye düşünüyorum
- Donanım maliyetine daha fazla para ödemek de ek maliyettir
  Hesapladım ve gizlilik dışında mantıklı gelmedi. Yine de yaptım. [0]
  0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- “Elektrik bedava değil” ifadesi üzerine ilginç bir düşünce deneyi var. AI'ın bir günde yapacağı şeyi benim bütün gün uğraşıp yapmam gerekirse, elektriği daha çok hangimiz tüketmiş oluruz?
  Sırf güç tüketimi açısından başa baş noktası nerede olurdu?
İnsanların nasıl bu kadar para harcadığını gerçekten anlamıyorum
Aylık 60$’lık Cursor planını otomatik modda kullanıyorum; haftada 4 gün bütün akşamı planlama ve kodlamaya ayırsam bile dahil olan kullanım sınırına hiç yaklaşmadım
Farklı olarak ne yapıyorlar da maliyet bu kadar yükseliyor?
İsteğe bağlı kullanım mı açıyorlar, başka ücretli modeller mi kullanıyorlar, yoksa daha yüksek modları mı etkinleştiriyorlar? Bunların neden gerekli olduğunu bilmiyorum. Benim üzerinde çalıştığım işlerde Auto çıktısı deli gibi iyi ve hâlâ yeterince iyi yapamadığı bir sorunla karşılaşmadım
Şirkette ekip uyumu mülakatları yapıyorum; adaylar mevcut işlerinde tokenlara ayda 2 bin dolar harcadıklarını söylüyor. Bunun nasıl mümkün olduğunu gerçekten hayal edemiyorum
- Claude enterprise planı, tüketici planından 30-40 kat daha pahalı
  Küçük bir startup’ta Max planına ayda 200$ harcıyordum. Şimdi aynı kullanım için Claude enterprise’a ayda birkaç bin doların alt sınırlarında ödüyorum
  Anthropic, tüketici kullanımını sübvanse ederken kurumsal müşterilere veri saklamama (ZDR) için gayet iyi bir marj ekleyip fiyatlıyor
- Ajanlara geniş erişim izinleri ve etkili geri bildirim döngüleri verebilirseniz, benim sadece yön vermem ve nihai çıktıyı kontrol etmem yeterli oluyor
  Örneğin tarayıcıya, loglara, metriklere, GitHub’a ve CI loglarına erişebilen bir ajana yeni bir özellik geliştirmesini söyleyebilirim
  Slack’te birkaç bug raporu varsa birkaç ajan daha başlatırım. PM UI değişikliği istiyorsa bir ajan başlatırım. Geliştiricilerin yaptığı işlerin çoğu aslında çok karmaşık değil; ben sadece son PR’ı inceler, bir takım arkadaşına yapar gibi yorum bırakırım. Sonra ajanım gidip o yorumlara göre düzeltme yapar ve yeni inceleme ister
  Bu sırada ben gerçek dikkatimi daha ağır özelliklere, tasarım dokümanlarına, veri analizine vb. ayırabilirim
  Kişisel kullanım için ayda 300$, işte ise birkaç bin dolar harcıyorum. Ajanlar gerçekten üretkenliği değiştirebilir ve maliyetlerine fazlasıyla değer
  Şirket açısından mesele, ayda birkaç bin dolar ödemek mi yoksa toplam maliyeti yıllık yüz binlerce doları bulan bir mühendis daha işe almak mı sorusu. Şu anda benim için en az 2 kat çarpan sağlıyor
- Belki de o insanlar sadece deli seviye prompt becerilerini sergilemeye çalışıyordur. Sanki gururu olan bir mühendis ayda 2 bin doların altında harcıyor gibi görünmek ister mi
  Böyle insanlarla etkileşimin bağlamına bakınca, epey tuhaf bir soruya verilecek en basit cevap bu gibi duruyor. Kredileri bilerek boşa harcamadıkça ayda 2 bin dolar harcamak mümkün bile görünmüyor
- Katılıyorum. Ama bu insanların önemli bir kısmı kendi özel talimatları/kuralları/yetenekleri/özellikleri hakkında da çok konuşuyor. O zaman daha başlamadan bağlam penceresinin büyük kısmını tüketmiş oluyorlar
  Ben AI kullanırken sadece saf aracın kendisini kullanıyorum ve bağlam olarak yalnızca üzerinde çalıştığım tam kodu veriyorum. Amacım, bunun belirli bir sorunu çözmeye yardımcı olup olmayacağını görmek; kod tabanının geri kalanını zaten yeterince anlıyorum, dolayısıyla verilen cevabın iyi mi kötü mü olduğunu değerlendirebiliyorum
- Birkaç sebep var. 1) Prompt’u yeterince hassas yazıp kapsamı daraltmazsan ajan tüm kod tabanını taramaya başlayabiliyor, aynı yerlere tekrar tekrar bakıyor ve sonunda tıkanabiliyor. 2) Çıktıyı her seferinde kontrol etmeseniz de çoğu zaman sorun olmuyor ama bazen meseleyi anlamayıp çöp üretiyor; kodu okuyup sorunu teşhis etmezseniz sadece prompt’la çıkış yolu bulamıyorsunuz. Otomatikte bırakırsanız token yakıyor
  Düşük seviyeli şeyler bile ajanı tökezletebiliyor. Az önce, bir fonksiyonun bool dönüş değeri istemesiyle ilgili hatayı garip bir şekilde yanlış okumamak için aynı şeyi 10 farklı varyasyonla denedi; ben durdurdum. Yetenekler de sorun çıkarabiliyor. Örneğin izin verirseniz kullandığınız kütüphanenin kaynak kodunu okumaya bayılıyor. Bu da tavşan deliği
Eğer “başlangıç maliyeti yüksek ve evde gerçekten çalıştırabileceğiniz modeller önde gelen araştırma laboratuvarlarının sunduklarından daha zayıf olduğu için, ancak yavaş ve ucuz bir modelin gece boyunca uzun süreli işleri öğüterek donanımı sürekli meşgul edebildiği durumda avantajlıdır. Çoğu kişi evdeki makineyi bu kadar sürekli yük altında tutamaz ve bugün aldığınız donanım 1 yıl sonra kötü bir bahis gibi görünebilir” deniyorsa, bu evde AI coding yazısı değil, evde vibe coding yazısıdır
Bu yazının birçok kısmına katılmıyorum. Bu yorumu GPUsuz 64GB RAM’li bir ev bilgisayarında yazıyorum ve çok az para harcayarak bol bol AI coding yapıyorum
Ollama ile Gemma 4 26b (mixture-of-experts) ve Qwen 3 coder çalıştırıyorum. Github Copilot kod tamamlama kullanıyorum, ayrıca Gemini ve Mistral API’nin ücretsiz katmanlarından yararlanıyorum. Ücretli bir Gemini API hesabım da var ama artık ön ödemeli olduğu için yanlışlıkla 1000$’lık fatura gelmesinden korkmuyorum. Gemini Flash Lite 3.1 ile de oldukça çok iş yapılabiliyor
Bunların hiçbiri token yakıp pahalı bir spagetti kod yığını üretmiyor ama kesinlikle AI coding kapsamına giriyor
- Ben de benzer hissediyorum. 64GB RAM ve 24GB 5090 olan bir makinede Qwen 3.6 35B A3B kullanıyorum. Neyse ki insanlar önümüzdeki 3 yılın bilgisayarlarını aptalca ön sipariş edip her şeyi mahvetmeden yaklaşık 15 saniye önce Alienware 16 Area51’i aldım
  Bununla “slop topu” tarzı vibe coding yapamıyorum ama zaten bu, spagettiye dönüşmesini istemediğim kişisel kodum olduğu için vibe coding yapmak istemiyorum. Benim istediğim şey, Stack Overflow ve Reddit yazılarını sohbet kutusundan anında arayabilmesi, TypeScript kodunu gerçekten yazmak zorunda kalmanın fiziksel acısını azaltması ve belirsiz Docker sorunlarında sonsuz debug eziyetini hafifletmesi. Ben bir backend geliştiricisiyim; frontend için sabrım eksilerde ve Docker’ı sevmeme rağmen sinir bozucu sorunlarıyla bitmeyen tuhaflıklarına da sabrım yok. Bu model bunu çok iyi yapıyor
- Bir süre sürekli çalıştırılabilecek işler kesinlikle var. Vibe coding ile insan katılımlı coding rutinleri arasındaki ayrımın, iş akışları doğrulandıkça ve modeller daha akıllı, daha ucuz hale geldikçe bulanıklaşacağını düşünüyorum
  Tanıdığım en iyi mühendislerin çoğu bu yıl vibe coding’e çok daha fazla geçti. Bugünlerde imkânlar çok daha iyi
DeepSeek platform API’sini doğrudan kullanmak ve V4 Flash modelini Opencode gibi bir harness’e bağlamak bile fazlasıyla tatmin edici. Birkaç haftada sanırım yaklaşık 10 $ harcadım
Self-hosted modellere de baktım ama şu anda donanım fazla pahalı
- Opencode Go kullanıp yalnızca DeepSeek Flash kullanırsan daha uzun gider gibi görünüyor. Token olarak 65 $ değerinde ama aylık ödeme olduğu için hepsini kullanmak gerekiyor; bu yüzden kullanım azsa DeepSeek’i doğrudan çağırmak daha ucuz
  İlk ay 5 $, sonrasında 10 $ ve istediğin zaman iptal edilebiliyor. Yeni e-postayla sürekli indirim de alınabiliyor
- Yani doğrudan DeepSeek üzerinden mi kullandığın anlamına mı geliyor? Benim anladığım kadarıyla doğrulamadım ama başka AI operatörleri DeepSeek modellerinin bir kısmını daha ucuza sunuyordu
  Yine de ilginç. O fiyata tam olarak ne alıyorsun? Sadece kodlama mı, yoksa mesela görsel üretimi de dahil mi merak ediyorum
Evde insanlar ne yapıyor acaba? Aylık 20 $’lık Claude planıyla yaklaşık 5 uygulama kodluyorum ve elbette hız sınırına takılabiliyorum ama 3 bin $’lık token yakmak için ne yapmak gerektiğini bilmiyorum
- Duruma göre değişir ama otomasyon aylık 100–200 $’lık planı çok hızlı tüketiyor ve sadece token’larla binlerce dolar yakıyor
  Saatlik çalışan müşteri destek sorunlarının kök neden analizi, log analizi gibi günlük otomasyonlar, KPI takibi ve uygulaması için haftalık/aylık otomasyonlar var
  Yan proje yaparken 1) kapsam oldukça iyi tanımlanmıştı ve 2) kullanıcı ya da otomasyon ihtiyacı yoktu; bu yüzden aylık 20 $’lık plan sınırında kalmak çok daha kolaydı. Şimdi ise haftalık sınıra sık sık takılıyorum ve birden fazla Max plana ihtiyaç duyuyorum
- Ben de aynıyım. Aylık 20 $ yetiyor ve her gün kod yazmak için kullanıyorum
  Token yakanlar sanki birden fazla alt ajan, yüklenmiş 50 skill, 40 MCP aracı gibi kurulumlar kullanıyor. Bunlar her turda bağlamı dolduruyor
- Ben de benzer durumdayım ama hâlâ düşünmenin epey kısmını kendim yapıyorum ve AI’ı sadece doğrudan yapmak istemediğim sıkıcı işleri hızlandırmak için kullanıyorum; o yüzden sınıra daha az takılıyor olabilirim
  Evdeki kişisel projeler için özellikle çok iyi oldu. Şirkette bütün gün sıkıcı işlerle uğraştıktan sonra, yan projenin tekrar eden işlerini de yapmak zorunda kalmayınca üzerinde çalışmak çok daha fazla içimden geliyor
  Evde binlerce dolarlık token yakanların çoğu muhtemelen büyük bir çöp yığını üretiyordur
- “3 bin $’lık token yakmak için ne yapıyorsun?” sorusunun kısa cevabı: çöp üretmek
  Kodlamanın çoğu klavye, IntelliSense ve biraz kod üretim şablonuyla hızlıca yapılabiliyor
  Ama insanlar AI’ın her şeyi yapmasına bağımlı hale geldi ve şimdi tech bro’lar uyuşturucu satıcısı gibi sıkmaya başladı
Birkaç ay önce NVIDIA DGX Spark için yaklaşık 4.000 $ harcadım. 128 GB birleşik RAM ve NVIDIA GB10 çipi var
RAM, çok sayıda CPU çekirdeği ve 4 TB NVMe SSD sayesinde GPU olmasa bile oldukça yetenekli bir ARM64 Linux bilgisayar; şimdiye kadar çoğunlukla bu şekilde kullandım. Ama bu donanımda iyi çalışabilecek, özellikle kodlama için en güçlü modelin hangisi olduğunu merak ediyorum
- Şu an Ars için yazdığım Spark yazısı adına araştırma ve test yapıyorum; bu süreçte Qwen3.6-35B-A3B (nvidia/Qwen3.6-35B-A3B-NVFP4) modelini planlama ajanı, Qwen3-Coder-30B-A3B-Instruct’in FP8 sürümünü (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) de kodlama ajanı olarak kullanan 2 LLM ajanlı bir kuruluma tesadüfen ulaştım
  Çıkarım motoru olarak vLLM’de kaldım ve Opencode ile 2 ajanlı döngüyü birbirine bağladım
  Qwen3.6-35B-A3B planlayıcısı saniyede yaklaşık 50–55 token hızında gayet iyi çalışıyor, Qwen3-Coder-30B-A3B-Instruct kodlayıcısı ise yaklaşık 30–35 token veriyor. İki ajan da açık ve iş bekler haldeyken RAM kullanımı 128 GB’ın yaklaşık 112 GB’ı oluyor
  Oldukça iyi. 1980’lerden MS-DOS oyunlarını disassemble ettirerek kurcalıyorum; bu kurulum da böyle işlere çok uygun. Dünyanın en hızlısı değil ama planlayıcının bağlam penceresini 256k token, kodlama ajanını ise 128k yapınca oldukça uzun görev listelerini birbirlerine paslayıp şikâyet etmeden hallediyorlar. Tek gerçek sorun, prompt’u çok dar tutsam bile kodlama ajanının LSD almış gibi halüsinasyon görmesi. Ama planlama ajanı bu halüsinasyonları iyi yakalıyor ve görevleri yeniden bölüp kodlayıcıya geri veriyor gibi görünüyor
  Harika. Birkaç ay sonra inceleme cihazını geri vermem gerektiğinde üzüleceğim gibi
  Ek olarak Antirez’in ayarıyla (https://github.com/antirez/ds4) Deepseek v4 Flash’ı da denedim; oldukça mükemmel ve çalıştırması da gerçekten çok kolay. Ama Spark üzerinde saniyede yaklaşık 14 token ile epey yavaş. Ayrıca iki Spark’ınız yoksa aynı anda yalnızca bu tek modeli çalıştırabilirsiniz. Tüm RAM’i tüketiyor
- https://www.canirun.ai/?status=tight bu soruya cevap verebilir
- Deepseek v4 flash, boyutuna göre şaşırtıcı derecede güçlü ve o donanımda da iyi çalıştığı söyleniyor
- Bunu henüz bilmiyorken “onu bu şekilde kullanıyorum” diyorsan, yazı galiba “birkaç ay önce bir oyuncağa 4 bin $ çöpe attım” diye başlamalı
- DeepSeek V4 Flash, anlattığın donanımda iyi çalışan çok yetenekli bir kodlama modeli. Özellikle yerel kullanım için optimize edilmiş bir sürümünü bulman yeterli
Bana göre doğru yol, donanıma yatırım yapmak gibi görünüyor
Kodlamayı neredeyse 24 yıl önce öğrendim ve hâlâ yeni şeyler öğrenmeye devam ediyorum. Bu süre boyunca yeni şeyler öğrenmek ve üretmek için hiç abonelik modeline bağımlı olmak zorunda kalmadım
LLM'ler ve ajanlar en azından önümüzdeki birkaç yıl boyunca kodlama ve yazılım geliştirmenin temel araçları olacaksa, Halo Strix PC gibi bir donanıma $2000~3000 yatırım yapmak gayet doğal bir tercih gibi görünüyor
- Acaba hurdaya çıkmış donanımlarla “bedava” bir seçenek olabilir mi diye düşündüm
  Elimde 2018 civarı bir ürün olan bir GTX1080ti var; kullanmıyorum ve zaten yıllar boyunca parasını fazlasıyla çıkardı, yani şu anda donanım maliyeti 0
  Gemma e4b multimodal, qwen 3.5 8b ve qwen 4b embedding modelini yeterince iyi çalıştırıyor. LLM tarafında saniyede 40 tokenın üstüne çıkıyor
  Yük altında prizden 350W çekiyor, güç tasarrufu modunda 3W, boşta ise 80W. Elektrik ücreti kWh başına £0.035 ve bu da Birleşik Krallık için ucuz sayılır. Çünkü yükü ev bataryasına kaydırıyorum
  144k çıktı tokenı yaklaşık 1 peni tutuyor ve teoride bu bir saat sürüyor
  Bedava donanım ve normal elektrik fiyatının yaklaşık 10 kat altında elektrik olsa bile, çok daha güçlü deepseek v4 flash modelini kullanmaktan ancak biraz daha ucuz oluyor
- Hem doğru hem değil. Donanımın bir kilitlenme etkisi var. 128GB birleşik bellekten memnunum ama şimdi aldığım zamankinden daha pahalı görünüyor, bu da beni biraz endişelendiriyor
  Anthropic hakkında Beyaz Saray'ın son hamleleriyle, iyi yeni nesil modelleri düzgün çalıştırmak için 128GB üstünün gerekebileceği gerçeğini birlikte düşününce gelecek adına çok iyi sinyaller vermiyor
  Lokali küçümsemiyorum. Ben de öyle kullananlardan biriyim ve abonelik de kullanıyorum, ama ödünleşimleri açık gözle görmek gerek
- $3k ile frontier model seviyesinde performans alamazsınız. Sadece GPU değil tüm PC için harcayacaksanız, ancak iş görür bir performans elde edebiliyorsunuz
- 3 bin doları değil, 10 bin doları düşünmek gerek
- Ben de benzer düşünüyorum. Yaklaşık bir yıl önce aldığım ucuz bir 16GB VRAM kartı kullanıyorum ve para vererek evde elde edebileceğimden çok daha yüksek token/saniye satın alabileceğinizi anlıyorum
  Ama bu bana üretkenliği yazılan kod satırıyla ölçmek gibi geliyor. Benim yaptığım işte hiçbir abonelikten fayda görmüyorum
  Elbette tek bir prompt'la sıkıcı bir CRUD uygulamasının tamamını baştan üretemiyorum, ama yapacak bir şey yok
Kodlama için brain -> worker yaklaşımını kullanmaya başladım
Brain, Claude aboneliğindeki pahalı ve akıllı model. Mümkün olduğunda Fable 5, şu anda ise Opus kullanıyorum
Worker ise yerel model (qwen3.6:46B); bunu 36GB GPU üzerinde Opencode + Ollama ile dağıttım
Brain analiz/tasarım ve görev üretiminden sorumlu. Görevlerin, worker'ın halledebileceği kadar basit ve net olması gerekiyor. Worker kodluyor, Brain doğruluyor ve gerekirse düzeltme görevleri oluşturuyor. Şu anda düzeltme/görev oranı kabaca 1:20
Evde GPU'nuz yoksa qwen3.6 bulutta da oldukça ucuz
Bu daha çok meraktan kurulmuş deneysel bir yapı, ama beklediğimden iyi çalışıyor. Şu anda 4 gündür 3 kodlama ajanını sürekli çalıştırabilmemi sağlıyor. Bu yapıya nasıl ulaştığımı burada anlattım: https://news.ycombinator.com/item?id=48520757
Artık Opus 4.6'ya denk bir şeyi yerelde çalıştırmak mümkün mü? Sürekli birbirinden farklı şeyler duyuyorum
Eğer $10k harcayıp bunu yapabiliyorsam aboneliği iptal ederim. Sorun şu ki bunu doğrulamak için bizzat para harcamak istemiyorum
- Frontier model seviyesini istiyorsanız ekonomik olarak mantıklı seçenek OpenRouter ya da istediğiniz frontier modele doğrudan abonelik
  Gerçekte veri merkezi marjlarını korumak için tüketicilere tek bir sistemde bu kadar VRAM çalıştırabilecek yapı sunulmuyor. Apple bunu eskiden yapabiliyordu ama bıraktı; o cihazlar şimdi eBay'de tanesi $20k üzeri fiyatlara gidiyor
  3090/4090/5090/6000 serisi kartlarla çok güçlü modeller çalıştırabilirsiniz. Ama “frontier model seviyesi” istiyorsanız yeni ürünlerle en az yaklaşık $22k yatırım gerekir. İkinci elde başlangıç maliyetini ciddi biçimde düşürüp kendi sunucunuzu kurabilirsiniz, ama elektrik tüketimi muhtemelen 4~6 kat ya da daha fazla olur
- $10k ile Opus ya da Sonnet'e yaklaşamazsınız
  Şu an için bu sıradan bir kişinin yapabileceği bir şey değil
- Ne yazık ki Opus 4.6 seviyesinde bir şeyi henüz yerelde çalıştıramazsınız. En fazla kabaca Sonnet 3.7 seviyesine yaklaşabiliyorsunuz
- $8k harcadım ve 2~3 kat daha yavaş bir Sonnet'e yakın bir seviye elde ettim. Yapı, deep seek v4 flash'ı iki Spark üzerinde çalıştırmak üzerine kurulu
- Bazı benchmark'larda Kimi K2.6'nın Opus 4.6 ile hata payı içinde olduğu görüldü ve 8 adet RTX6000 ile çalıştırılabiliyor
  Şu anda böyle bir makineyi sıfırdan kurmak $100K altına mümkün değil. Ama şu an otonomiye fiyat biçmenin de zor olduğu bir dönemdeyiz