14 puan yazan j2hyeon02 2026-03-08 | Henüz yorum yok. | WhatsApp'ta paylaş

Merhaba, AgentBlue adında bir mobil ajan sistemi geliştirdim.

AgentBlue, terminalde doğal dil komutları girdiğinizde Android cihazın uygulamaları kendi başına gezinmesini, dokunmasını ve yazı yazmasını sağlayan açık kaynaklı bir yapay zeka otomasyon sistemidir.

Nasıl çalışır

Android'in Accessibility Service'i ile mevcut ekranın UI ağacını okur, bunu LLM'e iletir ve bir sonraki eyleme karar verir. Bu ReAct (Reasoning + Acting) döngüsü, tamamlanma koşulu sağlanana kadar tekrarlanır.

"YouTube'da lo-fi müzik ara"
→ UI ayrıştırma → LLM kararı → CLICK "YouTube" → TYPE "lo-fi" → CLICK arama → DONE
CLI ve Android uygulaması, gerçek zamanlı iletişim için Firebase Firestore'u röle sunucusu olarak kullanır. Ayrı bir sunucu olmadan 8 haneli oturum koduyla eşleştirme yapılır.

Başlıca özellikler

  • Çoklu LLM desteği — OpenAI, Google Gemini, Anthropic Claude, DeepSeek arasından seçim
  • Terminal REPL — agentblue start ile oturum başlatma, doğal dille komut gönderme
  • Uzaktan ayarlar — CLI üzerinden /setting, /model ile Android uygulaması ayarlarını değiştirme
  • Gerçek zamanlı durum takibi — Her adımın ilerleyişini terminalden anlık olarak izleme
  • Güvenlik koruması — Ödeme onayı, hesap silme gibi geri döndürülemez işlemlerden önce otomatik durma
  • Takılma algılama ve kurtarma — Aynı ekranda tekrar eden başarısızlıklarda ipucu ekleme veya BACK'i zorla çalıştırma
  • Cihazı tek başına kullanma — CLI olmadan da kayan düğmeyle doğrudan cihazdan komut girme
    Hızlı başlangıç

Kullanım

npm install -g @agentblue/cli
agentblue init # Firebase ayarı + dil seçimi (paylaşımlı sunucu varsayılan olarak sunulur)
agentblue start # Oturum kodu oluşturulur → Android uygulamasına girilir → bağlantı tamamlanır
Android uygulaması, yalnızca Accessibility Service ve overlay izni verildiğinde hemen kullanılabilir.

Neden yapıldı

RPA araçlarının çoğu ekran koordinatlarına dayanır; bu yüzden uygulamadaki tek bir güncelleme bile betiği bozabilir. AgentBlue ise hedefleri UI anlamına göre (metin, contentDescription, resource ID) bulduğu için düzen değişikliklerine çok daha dayanıklıdır. LLM, "sırada ne yapılması gerektiğini" her adımda yeniden değerlendirdiğinden, önceden senaryo yazmaya gerek kalmaz.

Geri bildirim ve katkılar memnuniyetle karşılanır. Özellikle daha iyi UI ayrıştırma stratejileri veya takılma algılamasını geliştirecek fikirleriniz varsa issue, PR ya da yorumlarla paylaşabilirsiniz!

Teşekkürler

Henüz yorum yok.

Henüz yorum yok.