AgentBlue - Doğal dil komutlarıyla Android'i otomatik olarak kontrol eden açık kaynaklı yapay zeka ajanı

(github.com/RGLie)

14 puan yazan j2hyeon02 2026-03-08 | Henüz yorum yok. | WhatsApp'ta paylaş

Merhaba, AgentBlue adında bir mobil ajan sistemi geliştirdim.

AgentBlue, terminalde doğal dil komutları girdiğinizde Android cihazın uygulamaları kendi başına gezinmesini, dokunmasını ve yazı yazmasını sağlayan açık kaynaklı bir yapay zeka otomasyon sistemidir.

Nasıl çalışır

Android'in Accessibility Service'i ile mevcut ekranın UI ağacını okur, bunu LLM'e iletir ve bir sonraki eyleme karar verir. Bu ReAct (Reasoning + Acting) döngüsü, tamamlanma koşulu sağlanana kadar tekrarlanır.

"YouTube'da lo-fi müzik ara"
→ UI ayrıştırma → LLM kararı → CLICK "YouTube" → TYPE "lo-fi" → CLICK arama → DONE
CLI ve Android uygulaması, gerçek zamanlı iletişim için Firebase Firestore'u röle sunucusu olarak kullanır. Ayrı bir sunucu olmadan 8 haneli oturum koduyla eşleştirme yapılır.

Başlıca özellikler

Çoklu LLM desteği — OpenAI, Google Gemini, Anthropic Claude, DeepSeek arasından seçim
Terminal REPL — agentblue start ile oturum başlatma, doğal dille komut gönderme
Uzaktan ayarlar — CLI üzerinden /setting, /model ile Android uygulaması ayarlarını değiştirme
Gerçek zamanlı durum takibi — Her adımın ilerleyişini terminalden anlık olarak izleme
Güvenlik koruması — Ödeme onayı, hesap silme gibi geri döndürülemez işlemlerden önce otomatik durma
Takılma algılama ve kurtarma — Aynı ekranda tekrar eden başarısızlıklarda ipucu ekleme veya BACK'i zorla çalıştırma
Cihazı tek başına kullanma — CLI olmadan da kayan düğmeyle doğrudan cihazdan komut girme
Hızlı başlangıç

Kullanım

npm install -g @agentblue/cli
agentblue init # Firebase ayarı + dil seçimi (paylaşımlı sunucu varsayılan olarak sunulur)
agentblue start # Oturum kodu oluşturulur → Android uygulamasına girilir → bağlantı tamamlanır
Android uygulaması, yalnızca Accessibility Service ve overlay izni verildiğinde hemen kullanılabilir.

Neden yapıldı

RPA araçlarının çoğu ekran koordinatlarına dayanır; bu yüzden uygulamadaki tek bir güncelleme bile betiği bozabilir. AgentBlue ise hedefleri UI anlamına göre (metin, contentDescription, resource ID) bulduğu için düzen değişikliklerine çok daha dayanıklıdır. LLM, "sırada ne yapılması gerektiğini" her adımda yeniden değerlendirdiğinden, önceden senaryo yazmaya gerek kalmaz.

Geri bildirim ve katkılar memnuniyetle karşılanır. Özellikle daha iyi UI ayrıştırma stratejileri veya takılma algılamasını geliştirecek fikirleriniz varsa issue, PR ya da yorumlarla paylaşabilirsiniz!

Teşekkürler