Görsel romanlar için yaptığım ekran/ses çeviri uygulaması
(github.com/tchinso)Görsel romanları seven sıradan bir otakuyum.
Eskiden ezTrans ya da AralTrans kullanılarak çeviri yapılan bir dönem olduğunu duymuştum.
Bu günlerde MORT kullanarak OCR çevirici çalıştırılabildiği söyleniyor ama
bizzat deneyince ayarların ve özelliklerin çok fazla ve karmaşık olduğunu gördüm,
üstelik en önemlisi ekran tanıma oranı çok kötüydü.
Çeviri tarafında da DeepL çevirisi, API anahtarı girilmezse sürekli hata veriyordu.
Son zamanlarda yerel yapay zeka da geliştiğine göre
yerel bir OCR yapay zeka modeliyle
yerel bir yapay zeka çeviri modeli eklemek iyi olmaz mı diye düşündüm
ve bunu yaptım.
Yaparken, ses tanıyıp çeviren bir özellik de eklesem iyi olmaz mı diye düşündüm.
Derken kapsam giderek büyüdü
ve tek bir uygulamayla ekranı/sesi tanıyıp çeviren bir uygulama yaptım.
Dil olarak yalnızca Japonca destekleniyor (zaten asıl amaç görsel romanlardı...).
Ekran tanıma çevirisinde,
geçici alanı kalıcı alan olarak kaydettikten sonra yalnızca çeviri düğmesine art arda tıklamanız yeterli; çeviri yapılıp overlay olarak gösteriliyor.
Ses tanıma ise ses dosyasını tamamen aldığında metni çıkarıp overlay üzerinde gösteren bir yapıda.
Yapım süreci kolay olmadı.
Aslında programlamayla hiç ilgisi olmayan bir bölüm mezunuyum ve yine bununla alakasız bir işte çalışıyorum.
Programlama adına tek deneyimim, lisede bilişim dersinde DevC++'a kısa süre dokunup if/while seviyesine kadar ilerlemiş olmamdı.
GPT-5.5 ile bu seviyeye kadar bir şey yapılabildiğini size göstermek istedim.
Kullandığım token sayısı yaklaşık 720 milyon.
Lütfen GN üyelerinden bol bol geri bildirim bekliyorum!
Henüz yorum yok.