Windrecorder - Ekrandaki her şeyi geri sarıp aramanızı sağlayan açık kaynaklı Windows uygulaması
(tonoko.notion.site)- Windrecorder, Windows ekran kayıtlarını yerelde biriktirip daha sonra geri sarmaya ve aramaya yarayan açık kaynaklı bir uygulamadır; Rewind/Copilot Recall’a daha yakın bir kişisel hafıza aracı olarak konumlanır
- Ekran, ffmpeg ya da belirli aralıklarla alınan ekran görüntüleriyle 15 dakikalık parça dosyaları halinde kaydedilir ve Windows yerel OCR API’si ile görüntü gömmeleri kullanılarak dizinlenir
- Yerel Web UI üzerinden pencere başlığı, metin anahtar kelimesi ve görsel açıklamasıyla geçmiş ekranlar bulunabilir; belirli programlar veya ekran alanları kayıttan hariç tutulabilir
- Veri işleme bulut olmadan yalnızca kullanıcının bilgisayarında gerçekleşir ve Python tabanlı olduğu için yapıyı incelemek ve değiştirmek kolaydır, ancak performans yavaş olabilir
- Şu anki depo yapısı şifrelenmemiş yerel bir yapıdır; LLM özellikleri sınırlıdır ve günlük başlık özeti ile arama pratikteki gerçek kullanım alanını oluşturur
Ekran kaydı ve geri sararak arama
- Windrecorder, kullanıcının görüp de daha sonra bulması zor olan web sayfaları, videolar ve sohbet mesajları gibi bilgileri yeniden bulmak için tasarlanmış kişisel ekran hafıza aracıdır
- Başlıca ilham kaynakları Mac uygulaması Rewind ve Black Mirror S1E3 “The Entire History of You”dur
- Ekran kayıt yöntemi basittir
- ffmpeg veya belirli aralıklarla alınan ekran görüntüleri kullanılır
- Ekran 15 dakikalık parça dosyaları halinde kaydedilir
- Kayıtlar, Windows yerel OCR API’si ve görüntü gömmeleri ile dizinlenir
- Kullanıcılar, kaydedilmeyecek programları veya ekran bölgelerini belirleyebilir
- Yerel Web UI’da geçmiş ekranlar şu ipuçlarıyla geri sarılıp aranabilir
- pencere başlığı
- metin anahtar kelimesi
- görsel açıklaması
- Ek özellikler olarak günlük ve dönemsel ekran kullanım süresi, günlük döngü özeti ve aylık lightbox oluşturma yer alır
Yerel öncelikli tasarım ve mevcut sınırlamalar
- Tüm işlemler yalnızca kullanıcının bilgisayarında gerçekleşir; bulut depolama veya abonelik varsayımına dayanmaz
- Yapı, Python ile çeşitli işlevleri birbirine bağlayarak oluşturulduğu için iç işleyişi şeffaftır ve kullanıcı tarafından doğrudan değiştirilmesi kolaydır
- Bunun karşılığında performans yavaş olabilir
- Geliştirici profesyonel bir geliştirici değildir; aracı kişisel ilgi ve kullanım amacıyla geliştirmiştir
- Bir süre kullandıktan sonra yeterince olgun ve sağlam olduğuna karar vermiştir
- Sorun bildirimlerini, tartışmaları ve katkıları memnuniyetle karşılar
- Mevcut dezavantajlar da nettir
- Veri deposu açık ve şifrelenmemiştir
- Kullanıcılar yapılandırılmış yerel verileri serbestçe kullanabilir, ancak korunmasına da dikkat etmelidir
- LLM özellikleri büyük ölçüde eklenmemiştir
- Şu anki LLM işlevleri çoğunlukla kullanıcı niyetine göre API çağrısı yapılıp yapılmayacağına karar verme ve arama sonuçlarını ayarlamayla sınırlıdır
- Tüm verileri doğrudan anlayıp analiz eden, hatırlayan ve kullanıcı niyetine göre hareket eden aşamaya henüz gelinmemiştir
- Hâlihazırda sunulan günlük başlık özeti ve arama işlevi, Windrecorder’ın gerçekleştirebildiği kapsamı temsil eder
1 yorum
Hacker News yorumları
Neredeyse 20 yıl önce buna benzer bir şey zaten yapılmıştı; geçmişteki belirli bir ana geri sarıp yürütmeyi oradan sürdürme özelliği de vardı
http://www.cs.columbia.edu/~orenl/papers/sosp07-dejaview.pdf
DejaView, masaüstü kullanım deneyiminin tamamını kaydedip yeniden oynatma, gezinme, arama ve geri yükleme yapabilen kişisel bir sanal bilgisayar kaydedicisiydi; ekran çıktısını, uygulama/dosya sistemi durum checkpoint’lerini ve bağlam içeren görüntülenen metinleri birlikte saklayıp indeksliyordu
Uygulamalarda, pencere sisteminde veya işletim sistemi çekirdeğinde değişiklik yapmadan ekran/işletim sistemi/dosya sistemi sanallaştırmasını bir araya getiriyordu; gerçek masaüstü uygulamalarında kullanıcı tarafından hissedilir performans düşüşü olmadan kesintisiz kayıt ve etkileşimli arama/yeniden oynatmanın mümkün olduğunu gösteren sonuçlar elde etmişti
macOS için benzer bir açık kaynak proje de var
https://rem.ing
https://github.com/jasonjmcghee/rem
Geliştiricisi bunu 3 ay önce HN’de paylaşmıştı ve oldukça iyi bir tartışma da olmuştu
https://news.ycombinator.com/item?id=38787892
MIT lisanslı; Rust ile yapılmış çapraz platform sürümü https://github.com/jasonjmcghee/xrem de başlattım ama hâlâ erken aşamada, daha fazla yardıma ihtiyaç var
Katkıda bulunmak isterim ama Swift’i hiç bilmiyorum; yaptıklarımın hepsi launchd ile çalışan bash betikleriydi
Şöyle bir şey yapılsa harika olurdu: Meta Smart Glasses her 2 saniyede bir fotoğraf çeker, görüntüleri bulut sunucusuna gönderir, OCR ile nesne algılama/etiketleme çalıştırır ve sonra geçmişi arayabileceğiniz ya da onunla sohbet edebileceğiniz bir uygulama sunar
Böylece LLM’ye “Cüzdanımı nereye koydum?”, “Dün restoranda hesabı ödedikten sonra kredi kartımı geri aldım mı?”, “Bugün kızımın yeni tişörtünde ne yazıyordu?” gibi şeyler sorabilirsiniz
Buna ses kaydı ve deşifre de eklenirse toplantıda kararlaştırılan teslim tarihlerini, parkta tanıştığınız kişinin telefon numarasını, bugün görüştüğünüz yatırımcının adını da sorabilirsiniz; telefon görüşmelerine kadar erişip karşı tarafın söylediklerini deşifre edip indekslese daha da iyi olur
Black Mirror’ın “The Entire History of You” bölümünü hatırlatıyor: https://en.wikipedia.org/wiki/The_Entire_History_of_You
Ön sipariş verdim bile
OCR yerine ya da OCR ile birlikte erişilebilirlik API’si kullanarak böyle bir şey yapan var mı merak ediyorum
Erişilebilirlik API’sinden metin doğrudan alınabiliyorken her şeyi OCR’dan geçirmek israf gibi görünüyor
LLM’leri UI’a bağlamanın iyi bir yolu da olabilir; ayrıca bu tür araçların eğitim verisi toplama yöntemi de olabilir
Microsoft Office’in kendi widget render’ını yaptığı sorun, widget ve düğmelerin metinlerini OCR ile okuyup etiketleri belirleme yoluyla çözülmüştü
Bu yaklaşıma düşündüğünüzden çok daha sık ihtiyaç duyuluyor. Geliştiriciler beklentileri boşa çıkarıp çoğu zaman sunulan API’leri kullanmıyor
Bazı uygulamalar kritik verileri atlıyor ya da yanlış uyguluyor. Erişilebilirliğin kolay olacağını sanmıştım ama pratikte OCR çoğu zaman daha kolaydı
Bu yaklaşım gerçekten geçerliyse Microsoft veya Apple’ın, her şeyi hatırlayıp kullanıcı bilgisini destekleyen Copilot’un bir parçası olarak bunu işletim sistemine varsayılan şekilde ekleyeceğini düşünmüştüm
Benim yaptığım ekran geçmişi burada bahsedilen uygulama kadar gelişmiş değildi ve ben de bizzat kullanmadım
Notion’da “JavaScript must be enabled in order to use Notion” ve “Please enable JavaScript to continue” engelleme ekranı çıkıyor; NoScript kullanınca bu engelleme biçimi yüzünden sitede JavaScript’i gerçekten açmak mümkün olmuyor
Keşke statik bir sayfaya yönlendirmeselerdi. O sayfada duruma göre izin verilecek JavaScript yok ve yönlendirme o kadar hızlı oluyor ki ana sayfada JavaScript’i açma fırsatı da kalmıyor
Sadece notion.so’nun kendisine izin vermek de bu engeli aşmaya yetmiyor
HTML’in JavaScript’siz yönlendirmeye izin vermesi de şaşırtıcı
Windows’ta TimeSnapper da var. Açık kaynak değil ama geliştiricisi ara sıra Hacker News’te bulunuyor
https://timesnapper.com/
https://www.manictime.com/
Bu tür birkaç projeyi hatırlıyorum. İlk gördüğüm, 2014’teki Savant Recall’dı; YC’ye seçilemeyince açık kaynak olarak yayımlandı
Daha sonra Napster’ın kurucu ortağı Ritter bunu devralıp adını Atlas Recall olarak değiştirdi, yeni bir UI ekledi ve 20 milyon dolar yatırım aldı
Ama 1 yıl sonra aniden kapandı ve LinkedIn’de “Xinova tarafından satın alındı” yazıyor. Duyduğum bir diğer örnek de 2019’daki Apse’ydi
Muhtemelen orijinal Savant kaynak kodu olan depo: https://bitbucket.org/theluxury/savant/src/master/
Daha sonra Atlas Recall’ın nasıl çalıştığını gösteren videolar: https://www.youtube.com/@atlasinformatics3316/videos
https://www.geekwire.com/2021/invention-network-company-xino...
https://apse.io/ ile çok benzer görünüyor. O da OCR ile ekranda gördüğünüz her şeyi aranabilir bir dizine dönüştürüyor
windrecorder’ın açık kaynak olmasını seviyorum
GitHub README’ye göre video yılda 100–200 GB civarında, bu da pek kötü değil
“Neden böyle bir uygulama yok?” türünden bir fikriniz varsa, bunu böyle doğrudan ve iyi şekilde hayata geçirmek herkese ilham veriyor
Buluta kaydetmeye zorlanmamak güzel; bunu da muhtemelen yakında ücretli müşteri olmaktan çıkacak biri olarak söylüyorum