11 puan yazan GN⁺ 2024-04-22 | 1 yorum | WhatsApp'ta paylaş
  • Windrecorder, Windows ekran kayıtlarını yerelde biriktirip daha sonra geri sarmaya ve aramaya yarayan açık kaynaklı bir uygulamadır; Rewind/Copilot Recall’a daha yakın bir kişisel hafıza aracı olarak konumlanır
  • Ekran, ffmpeg ya da belirli aralıklarla alınan ekran görüntüleriyle 15 dakikalık parça dosyaları halinde kaydedilir ve Windows yerel OCR API’si ile görüntü gömmeleri kullanılarak dizinlenir
  • Yerel Web UI üzerinden pencere başlığı, metin anahtar kelimesi ve görsel açıklamasıyla geçmiş ekranlar bulunabilir; belirli programlar veya ekran alanları kayıttan hariç tutulabilir
  • Veri işleme bulut olmadan yalnızca kullanıcının bilgisayarında gerçekleşir ve Python tabanlı olduğu için yapıyı incelemek ve değiştirmek kolaydır, ancak performans yavaş olabilir
  • Şu anki depo yapısı şifrelenmemiş yerel bir yapıdır; LLM özellikleri sınırlıdır ve günlük başlık özeti ile arama pratikteki gerçek kullanım alanını oluşturur

Ekran kaydı ve geri sararak arama

  • Windrecorder, kullanıcının görüp de daha sonra bulması zor olan web sayfaları, videolar ve sohbet mesajları gibi bilgileri yeniden bulmak için tasarlanmış kişisel ekran hafıza aracıdır
  • Başlıca ilham kaynakları Mac uygulaması Rewind ve Black Mirror S1E3 “The Entire History of You”dur
  • Ekran kayıt yöntemi basittir
    • ffmpeg veya belirli aralıklarla alınan ekran görüntüleri kullanılır
    • Ekran 15 dakikalık parça dosyaları halinde kaydedilir
    • Kayıtlar, Windows yerel OCR API’si ve görüntü gömmeleri ile dizinlenir
  • Kullanıcılar, kaydedilmeyecek programları veya ekran bölgelerini belirleyebilir
  • Yerel Web UI’da geçmiş ekranlar şu ipuçlarıyla geri sarılıp aranabilir
    • pencere başlığı
    • metin anahtar kelimesi
    • görsel açıklaması
  • Ek özellikler olarak günlük ve dönemsel ekran kullanım süresi, günlük döngü özeti ve aylık lightbox oluşturma yer alır

Yerel öncelikli tasarım ve mevcut sınırlamalar

  • Tüm işlemler yalnızca kullanıcının bilgisayarında gerçekleşir; bulut depolama veya abonelik varsayımına dayanmaz
  • Yapı, Python ile çeşitli işlevleri birbirine bağlayarak oluşturulduğu için iç işleyişi şeffaftır ve kullanıcı tarafından doğrudan değiştirilmesi kolaydır
    • Bunun karşılığında performans yavaş olabilir
  • Geliştirici profesyonel bir geliştirici değildir; aracı kişisel ilgi ve kullanım amacıyla geliştirmiştir
    • Bir süre kullandıktan sonra yeterince olgun ve sağlam olduğuna karar vermiştir
    • Sorun bildirimlerini, tartışmaları ve katkıları memnuniyetle karşılar
  • Mevcut dezavantajlar da nettir
    • Veri deposu açık ve şifrelenmemiştir
    • Kullanıcılar yapılandırılmış yerel verileri serbestçe kullanabilir, ancak korunmasına da dikkat etmelidir
  • LLM özellikleri büyük ölçüde eklenmemiştir
    • Şu anki LLM işlevleri çoğunlukla kullanıcı niyetine göre API çağrısı yapılıp yapılmayacağına karar verme ve arama sonuçlarını ayarlamayla sınırlıdır
    • Tüm verileri doğrudan anlayıp analiz eden, hatırlayan ve kullanıcı niyetine göre hareket eden aşamaya henüz gelinmemiştir
    • Hâlihazırda sunulan günlük başlık özeti ve arama işlevi, Windrecorder’ın gerçekleştirebildiği kapsamı temsil eder

1 yorum

 
GN⁺ 2024-04-22
Hacker News yorumları
  • Neredeyse 20 yıl önce buna benzer bir şey zaten yapılmıştı; geçmişteki belirli bir ana geri sarıp yürütmeyi oradan sürdürme özelliği de vardı
    http://www.cs.columbia.edu/~orenl/papers/sosp07-dejaview.pdf
    DejaView, masaüstü kullanım deneyiminin tamamını kaydedip yeniden oynatma, gezinme, arama ve geri yükleme yapabilen kişisel bir sanal bilgisayar kaydedicisiydi; ekran çıktısını, uygulama/dosya sistemi durum checkpoint’lerini ve bağlam içeren görüntülenen metinleri birlikte saklayıp indeksliyordu
    Uygulamalarda, pencere sisteminde veya işletim sistemi çekirdeğinde değişiklik yapmadan ekran/işletim sistemi/dosya sistemi sanallaştırmasını bir araya getiriyordu; gerçek masaüstü uygulamalarında kullanıcı tarafından hissedilir performans düşüşü olmadan kesintisiz kayıt ve etkileşimli arama/yeniden oynatmanın mümkün olduğunu gösteren sonuçlar elde etmişti

    • Bunun gerçekten yapılıp yapılmadığını, yoksa yalnızca makalesinin mi yazıldığını merak ediyorum. Nereden indirilebileceğini de bilmek isterim
    • URL’nin doğru olup olmadığından emin değilim. Açınca dosyanın bulunamadığı söyleniyor
  • macOS için benzer bir açık kaynak proje de var
    https://rem.ing
    https://github.com/jasonjmcghee/rem
    Geliştiricisi bunu 3 ay önce HN’de paylaşmıştı ve oldukça iyi bir tartışma da olmuştu
    https://news.ycombinator.com/item?id=38787892

    • rem’i yapan kişiyim. Geliştirmeye katılırsanız harika olur
      MIT lisanslı; Rust ile yapılmış çapraz platform sürümü https://github.com/jasonjmcghee/xrem de başlattım ama hâlâ erken aşamada, daha fazla yardıma ihtiyaç var
    • Bunu uzun süre kullanmış biri var mı merak ediyorum. Gerçekten işe yarayıp yaramadığını bilmek isterim
    • Mac’te böyle bir şeyi uzun süre arayıp vazgeçtim; her 10 saniyede bir ekran görüntüsü alan bir betik ve bunları ffmpeg ile videoya birleştiren başka bir betik kendim yazdım
      Katkıda bulunmak isterim ama Swift’i hiç bilmiyorum; yaptıklarımın hepsi launchd ile çalışan bash betikleriydi
    • Aynı işi yapan şirket olarak http://rewind.ai de var
  • Şöyle bir şey yapılsa harika olurdu: Meta Smart Glasses her 2 saniyede bir fotoğraf çeker, görüntüleri bulut sunucusuna gönderir, OCR ile nesne algılama/etiketleme çalıştırır ve sonra geçmişi arayabileceğiniz ya da onunla sohbet edebileceğiniz bir uygulama sunar
    Böylece LLM’ye “Cüzdanımı nereye koydum?”, “Dün restoranda hesabı ödedikten sonra kredi kartımı geri aldım mı?”, “Bugün kızımın yeni tişörtünde ne yazıyordu?” gibi şeyler sorabilirsiniz
    Buna ses kaydı ve deşifre de eklenirse toplantıda kararlaştırılan teslim tarihlerini, parkta tanıştığınız kişinin telefon numarasını, bugün görüştüğünüz yatırımcının adını da sorabilirsiniz; telefon görüşmelerine kadar erişip karşı tarafın söylediklerini deşifre edip indekslese daha da iyi olur
    Black Mirror’ın “The Entire History of You” bölümünü hatırlatıyor: https://en.wikipedia.org/wiki/The_Entire_History_of_You

    • Black Mirror bölümleri genelde taklit etmek isteyeceğiniz gelecek tasvirleri olarak yapılmaz
    • Restoranın kredi kartınızı görüş alanınızın dışına götürmesine kesinlikle izin verilmemeli. Aslında personelin karta dokunmasına bile gerek yok; çıkarken kasadaki terminalde kartı sizin geçirmeniz doğru olan
    • Brilliant Labs’in Frame’i, bu tür verileri kullanıcı dostu ve oldukça göze batmayan bir biçimde gerçekçi şekilde sağlayabilecek donanıma yaklaşıyor
      Ön sipariş verdim bile
    • Çok eleştirilen Humane AI Pin’in yaptığı şey de tam olarak bu
  • OCR yerine ya da OCR ile birlikte erişilebilirlik API’si kullanarak böyle bir şey yapan var mı merak ediyorum
    Erişilebilirlik API’sinden metin doğrudan alınabiliyorken her şeyi OCR’dan geçirmek israf gibi görünüyor
    LLM’leri UI’a bağlamanın iyi bir yolu da olabilir; ayrıca bu tür araçların eğitim verisi toplama yöntemi de olabilir

    • Dragon NaturallySpeaking “Tamam’a tıkla” gibi sesli komutları destekliyor ve gerçekten buna göre tepki veriyor
      Microsoft Office’in kendi widget render’ını yaptığı sorun, widget ve düğmelerin metinlerini OCR ile okuyup etiketleri belirleme yoluyla çözülmüştü
      Bu yaklaşıma düşündüğünüzden çok daha sık ihtiyaç duyuluyor. Geliştiriciler beklentileri boşa çıkarıp çoğu zaman sunulan API’leri kullanmıyor
    • Ekran araması yapılabilen Loom benzeri bir ekran kaydedici yaparken ikisini de biraz kullandım; işletim sisteminden bağımsız yapmak istiyorsanız Mac ve Windows erişilebilirlik API’leri arasındaki farklar büyük, Windows’ta da uygulamadan uygulamaya uygulama biçimi değişiyor, bu yüzden kullanıcının gerçekten ne “gördüğünü” anlamak zor
      Bazı uygulamalar kritik verileri atlıyor ya da yanlış uyguluyor. Erişilebilirliğin kolay olacağını sanmıştım ama pratikte OCR çoğu zaman daha kolaydı
    • Ekran geçmişi olan bir iş akışı kaydedici MVP yaptım
      Bu yaklaşım gerçekten geçerliyse Microsoft veya Apple’ın, her şeyi hatırlayıp kullanıcı bilgisini destekleyen Copilot’un bir parçası olarak bunu işletim sistemine varsayılan şekilde ekleyeceğini düşünmüştüm
      Benim yaptığım ekran geçmişi burada bahsedilen uygulama kadar gelişmiş değildi ve ben de bizzat kullanmadım
    • Ön plandaki uygulama bilgisini metadata olarak birlikte kaydedebilmek güzel olurdu
  • Notion’da “JavaScript must be enabled in order to use Notion” ve “Please enable JavaScript to continue” engelleme ekranı çıkıyor; NoScript kullanınca bu engelleme biçimi yüzünden sitede JavaScript’i gerçekten açmak mümkün olmuyor
    Keşke statik bir sayfaya yönlendirmeselerdi. O sayfada duruma göre izin verilecek JavaScript yok ve yönlendirme o kadar hızlı oluyor ki ana sayfada JavaScript’i açma fırsatı da kalmıyor
    Sadece notion.so’nun kendisine izin vermek de bu engeli aşmaya yetmiyor

    • Bu gerçekten çok kötü. Gayet kullanılabilir bir şeyi olabilecek en kötü şekilde kullanmışlar
      HTML’in JavaScript’siz yönlendirmeye izin vermesi de şaşırtıcı
  • Windows’ta TimeSnapper da var. Açık kaynak değil ama geliştiricisi ara sıra Hacker News’te bulunuyor
    https://timesnapper.com/

    • Ekran görüntüsü tabanlı zaman takibi ve pencere başlığına, bazen de açık belgeye dayalı gelişmiş etiketleme için ManicTime da var. Ancak OCR yok gibi görünüyor
      https://www.manictime.com/
  • Bu tür birkaç projeyi hatırlıyorum. İlk gördüğüm, 2014’teki Savant Recall’dı; YC’ye seçilemeyince açık kaynak olarak yayımlandı
    Daha sonra Napster’ın kurucu ortağı Ritter bunu devralıp adını Atlas Recall olarak değiştirdi, yeni bir UI ekledi ve 20 milyon dolar yatırım aldı
    Ama 1 yıl sonra aniden kapandı ve LinkedIn’de “Xinova tarafından satın alındı” yazıyor. Duyduğum bir diğer örnek de 2019’daki Apse’ydi

  • https://apse.io/ ile çok benzer görünüyor. O da OCR ile ekranda gördüğünüz her şeyi aranabilir bir dizine dönüştürüyor
    windrecorder’ın açık kaynak olmasını seviyorum

  • GitHub README’ye göre video yılda 100–200 GB civarında, bu da pek kötü değil

    • Bunun günde ortalama kaç saat üzerinden hesaplandığını merak ediyorum. Film ya da oyun gibi metinsiz sahneleri silip silmediğini de merak ediyorum
  • “Neden böyle bir uygulama yok?” türünden bir fikriniz varsa, bunu böyle doğrudan ve iyi şekilde hayata geçirmek herkese ilham veriyor

    • X yapan bir uygulama bulmanın en kolay yolu, yenisini yapıp HN’ye koymak ve yorumlara bakmaktır
    • rewind.ai de bunun bir örneği; yakın zamanda bu verileri yalnızca bulut depolamaya taşıyıp adını limitless.ai olarak değiştirdiğini düşününce, böyle açık kaynakların ortaya çıkması sevindirici
      Buluta kaydetmeye zorlanmamak güzel; bunu da muhtemelen yakında ücretli müşteri olmaktan çıkacak biri olarak söylüyorum