bigset - Dünyadaki tüm verilere sahip olsaydınız?
(github.com/tinyfish-io)- Doğal dilde tek bir cümleyle, canlı web’den yapılandırılmış veri setleri oluşturan ve belirlenen periyotlarda otomatik güncelleyen açık kaynaklı bir araç
- Örnek: "Şu anda mühendis işe alan YC şirketlerinin listesi, yatırım aşamaları, konumları ve açık pozisyon sayıları"
- Girilen cümleden şemayı otomatik olarak çıkarır — sütun adları, türler, birincil anahtar ve web’de nerede bulunacağına kadar belirler
- Otonom ajanlar canlı web’i araştırır, gerçek kaynaklarla karşılaştırıp doğruladıktan sonra tekrarları kaldırarak tablo halinde döndürür
- Orkestratör ajan varlıkları keşfettiğinde, alt ajanlar paralel biçimde dağıtılarak her bir varlığı araştırır ve doğrular
- Sonuçlar CSV / XLSX olarak indirilebilir, ayrıca arayüzde incelenebilir
- Güncelleme periyodu (30 dakika, 6 saat, 12 saat, günlük, haftalık) ayarlandığında ajanlar plana göre yeniden çalışarak veri setini sürekli günceller
- İster insan ister yapay zeka ajanı olsun, web ile yapılan tüm etkileşimler sonunda veriye dönüşür (fiyatlar, şirketler, işe alım, araştırma, erişilebilirlik, stok vb.)
- Bu veriler birçok sayfaya dağılmış durumdadır ve mevcut scraping/arama API’leri/LeadGen araçlarının yapamadığı kategoriler arası veri toplama işini çözer
— arama/çıkarma/şema tasarımı/tekrar kaldırma/doğrulama/cron işlerini her seferinde elle yapmaya veya bunları tek tek entegre etmeye gerek kalmaz
- Bu veriler birçok sayfaya dağılmış durumdadır ve mevcut scraping/arama API’leri/LeadGen araçlarının yapamadığı kategoriler arası veri toplama işini çözer
- Veri setleri terminal CLI üzerinden de oluşturulup dışa aktarılabilir
bigset create "..." --rows 30 --wait --csv
- Ancak araç hâlâ deneysel aşamada; şema çıkarımı her zaman kusursuz olmayabilir. Yalnızca herkese açık veriler için uygundur
- Teknoloji yığını
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (ajan çalıştırıcısı)
- Kimlik doğrulama: yerel kimlik doğrulama (geliştirme), Clerk (bulut)
- Veritabanı: Convex (self-hosted)
- Veri toplama: TinyFish API (Search, Fetch, Browser)
- Yapay zeka orkestrasyonu: Mastra workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (şema çıkarımı + populate ajanı)
- Tablo görünümü: TanStack Table + react-window sanallaştırma
- Dışa aktarma: CSV (yerleşik) + XLSX (SheetJS, dinamik import)
- Analitik: PostHog — etkinlikler, oturum yeniden oynatma, hata takibi (isteğe bağlı)
- AGPL-3.0 lisansı
Henüz yorum yok.