Pengenalan Sistem Chirei
Scraper visual konkuren dan kuat untuk tugas ekstraksi web kompleks.
Apa itu Chirei?
Chirei adalah web scraper yang dikonfigurasi secara visual dan dirancang untuk mempermudah alur ekstraksi multi-langkah (Listings, Detail Pages, Fanouts). Dibangun dengan FastAPI, Celery, Redis, dan PostgreSQL, Chirei sangat skalabel dan cocok untuk lingkungan staging maupun produksi.
Fitur Utama:
- Visual Pipeline Builder: Canvas UI berbasis node-link graph untuk mendesain aliran data scraping secara drag-and-drop.
- Visual Element Picker: Seleksi elemen klik-untuk-pilih langsung dari proxy iframe web tujuan dengan CSS selector otomatis.
- API Interception: Menangkap XHR/fetch API calls secara otomatis, inspeksi JSON response, serta auto-detect array path dan field mapping.
- Branching Pipeline: Multi-step scraping dengan dukungan Fan-out dan Named Link fields untuk ekstraksi paralel ke halaman turunan.
- Skalabilitas Celery: Mengeksekusi jutaan node link di background secara terdistribusi dengan task queue dan retry mechanism.
- Dukungan Tor Node Proxy: Me-routing endpoint .onion untuk Dark Web scraping secara otomatis via
socks5h://127.0.0.1:9050. - Monitoring Dashboard: Real-time log streaming via WebSocket, memory/CPU tracking, dan history audit per task.
- Chrome Extension: Sinkronisasi cookie otentikasi dari browser untuk scraping situs yang memerlukan login (Twitter/X, LinkedIn).
Arsitektur Sistem
Chirei menggunakan arsitektur modular yang terdiri dari beberapa komponen utama:
REST API server + WebSocket endpoints untuk proxy, konfigurasi, eksekusi, dan monitoring real-time.
HTML5 Canvas renderer dengan hit detection, undo/redo history, dan bezier curve edge routing.
Distributed task execution dengan prefetch control, auto-retry, dan resource monitoring per worker.
PostgreSQL untuk konfigurasi dan history. MongoDB untuk penyimpanan hasil scrape berskala besar.
Kemudian beri nama config dan klik save.