Nobox Data Extractor

Web Automation & Web Scraping

Project Details

Proyek ini dikembangkan sebagai sebuah sistem Data Harvesting dan Web Scraping yang dirancang khusus untuk melakukan pengambilan data dari berbagai sumber geografis (negara).Fondasi utama proyek ini menggunakan bahasa pemrograman C# dengan memanfaatkan library Puppeteer - Sharp, yang merupakan port C# dari Puppeteer Google. Penggunaan Puppeteer - Sharp memungkinkan sistem mengendalikan browser headless Chrome / Chromium, sehingga mampu merender dan berinteraksi dengan situs web modern termasuk konten yang dimuat secara dinamis melalui JavaScript.

Fokus utama proyek ini adalah mengatasi tantangan scraping global, termasuk variasi struktur halaman web antar negara, perbedaan format tanggal/waktu, serta adaptasi terhadap batasan geografis (geoblocking) atau konten berbasis wilayah. Untuk menangani hal tersebut, sistem ini dilengkapi dengan modul manajemen proxy yang cerdas, memungkinkan pemilihan proxy yang sesuai dengan negara target agar data yang diambil tetap akurat dan relevan secara regional.

Proyek ini dibuat sebagai bagian dari kegiatan Praktik Kerja Lapangan (PKL) di PT Universal Big Data dan menjadi komponen inti yang menyediakan data berkualitas bagi Nobox.AI — platform AI yang mendukung aktivitas marketing dan customer service, termasuk automasi broadcast multichannel serta manajemen CRM berbasis AI.

Tampilan aplikasi yang menjadi referensi pengembangan menampilkan proses scraping dan hasilnya secara real-time dalam bentuk tabel hasil ekstraksi. Demo screenshot disertakan di bawah untuk referensi visual.

Tech Stack ( scroll view )
  • ✓ C# (.NET 7/8)
  • ✓ Puppeteer-Sharp (Headless Browser Automation)
  • ✓ Smart Proxy Manager (Geo-targeting)
  • ✓ Entity Framework Core
  • ✓ Blazor Dashboard
Project Status
Duration6 Months
Status
Completed