-
Lakukan data scraping dari sebuah laman web untuk memperoleh data atau informasi tertentu TANPA MENGGUNAKAN API
-
Daftarkan judul topik yang akan dijadikan bahan data scraping pada spreadsheet berikut: Topik Data Scraping. Usahakan agar tidak ada peserta dengan topik yang sama. Akses edit ke spreadsheet akan ditutup tanggal 20 Mei 2019 pukul 20.00 WIB
-
Dalam mengerjakan tugas, calon warga basdat terlebih dahulu melakukan fork project github pada link berikut: https://github.com/wargabasdat/Seleksi-2019-Tugas-1. Sebelum batas waktu pengumpulan berakhir, calon warga basdat harus sudah melakukan pull request dengan nama
TUGAS_SELEKSI_1_[NIM]
-
Pada repository tugas 1, calon warga basdat harus mengumpulkan file script, json hasil data scraping. repository terdiri dari folder
src
,data
danscreenshots
. Foldersrc
berisi file script/kode yang WELL DOCUMENTED dan CLEAN CODE, folderdata
berisi file json hasil scraper sedangkan folderscreenshot
berisi tangkapan layar program. -
Peserta juga diminta untuk membuat simple build tools semacam
Makefile
,npm scripts
,runjs
yang bertujuan untuk membuat program dengan gampang di-build, di-run, dan di-clean.
Template
makefile
all: clean build run
clean: # remove data and binary folder
build: # compile to binary (if you use interpreter, then do not implement it)
run: # run your binary
Template
npm scripts
"scripts": {
"build": // if any (optional)
"clean": // delete node_modules
}
Template
runjs
import { run } from 'runjs'
export function clean () {
}
export function start () {
}
export function build () {
// if any (optional)
}
-
Deadline pengumpulan tugas 1 adalah 31 Mei 2019 Pukul 23.59
-
Hasil data scraping ini nantinya akan disimpan dalam DBMS dan digunakan sebagai bahan tugas analisis dan visualisasi data
-
Sebagai referensi untuk mengenal data scraping, asisten menyediakan dokumen "Short Guidance To Data Scraping" yang dapat diakses pada link berikut: Data Scraping Guidance
-
Tambahkan juga
.gitignore
pada file atau folder yang tidak perlu di-upload, NB : BINARY TIDAK DIUPLOAD -
Mohon memperhatikan etika dalam melakukan scraping
-
JSON harus dinormalisasi dan harus di-preprocessing
Preprocessing contohnya :
- Cleaning
- Parsing
- Transformation
- dan lainnya
- Berikan
README
yang WELL DOCUMENTED dengan cara override fileREADME.md
ini.README
harus memuat minimal konten :
- Description
- Specification (optional)
- How to use
- Ideas and innovations in utilizing the data
- JSON Structure
- Screenshot program (di-upload pada folder screenshots, di-upload file image nya, dan ditampilkan di dalam README)
- Reference (Library used, etc)
- Author
Basdat Industries - Lab Basdat 2019