Review Post Test Data Science Fundamental — GTA | Digital Talent Scholarship

Achmad Hadi Kurnia
6 min readAug 16, 2023

--

Disini Saya ingin berbagi hasil post test dalam pelatihan “Data Science Fundamental” yang merupakan bagian dari program Digital Talent Scholarship milik Kementerian Komunikasi dan Informatika.

Photo by Wes Hicks on Unsplash

Pada pelatihan ini Saya mendapatkan score post test sebesar 86 dari sebelumnya mendapat score 30 saat pretest. Pelatihan dilaksanakan selama lima hari, sejak Senin 7 sampai 11 Agustus.

Story ini dimaksudkan sebagai tanda bahwa saya telah menyelesaikan pelatihan dengan baik dan ingin membagi kepada kalian soal post test agar kita dapat mengevaluasi hasil pembelajaran yang didapat.

Konten ini sangat dilarang bagi Anda yang belum menyelesaikan post test. Pilihan yang bercetak tebal adalah jawaban benar. Jika Anda memiliki jawaban benar untuk soal yang belum dijawab (4, 18,19, 20, 23, 25), silakan berikan respons untuk memastikan semua jawaban terjawab dengan tepat.

1. Apa arti klasifikasi?

a. Memprediksi perilaku
b. Mengevaluasi model
c. Memprediksi nilai kontinu
d. Pelanggan bereksperimen dan menganalisis
e. Proses memprediksi label kelas diskrit atau kategori)

2. Apa itu algoritma tanpa pengawasan (unsupervised algorithm)?

a. Algoritma tanpa pengawasan melatih dataset dan menarik kesimpulan pada data yang tidak berlabel)
b. Labeled data yang dapat dianalisis dan dilatih)
c. ilmu komputer yang memungkinkan komputer mampu belajar dengan program yang kompleks
d. Algoritma tanpa pengawasan melatih dataset dan menarik kesimpulan pada data berlabel)
e. ilmu komputer yang memungkinkan komputer mampu belajar tanpa secara eksplisit diprogram

3. Berikut adalah contoh data kategorikal, kecuali

a. Tingkat Pendidikan
b. Umur
c. Nama
d. Ras
e. Jenis Kelamin

4. Berikut adalah masalah pada data mining mengenai kompleksitas data yang tinggi, kecuali ….

a. Data streams and sensor data
b. Time-series data, temporal data, sequence data
c. Software programs, scientific simulation
d. Structure data, graphs, social networls and multi-linked data
e. Spatial, spatitotemporal, animation, text and web data

5. Berikut adalah proses data mining di mana terdapat himpunan data, kecuali ….

a. Data Transformation dan Data Cleaning
b. Data Integration dan Data Estimation
c. Data Cleaning dan Data Integration
d. Data Reduction dan Data Transformation
e. Data Integration dan Data Reduction

6. Berikut ini bukan merupakan aktivitas yang biasa terjadi pada saat tahapan Data Preprocessing…

a. Data Audit
b. Data Discretization
c. Data Reduction
d. Data Cleaning
e. Data Integration

7. Berikut ini merupakan aktivitas yang dilakukan dalam proses Business Understanding pada CRISP-DM, Kecuali…

a. Mengecek kualitas data
b. Mengidentifikasi sumber daya
c. Menentukan objektif dari proses bisnis
d. Menentukan timeline
e. Mengidentifikasi risiko

8. Berikut ini merupakan konsep data mining…

a. Himpunan, data complexity, dan data scienc
b. Himpunan, Metode data mining, dan data science
c. Volume, Variety, Velocity)
d. Himpunan, Metode data mining, pengetahuan, dan evaluasi
e. Himpunan, data complexity, dan metode data mining

9. Berikut ini yang bukan merupakan proses dari data mining pada framework CRISP-DM yaitu ….

a. problem understanding
b. data management
c. data engineering
d. data understanding
e. data preparation

10. Berikut yang bukan merupakan algoritma untuk kasus klasifikasi adalah:

a. K-means
b. Naïve Bayes
c. SVM
d. ANN
e. DT

11. Berikut yang bukan merupakan algoritma untuk klustering adalah:

a. Aglomerative
b. SVM
c. Db-scan
d. Optics
e. K-means

12. Dalam melakukan teknik Data Science, mana di bawah ini yang tidak perlu dilakukan:

a. Feature Selection
b. Visualisasi data
c. Preprocessing
d. Feature Futurization
e. Feature Engineering

13. Diantara hal yang berhubungan dengan pengembangan model machine learning pada sebuah restaurant seafood berikut, manakah yang bukan merupakan Task (T), Performance (P) dan Experience (E)?

a. Semua ANSWER merupakan Task (T), Performance (P) dan Experience (E) dalam pengembangan Machine Learning
b. Download daftar makanan dari internet
c. Jumlah makanan yang dengan benar diklasifikasikan sebagai seafood
d. Dataset berisi makanan yang telah dilabeli seafood dan bukan seafood
e. Mengklasifikasikan label makanan sebagai seafood atau bukan seafood

14. Di antara pilihan ANSWER berikut ini, yang merupakan teknik data mining yaitu ….

a. klasifikasi
b. verifikasi
c. kombinasi
d. transformasi
e. agregasi

15. Di bawah ini yang merupakan jenis data timeseries adalah:

a. Data tingkat vaksinasi COVID-19 per tanggal 13 September 2021 antarnegara
b. Data jenis vaksin COVID-19 yang digunakan antarnegara
c. Data kesenjangan pendapatan antarwilayah di Indonesia tahun 2020
d. Data perkembangan penambahan kasus positif COVID-19 harian di Indonesia selama 2021
e. Data pertumbuhan ekonomi antarnegara dari tahun 2010 sd. 2020

16. Jenis kasus terkait dengan model klasifikasi adalah:

a. Model untuk memprediksi harga rumah di suatu wilayah
b. Model untuk memprediksi jumlah wisatawan asing yang berkunjung di Bali
c. Model untuk memprediksi pertumbuhan ekonomi Indonesia
d. Model untuk memprediksi apakah penumpang kapal Titanic selamat atau tidak
e. Model untuk memprediksi harga saham

17. Mana di bawah ini yang bukan merupakan tools/metrics yang digunakan untuk mengevaluasi hasil dari teknik klasifikasi?

a. Confusion Matrix
b. True Negative
c. True Positive
d. Neutral Negative
e. False Positive

18. Manakah data di bawah ini yang bisa dikategorikan sebagai tipe data nominal…

a. Jabatan
b. Temperatur
c. Jenis Kelamin
d. Pendidikan
e. Tinggi Badan

19. Manakah pertanyaan berikut yang sesuai dengan pendekatan evaluasi K-Fold:

a. Nilai score model terakhir yang dilaporkan setelah selesai training seluruh fold adalah nilai score terbesar yang didapat selama training
b. model dilatih dengan seluruh data namun di test dengan data yang berbeda tergantung pada data yang ada di tiap fold
c. Untuk menyelesaikan k-fold, dibutuhkan training model sejumlah k-1 kali
d. Tiap data poin hanya ada pada 1 fold dan tidak dapat ditemukan pada fold lain
e. K adalah jumlah data poin yang paling dekat dengan data poin yang baru

20. Manakah pilihan yang benar diantara hal-hal yang berhubungan dengan confusion matrix berikut ini:

a. False Negative juga dapat disebut sebagai type I error / underestimation
b. Recall adalah persentase jumlah tebakan positif yang benar dari seluruh tebakan positif model
c. False Positive adalah saat dimana model melakukan kesalahan dalam menebak data yang memiliki ANSWER positif
d. F1 Score adalah nilai model yang menyeimbangkan antara nilai precision model dan nilai recall model
e. Precision adalah persentase jumlah tebakan positif yang dengan benar ditebak oleh model dari seluruh data positif yang ada

21. Manakah yang merupakan peran utama data mining…

a. Forecasting
b. Semua benar
c. Klasifikasi dan klastering
d. Asosiasi
e. Estimasi

22. Mana pilihan di bawah ini yang merupakan etika buruk dalam menganalisis data?

a. Menganalisis data dengan software berbayar
b. Mengganti datanya agar sesuai dengan tujuan sang pengolah data
c. Menyiapkan data dari sumbernya dan mengolahnya sesuai permasalahan yang dihadapi
d. Membersihkan datanya jika memang ada noise atau data yang tidak sama skalanya
e. Meminta orang yang ahli jika ada kesulitan dalam menggunakan algoritma tertentu terkait olah data

23. Pengukuran Kualitas Data Multidimensi dapat diakses dalam bentuk, kecuali ….

a. Penafsiran dan Kemudahan diakses
b. Konsistensi dan Ketepatan waktu
c. Kepercayaan dan Nilai Tambah
d. Akurasi dan kelengkapan
e. Kelengkapan dan Kecepatan

24. Regresi adalah proses dari?

a. Pelanggan bereksperimen dan menganalisis
b. Memprediksi perilaku
c. Mengevaluasi model
d. Memprediksi nilai kontinu
e. Proses memprediksi label kelas diskrit atau kategori)

25. Teknik data mining yang bertujuan untuk mengelompokkan suatu observasi berdasarkan kelompok yang sudah ditentukan sebelumnya yaitu ….

a. klasifikasi
b. asosiasi
c. clustering
d. PCA
e. regresi

26. Teknik untuk merubah data categorical menjadi numerical disebut:

a. Encoding
b. Standardizing
c. Transforming
d. Binning
e. Normalization

27. Yang bukan merupakan bagian dari data preprocessing/persiapan data…

a. Data exploration
b. Data Cleaning
c. Data reduction
d. Data Integration
e. Data transformation

28. Yang bukan visualisasi data yang umum digunakan:

a. Y-Y plot
b. Boxplit
c. Barplot
d. Histogram
e. Scatterplot

29. Yang termasuk ke dalam evaluation metrics dari sebuah model adalah sebagai berikut, kecuali:

a. Precision
b. Recall
c. F1 Score
d. Standard Deviation
e. Root Mean Squared Error

30. Yang tidak termasuk ke dalam siklus CRISP-DM:

a. Business understanding
b. Extract, load, dan transform
c. Modeling
d. Evaluation
e. Data understanding

--

--