Deskripsi
Gunakan dataset Student Performance Data Set dari Kaggle untuk memprediksi apakah seorang siswa lulus atau tidak lulus, berdasarkan nilai ujian dan latar belakang demografi.
Dataset memiliki atribut:
- gender — Jenis kelamin siswa
- race/ethnicity — Kelompok etnis
- parental level of education — Pendidikan orang tua
- lunch — Status makan siang
- test preparation course — Apakah mengikuti kursus persiapan ujian
- math score — Nilai matematika
- reading score — Nilai membaca
- writing score — Nilai menulis
Target Variabel
Buat target baru:
- Lulus → jika rata-rata nilai (math + reading + writing) ≥ 60
- Tidak Lulus → jika rata-rata nilai < 60
Tugas Mahasiswa
- Unduh dan pahami dataset
Link dataset: Kaggle Student Performance - Pra-pemrosesan data
a. Encode variabel kategori.
b. Buat kolom baruaverage_score
dan targetlulus
(1 = Lulus, 0 = Tidak Lulus). - Eksplorasi data (EDA)
a. Hitung proporsi siswa yang lulus dan tidak lulus.
b. Visualisasikan distribusi skor. - Modeling
a. Bangun model Decision Tree Classifier.
b. Bangun model Random Forest Classifier.
c. Gunakan data training/testing (80%/20%). - Evaluasi Model
a. Hitung akurasi, precision, recall dan F1-score.
b. Visualisasikan feature importance (Random Forest).
c. Bandingkan performa kedua model. - Analisis dan Interpretasi
a. Atribut apa yang paling berpengaruh dalam prediksi kelulusan?
b. Apakah Random Forest lebih baik daripada Decision Tree? Jelaskan. - Laporan
Buat laporan yang memuat:
- Tujuan dan deskripsi dataset
- Proses analisis
- Hasil modeling & evaluasi
- Kesimpulan
Output yang Dikumpulkan
- File notebook Python (.ipynb) / Script Python (.py)
- Laporan (PDF)
Catatan Teknis
- Gunakan sklearn, pandas, matplotlib, seaborn.
- Gunakan criterion=’entropy’ untuk kedua model.
- Parameter default boleh digunakan, kecuali disebutkan.
Kriteria Penilaian
Aspek | Bobot |
---|---|
Pra-pemrosesan data | 15% |
Eksplorasi data (EDA) | 15% |
Implementasi Decision Tree | 15% |
Implementasi Random Forest | 15% |
Evaluasi dan Analisis Model | 20% |
Laporan dan Visualisasi | 20% |
Referensi
- https://scikit-learn.org/stable/modules/tree.html
- https://scikit-learn.org/stable/modules/ensemble.html#forest