Deskripsi

Gunakan dataset Student Performance Data Set dari Kaggle untuk memprediksi apakah seorang siswa lulus atau tidak lulus, berdasarkan nilai ujian dan latar belakang demografi.

Dataset memiliki atribut:

  • gender — Jenis kelamin siswa
  • race/ethnicity — Kelompok etnis
  • parental level of education — Pendidikan orang tua
  • lunch — Status makan siang
  • test preparation course — Apakah mengikuti kursus persiapan ujian
  • math score — Nilai matematika
  • reading score — Nilai membaca
  • writing score — Nilai menulis

Target Variabel

Buat target baru:

  • Lulus → jika rata-rata nilai (math + reading + writing) ≥ 60
  • Tidak Lulus → jika rata-rata nilai < 60

Tugas Mahasiswa

  1. Unduh dan pahami dataset
    Link dataset: Kaggle Student Performance
  2. Pra-pemrosesan data
    a. Encode variabel kategori.
    b. Buat kolom baru average_score dan target lulus (1 = Lulus, 0 = Tidak Lulus).
  3. Eksplorasi data (EDA)
    a. Hitung proporsi siswa yang lulus dan tidak lulus.
    b. Visualisasikan distribusi skor.
  4. Modeling
    a. Bangun model Decision Tree Classifier.
    b. Bangun model Random Forest Classifier.
    c. Gunakan data training/testing (80%/20%).
  5. Evaluasi Model
    a. Hitung akurasi, precision, recall dan F1-score.
    b. Visualisasikan feature importance (Random Forest).
    c. Bandingkan performa kedua model.
  6. Analisis dan Interpretasi
    a. Atribut apa yang paling berpengaruh dalam prediksi kelulusan?
    b. Apakah Random Forest lebih baik daripada Decision Tree? Jelaskan.
  7. Laporan
    Buat laporan yang memuat:
  • Tujuan dan deskripsi dataset
  • Proses analisis
  • Hasil modeling & evaluasi
  • Kesimpulan

Output yang Dikumpulkan

  1. File notebook Python (.ipynb) / Script Python (.py)
  2. Laporan (PDF)

Catatan Teknis

  • Gunakan sklearn, pandas, matplotlib, seaborn.
  • Gunakan criterion=’entropy’ untuk kedua model.
  • Parameter default boleh digunakan, kecuali disebutkan.

Kriteria Penilaian

AspekBobot
Pra-pemrosesan data15%
Eksplorasi data (EDA)15%
Implementasi Decision Tree15%
Implementasi Random Forest15%
Evaluasi dan Analisis Model20%
Laporan dan Visualisasi20%

Referensi


Leave a Reply 0

Your email address will not be published. Required fields are marked *