Istilah istilah dalam Datamining





1. Preprocessing


Preprocessing adalah tahap awal dalam pengolahan data sebemum diproses. Mengapa perlu preprocessing? Karena sering kali data yang kita dapat belum optimal/belum sesuai/belum dapat diolah secara baik dalam proses data mining. 

Contoh kasus: Misalnya data jenis kelamin. Ada yang mengisi Pria, ada yang mengisi Laki-Laki, ada pula yang mengisi Ikhwan. Ketiga kata tersebut sebenarnya bermakna sama namun ditulis dalam 3 bentuk yang berbeda. Sehingga perlu dilakukan preporcessing dulu agar hal tersebut dapat ditangani.



Di dalam data preprocessing, data disiapkan melalui beberapa tahap agar lebih berguna dan memiliki format yang lebih efisien. Langkah-langkah yang dilakukan dalam data preprocessing adalah kurang lebih sebagai berikut:


  • data cleaning
  • data integration
  • data reduction
  • data transformation



1.1. Data CleaningData Mining



Data Cleaning adalah



1. kNN
2. Data Cleaning
3. Bayes
4. Data Integration
5. K Means

K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid) terdekat dengan data.


6. Data Transformation

7. Apriori

8. Normalisation
Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga nilainya menjadi pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.


9. K Medoids

10. Regresi

suatu metode untuk mengetahui pengaruh dari suatu variabel terhadap variabel lain.

11. FP Growth

12. Logistic Regresion



13. Vertical Data Format

14. Klasifikasi

15. Supervised Learning

16. Linier Regresion


Regresi yang bersifat linier. Berdasarkan pendekatan linier.
rumus:
y = w0 + w1 x

dengan
w0 = y (rata-rata) -  w1 x1rata-rata

w1 = sigma (xi - x rata-rata) (yi - y rata-rata) / sigma (xi - x rata-rata) kwadrat

regresi.garis lurusnya dicari dengan menghitung w0 dan w1

jika variabelnya lebih dari dua

rumus:
y = w0 + w1 x + w2 x2

dengan
w0 = y (rata-rata) -  w1 x1rata-rata -  w2 x2rata-rata

w1 = sigma (x1i - x rata-rata) (yi - y rata-rata) / sigma (x1i - x rata-rata) kwadrat

w2 = sigma (x2i - x rata-rata) (yi - y rata-rata) / sigma (x2i - x rata-rata) kwadrat

regresi.garis lurusnya dicari dengan menghitung w0, w1, dan w2

Contoh:
Kasuis Santri menghafal Quran

Santri ke    Lama (hari)     Jumlah ayat yang dihafal
1                        12                         55
2                        15                         30
3                        11                         43
4                        10                          22
5                        7                            15

Berapa lama santri ke 1 akan menghafal 110 ayat?



17. Klusterisasi

18. Binerisasi


19. Decision Tree


20. Multiple Linier Regresion


21. Unsupervised Learning


22. ID3


23. Diskretisasi


24. Ensemble Methods
25. Asosiasi
26. Text Mining
27. Reinforcement Learning
28. C.4.5
29. Data Stream
30. Fuzzy KNN every Class
31. DBScan
32. Agregasi
33. Preprocessing
34. Korelasi
35. Data Reduction
36. Fuzzy C Means
37. CART
38. Adaboost
39. Bagging
40. TF IDFx

Term Frequency (TF) 
Inverse Document Frequency (IDF)


Post Navi
Berikan Reaksimu Tentang Artikel di Atas Dengan Men-Checklist Reaksi Ini

Share this

Related Posts

Previous
Next Post »