Penanganan Data Tidak Normal


Salah satu metode yang dapat mengatasi data terindikasi tidak normal adalah dengan cara transformasi data. Transformasi data dapat mengubah data tidak normal, menjadi terlihat mengikuti distribusi normal. Selain itu transformasi juga dapat menangani masalah yang berkaitan dengan keragaman data. Hal ini erat kaitannya dengan bentuk distribusi data dan kemiringan data. Dengan data positif, jika diperkirakan data tidak mengikuti distribusi yang simetris, maka pada kenyataanya akan memiliki kemiringan yang positif. Pada keadaan ini, transformasi yang umum digunakan adalah transformasi logaritma z = log y (basis 10 atau e) dan transformasi akar kuadrat z = y pangkat (1/2), namun untuk kasus khusus digunakan salah satu anggota transformasi power yang disimbolkan sebagai:
Pada prakteknya, ketika lambda bukan 0 penghitungan nilai z dilakukan tanpa pengurangan 1 dan pada buku lain terdapat penambahan faktor pembagi y^(λ-1). Transformasi log dan akar kuadrat lebih sering digunakan daripada transformasi lainnya, karena nilai tabel untuk transformasi tersebut sudah tersedia dan sekarang sudah banyak alat hitung maupun software yang memiliki program transformasi tersebut. Bentuk transformasi semacam ini dikembangkan oleh G.E.P Box dan D. Cox, sehingga sering disebut sebagai transformasi Box-Cox.
 
George Edward Pelham Box (kiri) dan David Cox (kanan)

Ada transformasi khusus lainnya yang berguna dalam analisis data seperti 1/(sin √(y ̂))untuk estimasi binomial dan 1/tanh(r) untuk sampel koefisien korelasi dari distribusi biavariat normal. Hal ini dibentuk untuk membuat varians dari estimator cukup bebas dari parameter yang tidak diketahui, dan pada saat yang sama bentuk tersebut dapat meningkatkan perkiraan normal.
Transformasi terkadang sangat membantu dalam menangani outlier, walaupun sebuah outlier terkadang akan tetap menjadi outlier, setelah dilakukan transformasi akar maupun logaritma. Transformasi dianggap sangat kuat untuk dapat menarik sebuah outlier ke dalam data sehingga menjadi bukan outlier. Penanganan yang lebih baik untuk menangani outlier adalah melalui metode nonparametrik atau estimasi robust. Walaupun begitu, perlakuan transformasi untuk mengatasi permasalahan normal terkadang menimbulkan masalah baru, yaitu tidak terpenuhinya asumsi lainnya. Dalam hal ini, pengalaman  analisis sangatlah berpengaruh untuk penanganan transformasi.

Kebanyakan tulisan ini bersumber dari :
www.york.ac.uk
www.wikipedia.com
Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.
Rawlings J.O., Pantula S. G., and Dickey D.A. 1998. Applied Regression Analysis: A Research Tool Second Edition. Springer-Verlag New York, Inc.
Weisberg S. 2005. Applied Linear Regression Third Edition. John Wiley and Sons, Inc. Hoboken. New Jersey and Canada.

Sekilas P-Value


Dalam ilmu statistika, para peneliti harus menggunakan kriteria uji untuk memutuskan apakah menolak H0 atau menerima  H0. Dalam perkembangannya, banyak peneliti yang sering menggunakan p-value untuk kriteria ujinya. Hal ini disebabkan karena p-value memberikan 2 informasi sekaligus, yaitu disamping petunjuk apakah H0 pantas ditolak, p-value juga memberikan informasi mengenai peluang terjadinya kejadian yang disebutkan di dalam H0 (dengan asumsi H0 dianggap benar). Definisi p-value adalah tingkat keberartian terkecil sehingga nilai suatu uji statistik yang sedang diamati masih berarti.

P-value dapat pula diartikan sebagai besarnya peluang melakukan kesalahan apabila memutuskan untuk menolak H0.Pada umumnya,p-value dibandingkan dengan suatu taraf nyata α tertentu, biasanya 0.05 atau 5%.Taraf nyata α diartikan sebagai peluang melakukan kesalahan untuk menyimpulkan bahwa H0 salah, padahal sebenarnya statement H0 yang benar.Kesalahan semacam ini biasa dikenal dengan galat/kesalahan jenis I. Misal α yang digunakan adalah 0.05, jika p-value sebesar 0.021 (< 0.05), maka peneliti berani memutuskan menolak H0. Hal ini disebabkan karena jika peneliti memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan peneliti melakukan kesalahan masih lebih kecil daripada α = 0.05, dimana 0.05 merupakan ambang batas maksimal dimungkinkannya kita salah dalam membuat keputusan.
Cara menghitung p-value adalah mendapatkan luasan daerah di bawah kurva distribusi t-student diantara dua ordinat kedua nilai tertentu. Misalkan dalam pengujian dua sisi, H0 : µ1=µ2 dan H1 : µ1≠µ2 dan nilai uji statistik t-hitung = 1,36. Dengan demikian nilai p-value untuk pengujian ini adalah probabilitas observasi suatu nilai t yang lebih dari 1,36. Nilai ini merupakan luas daerah di bawah kurva normal di sebelah kanan t = 1,36. Dari tabel nilai distribusi t didapatkan bahwa luas daerah di bawah kurva distribusi t pada t > 1,36 atau t < -1,36 adalah 0,05. Nilai ini merupakan nilai p-value/2, dikarenakan pengujian yang dipakai adalah pengujian rata – rata dua arah. Sehingga dapat diambil keputusan gagal tolak H0 karena nilai t-hitung sebesar 1,36 lebih kecil dibandingkan nilai t (0,025;11) sebesar 2,201 atau dengan nilai p-value sebesar 0,1 lebih besar daripada nilai α = 0,05.

Sebagian tulisan ini dibuat dengan referensi dari:
- Mubarok, R. 2012. Pengambilan-Keputusan-Dengan-P-Value. Diakses melalui website http://maximaresearch.wordpress.com/ pada tanggal 14 desember 2013.
- Priyatno, D.2009. Belajar Olah Data Dengan Spss 17.Andi. Yogyakarta.
- Walpole, R. E. 1995. Pengantar Statistika edisi ke-3. Gramedia Pustaka Utama. Jakarta.

Software R


R adalah software open source untuk penghitungan dan pembuatan grafik statisik. Software ini dapat dijalankan dalam beberapa sistem operasi seperti Windows, Unix, dan Mac Os. Software R memiliki semacam package yang terus dikembangkan, sehingga dapat mengatasi permasalahan statistik yang terbaru sekalipun. Package ini dikembangkan dalam bentuk R, dan terkadang dalam Java, C, C++, dan Fortran.

   
Logo R Software (kiri), Logo R Studio (kanan)
Ada satu software yang mendukung atau memudahkan dalam pengoperasian software R. software ini adalah R Studio. Software memiliki editor yang mendukung eksekusi kode secara langsung, serta alat untuk plotting, history, identifikasi debug kode dan manajemen kerja. Software R Studio tersedia dalam jenis open source dan komersial, dan dapat digunakan pada dekstop seperti halnya software R. 

Jika tertarik untuk mencoba silakan klik link download :


Analysis Of Varians (ANOVA)


Analisis ANOVA seringkali digunakan pada banyak riset eksperimental, seperti psikologi, kedokteran, biologi, sosiologi, ekonomi, industri dan lainnya. Analisis ANOVA dikembangkan oleh Ronald Aylmer Fisher, seorang ilmuan asal inggris yang ahli dalam bidang statistika, matematika, dan genetika. Konon nama distribusi - F pada ANOVA adalah inisial dari nama pak fisher ini.
Ronald Aylmer Fisher
Analisis ANOVA memiliki konsep dasar yang erat kaitannya dengan rata – rata dan varians. Analsis ini hampir sama dengan regresi yang berfungsi untuk mengetahui hubungan dan membuat model antara variabel respon (y) dan variabel prediktor (x). Perbedaannya adalah pada analisis ANOVA menggunakan prediktor data kualitatif (bersifat kategorik).
Pengujian ANOVA memiliki banyak karakteristik, hal ini dikarenakan kebutuhan riset eksperimen yang makin berkembang. Namun secara umum, ANOVA dapat digambarkan secara sederhana dengan tabel ANOVA sebagai berikut.
Nilai F0 yang diperoleh kemudian dibandingkan dengan nilai  Fα; a-1, N-a atau F tabel. Jika nilai F0 lebih kecil dari nilai Ftabel maka hipotesis awal (H0) yang digunakan dapat diterima, yang artinya bahwa minimal ada satu perlakuan yang memiliki perbedaan dengan perlakuan lainnya. Adapun asumsi yang dibutuhkan untuk menghasilkan penelitian ANOVA yang baik adalah asumsi IIDN (identik, independen dan distribusi normal)

Kebanyakan tulisan ini bersumber dari :
- www.wikipedia.com
- Rutherford, A. 2001. Introducing ANOVA and ANCOVA a GLM Approach. Sage Publication.
- Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.

Koefisien Determinasi (R-Square)


Dalam bidang pemodelan, nilai koefisien determinasi ( Rsq ) dapat menjadi indikator kebaikan model.  Statistik uji R sudah sangat umum digunakan dalam pemilihan model regresi, walaupun nilai ini hanyalah salah satu dari banyak kriteria kebaikan model. Nilai Rsq yang tinggi adalah kriteria nilai model yang baik untuk meramalkan data. Bagaimana ini bisa terjadi? Jadi ceritanya begini. Rumus dari koefisien determinasi adalah
Terkadang peneliti seringkali menyebutkan bahwa nilai R dapat mengindikasikan besarnya variasi dalam respon yang dapat dijelaskan oleh model. Hal ini dikarenakan hasil ramalan pemodelan (fit responses) akan memiliki nilai rata – rata yang sama dengan data aslinya, namun akan memiliki perbedaan nilai variasi dengan data aslinya. Kemungkinan dengan konsep inilah rumus R ini terbentuk. Dalam rumus R, nilai SS Eror dapat dikatakan sebagai perwakilan nilai variasi dari residu model, sedangkan nilai SS Total merupakan nilai variasi total dalam data.

Rumus dari SS Total adalah penjumlahan dari SS Eror + SS Regresi, sehingga nilai SS Total akan lebih besar daripada SS Eror. Jika diaplikasikan pada rumus Rsq diatas maka nilai dari pembagian SS Eror dengan SS Total akan berada pada range 0 – 1. Oleh karena itu nilai koefisien determinasi ( Rsq ) seringkali akan memiliki nilai dengan range 0 – 1. Rsq akan bernilai 1 jika model dianggap dapat menjelaskan keseluruhan variasi dari data, jika bernilai 0 maka berlaku sebaliknya. Nilai Rsq seringkali akan memiliki nilai yang optimum ketika asumsi dalam pemodelan terpenuhi.

Akan ada banyak keragaman keputusan dalam membuat standar kebaikan model, hal tersebut seiring dengan perkembangan metode pemodelan yang digunakan dan ini masih terus akan berkembang. Koefisien determinasi yang telah dijelaskan hanyalah dasar untuk mempermudah pembelajaran statistik. Berikut ini adalah R adjusted, salah satu pengembangan koefisien determinasi dengan mempertimbangkan adanya perbedaan jumlah variabel prediktor atau terkadang ada yang menyebut sebagai nilai R yang terkoreksi.

R-Adjusted
Modifikasi nilai R dengan memasukkan koreksi jumlah prediktor dalam model dan sangat berguna untuk membandingkan model dengan jumlah prediktor yang berbeda.

tulisan ini bersumber dari:
- www.wikipedia.com
- Draper, N.R. and Smith H. 1998. Applied Regression Analysis, Third Edition. John Wiley and Sons. Canada
- Weisberg S. 2005. Applied Linear Regression, Third Edition. John Wiley and Sons. New Jersey.

Uji Normalitas Kolmogorov


Distribusi normal bisa jadi adalah bentuk distribusi yang paling sering digunakan dalam distribusi probabilitas baik itu pada teori statistik maupun dalam aplikasinya. Distribusi normal pertama kali digunakan oleh de Moivre tahun 1733 dalam literatur nya yang membahas mengenai estimasi distribusi binomial. Namun bagaimanapun juga, pengembang teori ini yaitu Gauss tahun 1809 dan 1816 menjadi standard yang digunakan dalam statistik modern. Oleh karena itu, distribusi normal pada umumnya disebut sebagai distribusi Gauss. (baca artikel sebelumnya)

Pada tulisan kali ini, akan dibahas mengenai pengujian distribusi normal menggunakan Kolmogorov Smirnov atau biasa disebut Kolmogorov Normality Test. Ada beberapa cara lain untuk pengujian distribusi normal yang seringkali digunakan yaitu Anderson Darling dan Shapiro–Wilk.

Pada mulanya pengukuran kesesuaian distribusi (goodness of fit) diciptakan oleh Bapak Pearson tahun 1902 namun untuk pengukuran goodness of fit pada bentuk distribusi yang umum, pertama kali dilakukan oleh Bapak Kolmogorov pada tahun 1933. Andrei Nikolaevich Kolmogorov bisa jadi adalah matematikawan yang paling sukses dan dikenal oleh matematikawan di negara soviet sepanjang masa. Kolmogorov membuat kontribusi penting pada teori probabilitas, termasuk tes statistik untuk persamaan distribusi. Sedangkan Smirnov, nama asli Nikolai Vasil’yevich Smirnov adalah matematikawan soviet lainnya yang memberikan penambahan pada hasil Kolmogorov untuk dua sampel.
 Andrei Nikolaevich Kolmogorov
Dua-sampel uji K-S merupakan salah satu metode nonparametrik yang paling berguna dan umum untuk membandingkan dua sampel, karena sensitifitas terhadap perbedaan kedua lokasi dan bentuk fungsi distribusi kumulatif empiris dari dua sampel. Namun berbagai penelitian telah menemukan bahwa tes ini kurang kuat dalam pengujian normalitas dibandingkan pengujian Shapiro–Wilk test or Anderson–Darling meskipun sudah dilakukan koreksi terhadap data (standartdize).

Kolmogorov smirnov adalah sebuah tes nonparametrik untuk menguji kesamaan distribusi secara kontinyu, probabilitas data sebuah dimensi digunakan untuk pembanding dengan satu sampel (pengujian satu sampel K-S) maupun dua sampel (pengujian dua sampel K-S). Hal ini dikarenakan konsep dasar pada pengujian kolmogorov smirnov adah pengujian jarak. Pengujian Kolmogorov Smirnov melakukan penghitungan jarak antar fungsi distribusi dari pengamatan (empiris) dan distribusi kumulatif dari distribusi acuan atau antara fungsi distribusi empiris dari dua sampel.
Statistik uji untuk pengujian Kolmogorov – Smirnov diberikan sebagai.
 
secara mudahnya konsep dari Kolmogorov – Smirnov adalah mengetahui jarak terbesar distribusi pengamatan dengan distribusi kumulatif yang bisa dibentuk. (pahamkah?). Secara gambar mungkin seperti ini.
 
Ilustrasi statistik Kolmogorov-Smirnov. 
Garis merah adalah CDF, garis biru adalah ECDF, dan panah hitam adalah statistik K-S.
Hasil penghitungan ini dapat secara mudah diperoleh dengan menggunakan software statistik seperti minitab, spss, matlab ataupun opensource software R.

Tulisan ini bersumber dari :
- http://www.wikipedia.com
- http://gozips.uakron.edu
- Kvam P.H. and Vidakovic B. 2007. Nonparametrics Statistics with Applications to Science and Engineering. John Wiley and Sons, Inc.
- Alzaatrech A., Lee C., and Famoye F. 2014. T-Normal Family Of Distributions: A New Approach To Generalize The Normal Distribution. Springer Open Journal. Dapat diakses di http://www.jsdajournal.com
 

Statistiser, all about statistics Of Galih_sp © 2011