Showing posts with label Statistika Dasar (Basic Statistics). Show all posts
Showing posts with label Statistika Dasar (Basic Statistics). Show all posts

Tutorial Software R


Sebelum membaca tulisan ini, sebaiknya anda membaca tulisan sebelumnya “ sekilas mengenai software R “ , karena kali ini akan dibahas mengenai beberapa syntag yang seringkali digunakan pada software R.

Memunculkan Data Excel pada R
Data excel dapat langsung digunakan untuk analisis pada R, dengan syarat data tersebut memiliki extensi *.csv . Code untuk memanggil data excel ke dalam R adalah sebagai berikut.

data <-read.csv ("lokasi file ", sep = "," ,header = TRUE)

keterangan :
data        : nama variabel yang digunakan untuk pemanggilan selanjutnya
read.csv  : perintah program untuk menggunakan data berextensi *.csv
lokasi file : lokasi penyimpanan data ( misal “ C://Users//ASA//Desktop//data.csv")
sep        : separator, untuk memformat penggunaan tanda , atau . untuk nilai desimal pada excel (tergantung settingan pada komputer)
header   : perintah untuk penggunaan header atau tidak (header adalah kolom paling atas yang biasa diapakai sebagai keterangan pada tabel data)

Pemanggilan Function
Pembuatan program biasanya dilakukan dengan membagi program menjadi bagian kecil agar mudah untuk proses evaluasi atau juga mempermudah dalam pemanggilan ulang. Bagian kecil ini dapat dibuat menggunakan notepad dengan extensi *.txt . Pemanggilan program atau biasa disebut Function dapat mudah digunakan dengan code sebagai berikut.

source ("lokasi fungsi")
contoh :
source ("C:\\Users\\ASA\\Desktop\\VarianX.txt")

Penggunaan Fungsi Looping “ For “
Looping dalam pemrograman dapat diartikan sebagai pekerjaan yang dilakukan berulang – ulang. Looping sangat berguna sekali dalam pemrograman, salah satunya adalah untuk mengurangi beban program karena banyaknya code. Selain itu, dengan bantuan looping, programer dipermudah dengan tidak menggunakan code berulang sehingga waktu pembuatan program lebih efisien. Berikut contoh dari penggunaan looping dengan menggunakan fungsi “ for “.

> a<- c(1 : 3)
> b<-matrix (nrow=length(a), ncol=1)
> for (i in 1:length(a))
+ (b[i]<-a[i]^2)
>
=== Output ====
> b
     [,1]
[1,]    1
[2,]    4
[3,]    9
>

selanjutnya Tutorial Random Data

- sekian, terima kasih -

Analisis Faktor dan Principal Component


Sebuah paradigma yang seringkali hadir dalam pengolahan data adalah terbentuknya model yang relevan yang berasal dari sejumlah faktor, hasil reduksi dari sejumlah variabel. Salah satu analisis yang dapat digunakan adalah Analisis Faktor / Factor Analysis. Factor Analysis adalah teknik pemodelan sebab akibat yang ditujukan untuk menjelaskan hubungan antara satu set variabel yang diamati (nyata ada), melalui kombinasi linier dari beberapa variabel laten faktor acak (yang tidak diketahui). Dasar dari analisis faktor adalah pemikiran bahwa sebuah variabel dapat digabungkan dengan melihat besar korelasinya. Analisis faktor, pertama kali digunakan oleh Charles Edward Spearman seorang psikolog inggris dibidang intelegensia.

Charles Edward Spearman
Analisis faktor sangat erat kaitannya dengan analisis principal component (PCA). Analisis PCA lebih terpusatkan untuk menjelaskan struktur dari varian variabel, sedangkan analisis faktor memberikan tambahan untuk menjelaskan kovarian dari beberapa variabel yang sudah ditentukan. Hasil dari PCA dapat digunakan untuk mencari jumlah kecil variabel yang dapat mewakili variabel sesungguhnya. Meskipun sejumlah variabel dibutuhkan untuk menghasilkan sistem keragaman total, akan tetapi jumlah yang banyak dari variabel ini, akan sangat menyulitkan dalam pengambilan kesimpulan analisis. Oleh karena itu, dengan menggunakan PCA akan dapat diketahui jumlah kecil variabel pengganti (dari sejumlah banyak variabel asal) yang dapat mewakili, tanpa banyak menghilangkan keragaman pada variabel asalnya.
Penggunaan PCA sangat erat kaitannya dengan penghitungan matrik varians – covarians maupun matrik korelasi. Pada pengembangan penghitungan tersebut tidak membutuhkan asumsi multivariat normal. Namun dalam situasi lain, PCA yang diturunkan dari populasi multivariate normal memiliki kesimpulan yang lebih baik dalam aturan kepekatan konstant elipsoid (berkaitan dengan bentuk grafik PCA).
Tahapan dalam analisis faktor adalah sebagai berikut.
  1. menghitung nilai matrik varian kovarian data sampel
  2. menghitung nilai korelasi antar matrik varian kovarian
    menghitung nilai eigen value dan eigen vektor matrik korelasi
  3. menghitung nilai loading faktor
  4. menghitung nilai communalities
  5. menghitung nilai keragaman spesifik

kebanyakan tulisan ini bersumber dari :
www.wikipedia.com
Johnson, R. A. and Wichern, D. W. 2007. .Applied Multivariat Analysis, Sixth Edition. Prentice Hall Inc. USA.
Timm, N.H. 2002. Applied Multivariate Analysis. Springer. Verlag. New York.


Penanganan Data Tidak Normal


Salah satu metode yang dapat mengatasi data terindikasi tidak normal adalah dengan cara transformasi data. Transformasi data dapat mengubah data tidak normal, menjadi terlihat mengikuti distribusi normal. Selain itu transformasi juga dapat menangani masalah yang berkaitan dengan keragaman data. Hal ini erat kaitannya dengan bentuk distribusi data dan kemiringan data. Dengan data positif, jika diperkirakan data tidak mengikuti distribusi yang simetris, maka pada kenyataanya akan memiliki kemiringan yang positif. Pada keadaan ini, transformasi yang umum digunakan adalah transformasi logaritma z = log y (basis 10 atau e) dan transformasi akar kuadrat z = y pangkat (1/2), namun untuk kasus khusus digunakan salah satu anggota transformasi power yang disimbolkan sebagai:
Pada prakteknya, ketika lambda bukan 0 penghitungan nilai z dilakukan tanpa pengurangan 1 dan pada buku lain terdapat penambahan faktor pembagi y^(λ-1). Transformasi log dan akar kuadrat lebih sering digunakan daripada transformasi lainnya, karena nilai tabel untuk transformasi tersebut sudah tersedia dan sekarang sudah banyak alat hitung maupun software yang memiliki program transformasi tersebut. Bentuk transformasi semacam ini dikembangkan oleh G.E.P Box dan D. Cox, sehingga sering disebut sebagai transformasi Box-Cox.
 
George Edward Pelham Box (kiri) dan David Cox (kanan)

Ada transformasi khusus lainnya yang berguna dalam analisis data seperti 1/(sin √(y ̂))untuk estimasi binomial dan 1/tanh(r) untuk sampel koefisien korelasi dari distribusi biavariat normal. Hal ini dibentuk untuk membuat varians dari estimator cukup bebas dari parameter yang tidak diketahui, dan pada saat yang sama bentuk tersebut dapat meningkatkan perkiraan normal.
Transformasi terkadang sangat membantu dalam menangani outlier, walaupun sebuah outlier terkadang akan tetap menjadi outlier, setelah dilakukan transformasi akar maupun logaritma. Transformasi dianggap sangat kuat untuk dapat menarik sebuah outlier ke dalam data sehingga menjadi bukan outlier. Penanganan yang lebih baik untuk menangani outlier adalah melalui metode nonparametrik atau estimasi robust. Walaupun begitu, perlakuan transformasi untuk mengatasi permasalahan normal terkadang menimbulkan masalah baru, yaitu tidak terpenuhinya asumsi lainnya. Dalam hal ini, pengalaman  analisis sangatlah berpengaruh untuk penanganan transformasi.

Kebanyakan tulisan ini bersumber dari :
www.york.ac.uk
www.wikipedia.com
Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.
Rawlings J.O., Pantula S. G., and Dickey D.A. 1998. Applied Regression Analysis: A Research Tool Second Edition. Springer-Verlag New York, Inc.
Weisberg S. 2005. Applied Linear Regression Third Edition. John Wiley and Sons, Inc. Hoboken. New Jersey and Canada.

Sekilas P-Value


Dalam ilmu statistika, para peneliti harus menggunakan kriteria uji untuk memutuskan apakah menolak H0 atau menerima  H0. Dalam perkembangannya, banyak peneliti yang sering menggunakan p-value untuk kriteria ujinya. Hal ini disebabkan karena p-value memberikan 2 informasi sekaligus, yaitu disamping petunjuk apakah H0 pantas ditolak, p-value juga memberikan informasi mengenai peluang terjadinya kejadian yang disebutkan di dalam H0 (dengan asumsi H0 dianggap benar). Definisi p-value adalah tingkat keberartian terkecil sehingga nilai suatu uji statistik yang sedang diamati masih berarti.

P-value dapat pula diartikan sebagai besarnya peluang melakukan kesalahan apabila memutuskan untuk menolak H0.Pada umumnya,p-value dibandingkan dengan suatu taraf nyata α tertentu, biasanya 0.05 atau 5%.Taraf nyata α diartikan sebagai peluang melakukan kesalahan untuk menyimpulkan bahwa H0 salah, padahal sebenarnya statement H0 yang benar.Kesalahan semacam ini biasa dikenal dengan galat/kesalahan jenis I. Misal α yang digunakan adalah 0.05, jika p-value sebesar 0.021 (< 0.05), maka peneliti berani memutuskan menolak H0. Hal ini disebabkan karena jika peneliti memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan peneliti melakukan kesalahan masih lebih kecil daripada α = 0.05, dimana 0.05 merupakan ambang batas maksimal dimungkinkannya kita salah dalam membuat keputusan.
Cara menghitung p-value adalah mendapatkan luasan daerah di bawah kurva distribusi t-student diantara dua ordinat kedua nilai tertentu. Misalkan dalam pengujian dua sisi, H0 : µ1=µ2 dan H1 : µ1≠µ2 dan nilai uji statistik t-hitung = 1,36. Dengan demikian nilai p-value untuk pengujian ini adalah probabilitas observasi suatu nilai t yang lebih dari 1,36. Nilai ini merupakan luas daerah di bawah kurva normal di sebelah kanan t = 1,36. Dari tabel nilai distribusi t didapatkan bahwa luas daerah di bawah kurva distribusi t pada t > 1,36 atau t < -1,36 adalah 0,05. Nilai ini merupakan nilai p-value/2, dikarenakan pengujian yang dipakai adalah pengujian rata – rata dua arah. Sehingga dapat diambil keputusan gagal tolak H0 karena nilai t-hitung sebesar 1,36 lebih kecil dibandingkan nilai t (0,025;11) sebesar 2,201 atau dengan nilai p-value sebesar 0,1 lebih besar daripada nilai α = 0,05.

Sebagian tulisan ini dibuat dengan referensi dari:
- Mubarok, R. 2012. Pengambilan-Keputusan-Dengan-P-Value. Diakses melalui website http://maximaresearch.wordpress.com/ pada tanggal 14 desember 2013.
- Priyatno, D.2009. Belajar Olah Data Dengan Spss 17.Andi. Yogyakarta.
- Walpole, R. E. 1995. Pengantar Statistika edisi ke-3. Gramedia Pustaka Utama. Jakarta.

Analysis Of Varians (ANOVA)


Analisis ANOVA seringkali digunakan pada banyak riset eksperimental, seperti psikologi, kedokteran, biologi, sosiologi, ekonomi, industri dan lainnya. Analisis ANOVA dikembangkan oleh Ronald Aylmer Fisher, seorang ilmuan asal inggris yang ahli dalam bidang statistika, matematika, dan genetika. Konon nama distribusi - F pada ANOVA adalah inisial dari nama pak fisher ini.
Ronald Aylmer Fisher
Analisis ANOVA memiliki konsep dasar yang erat kaitannya dengan rata – rata dan varians. Analsis ini hampir sama dengan regresi yang berfungsi untuk mengetahui hubungan dan membuat model antara variabel respon (y) dan variabel prediktor (x). Perbedaannya adalah pada analisis ANOVA menggunakan prediktor data kualitatif (bersifat kategorik).
Pengujian ANOVA memiliki banyak karakteristik, hal ini dikarenakan kebutuhan riset eksperimen yang makin berkembang. Namun secara umum, ANOVA dapat digambarkan secara sederhana dengan tabel ANOVA sebagai berikut.
Nilai F0 yang diperoleh kemudian dibandingkan dengan nilai  Fα; a-1, N-a atau F tabel. Jika nilai F0 lebih kecil dari nilai Ftabel maka hipotesis awal (H0) yang digunakan dapat diterima, yang artinya bahwa minimal ada satu perlakuan yang memiliki perbedaan dengan perlakuan lainnya. Adapun asumsi yang dibutuhkan untuk menghasilkan penelitian ANOVA yang baik adalah asumsi IIDN (identik, independen dan distribusi normal)

Kebanyakan tulisan ini bersumber dari :
- www.wikipedia.com
- Rutherford, A. 2001. Introducing ANOVA and ANCOVA a GLM Approach. Sage Publication.
- Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.

Koefisien Determinasi (R-Square)


Dalam bidang pemodelan, nilai koefisien determinasi ( Rsq ) dapat menjadi indikator kebaikan model.  Statistik uji R sudah sangat umum digunakan dalam pemilihan model regresi, walaupun nilai ini hanyalah salah satu dari banyak kriteria kebaikan model. Nilai Rsq yang tinggi adalah kriteria nilai model yang baik untuk meramalkan data. Bagaimana ini bisa terjadi? Jadi ceritanya begini. Rumus dari koefisien determinasi adalah
Terkadang peneliti seringkali menyebutkan bahwa nilai R dapat mengindikasikan besarnya variasi dalam respon yang dapat dijelaskan oleh model. Hal ini dikarenakan hasil ramalan pemodelan (fit responses) akan memiliki nilai rata – rata yang sama dengan data aslinya, namun akan memiliki perbedaan nilai variasi dengan data aslinya. Kemungkinan dengan konsep inilah rumus R ini terbentuk. Dalam rumus R, nilai SS Eror dapat dikatakan sebagai perwakilan nilai variasi dari residu model, sedangkan nilai SS Total merupakan nilai variasi total dalam data.

Rumus dari SS Total adalah penjumlahan dari SS Eror + SS Regresi, sehingga nilai SS Total akan lebih besar daripada SS Eror. Jika diaplikasikan pada rumus Rsq diatas maka nilai dari pembagian SS Eror dengan SS Total akan berada pada range 0 – 1. Oleh karena itu nilai koefisien determinasi ( Rsq ) seringkali akan memiliki nilai dengan range 0 – 1. Rsq akan bernilai 1 jika model dianggap dapat menjelaskan keseluruhan variasi dari data, jika bernilai 0 maka berlaku sebaliknya. Nilai Rsq seringkali akan memiliki nilai yang optimum ketika asumsi dalam pemodelan terpenuhi.

Akan ada banyak keragaman keputusan dalam membuat standar kebaikan model, hal tersebut seiring dengan perkembangan metode pemodelan yang digunakan dan ini masih terus akan berkembang. Koefisien determinasi yang telah dijelaskan hanyalah dasar untuk mempermudah pembelajaran statistik. Berikut ini adalah R adjusted, salah satu pengembangan koefisien determinasi dengan mempertimbangkan adanya perbedaan jumlah variabel prediktor atau terkadang ada yang menyebut sebagai nilai R yang terkoreksi.

R-Adjusted
Modifikasi nilai R dengan memasukkan koreksi jumlah prediktor dalam model dan sangat berguna untuk membandingkan model dengan jumlah prediktor yang berbeda.

tulisan ini bersumber dari:
- www.wikipedia.com
- Draper, N.R. and Smith H. 1998. Applied Regression Analysis, Third Edition. John Wiley and Sons. Canada
- Weisberg S. 2005. Applied Linear Regression, Third Edition. John Wiley and Sons. New Jersey.

Uji Normalitas Kolmogorov


Distribusi normal bisa jadi adalah bentuk distribusi yang paling sering digunakan dalam distribusi probabilitas baik itu pada teori statistik maupun dalam aplikasinya. Distribusi normal pertama kali digunakan oleh de Moivre tahun 1733 dalam literatur nya yang membahas mengenai estimasi distribusi binomial. Namun bagaimanapun juga, pengembang teori ini yaitu Gauss tahun 1809 dan 1816 menjadi standard yang digunakan dalam statistik modern. Oleh karena itu, distribusi normal pada umumnya disebut sebagai distribusi Gauss. (baca artikel sebelumnya)

Pada tulisan kali ini, akan dibahas mengenai pengujian distribusi normal menggunakan Kolmogorov Smirnov atau biasa disebut Kolmogorov Normality Test. Ada beberapa cara lain untuk pengujian distribusi normal yang seringkali digunakan yaitu Anderson Darling dan Shapiro–Wilk.

Pada mulanya pengukuran kesesuaian distribusi (goodness of fit) diciptakan oleh Bapak Pearson tahun 1902 namun untuk pengukuran goodness of fit pada bentuk distribusi yang umum, pertama kali dilakukan oleh Bapak Kolmogorov pada tahun 1933. Andrei Nikolaevich Kolmogorov bisa jadi adalah matematikawan yang paling sukses dan dikenal oleh matematikawan di negara soviet sepanjang masa. Kolmogorov membuat kontribusi penting pada teori probabilitas, termasuk tes statistik untuk persamaan distribusi. Sedangkan Smirnov, nama asli Nikolai Vasil’yevich Smirnov adalah matematikawan soviet lainnya yang memberikan penambahan pada hasil Kolmogorov untuk dua sampel.
 Andrei Nikolaevich Kolmogorov
Dua-sampel uji K-S merupakan salah satu metode nonparametrik yang paling berguna dan umum untuk membandingkan dua sampel, karena sensitifitas terhadap perbedaan kedua lokasi dan bentuk fungsi distribusi kumulatif empiris dari dua sampel. Namun berbagai penelitian telah menemukan bahwa tes ini kurang kuat dalam pengujian normalitas dibandingkan pengujian Shapiro–Wilk test or Anderson–Darling meskipun sudah dilakukan koreksi terhadap data (standartdize).

Kolmogorov smirnov adalah sebuah tes nonparametrik untuk menguji kesamaan distribusi secara kontinyu, probabilitas data sebuah dimensi digunakan untuk pembanding dengan satu sampel (pengujian satu sampel K-S) maupun dua sampel (pengujian dua sampel K-S). Hal ini dikarenakan konsep dasar pada pengujian kolmogorov smirnov adah pengujian jarak. Pengujian Kolmogorov Smirnov melakukan penghitungan jarak antar fungsi distribusi dari pengamatan (empiris) dan distribusi kumulatif dari distribusi acuan atau antara fungsi distribusi empiris dari dua sampel.
Statistik uji untuk pengujian Kolmogorov – Smirnov diberikan sebagai.
 
secara mudahnya konsep dari Kolmogorov – Smirnov adalah mengetahui jarak terbesar distribusi pengamatan dengan distribusi kumulatif yang bisa dibentuk. (pahamkah?). Secara gambar mungkin seperti ini.
 
Ilustrasi statistik Kolmogorov-Smirnov. 
Garis merah adalah CDF, garis biru adalah ECDF, dan panah hitam adalah statistik K-S.
Hasil penghitungan ini dapat secara mudah diperoleh dengan menggunakan software statistik seperti minitab, spss, matlab ataupun opensource software R.

Tulisan ini bersumber dari :
- http://www.wikipedia.com
- http://gozips.uakron.edu
- Kvam P.H. and Vidakovic B. 2007. Nonparametrics Statistics with Applications to Science and Engineering. John Wiley and Sons, Inc.
- Alzaatrech A., Lee C., and Famoye F. 2014. T-Normal Family Of Distributions: A New Approach To Generalize The Normal Distribution. Springer Open Journal. Dapat diakses di http://www.jsdajournal.com

Distribusi Normal


Distribusi normal sering kali digunakan sebagai asumsi dalam penelitian statistik. Ide ini pertama kali muncul tahun 1733 sebagai pendekatan peluang penjumlahan distribusi binomial yang disampaikan oleh Abraham De Moivre. Dalam perkembangannya, distribusi normal seringkali disebut sebagai distribusi gauss (bukan nama perintisnya). Hal ini dimungkinkan nama Carl Friedrich Gauss lebih populer di era modern dengan karyanya : Theoria Motus Corporum Coelestium.
 
Abraham De Moivre (kiri), Carl Friedrich Gauss (kanan)
Proses normalisasi dalam penelitian sangatlah penting, karena berbagai bentuk distribusi alam terkadang tidak dapat dievaluasi dalam bentuk asalnya, namun dapat  diperkirakan dan ini bukan hal yang menakjubkan karena banyak dari pendekatan adalah berdasar pada distribusi hukum normal. Distribusi normal memiliki bentuk persamaan peluang (pdf) sebagai
dengan
dan disimbolkan sebagai.
dimana x adalah distribusi normal dengan mean (miu) dan varian (sigma), berbagai cara manipulasi seringkali dilakukan untuk membuat sebuah penelitian berstandart normal atau memenuhi asumsi distribusi normal, N(0,1) dengan rata – rata bernilai 0 dan variasi bernilai 1. Perubahan dari bentuk normal umum variabel x menjadi standart normal variabel z dapat dilakukan dengan rumus
Dalam pengujian statistik (bisa jadi beberapa), perlakuan pengujian asumsi normal selalu ditujukan pada data residualnya dan bukan data sebenarnya. Hal ini dikarenakan karakteristik dari distribusi normal adalah jika terdapat penjumlahan X1, X2, … dst. maka hasil penjumlahan tersebut bisa dipastikan akan normal jika dan hanya jika X1, X2, … dst. tersebut memenuhi asumsi normal.
Salah satu karakteristik distribusi lainnya yang sering digunakan adalah ketika terdapat sebuah persamaan linier Y = a1x1+ a2x2+ … +anxn dengan populasi Y dikatakan normal, jika dan hanya jika variabel x merupakan sampel random dari sebuah populasi tertentu dan nilai a1, a2, …, an adalah nilai konstan bukan nol.

Sumber
- www.wikipedia.com
- Johnson, N.L., Kotz S., Balakrishnan N. 1994. Continuous Univariate Distributions Volume 1 Second Edition. John Wiley and Sons, Inc.
- Patel, J.K and Read, C.B .1982. Handbook of the normal distribution. Marcell Dekker, Inc. New York and Basel.
- Draper, N.R. and Smith, H. 1998. Applied regression analysis. John Wiley and Sons, Inc. Canada.
 

Statistiser, all about statistics Of Galih_sp © 2011