Tutorial Random Data


Tutorial ini merupakan kelanjutan dari tutorial sebelumnya, silakan klik Tutorial Software R untuk membaca terlebih dahulu. Tulisan kali ini merupakan code tambahan yang sering dipakai untuk pembuatan random data menggunakan software R. Penggunaan code ini mempermudah analis dalam pembuatan data sebagai sample secara cepat. Pembuatan data menggunakan R dapat diatur sesuai dengan distribusi yang diinginkan peneliti. Berikut ini, beberapa contoh pembuatan random data dengan jenis distribusi yang sering digunakan.

Random Data dengan Populasi yang Ditetapkan
Pembuatan  random data dengan batasan yang ditentukan atau dengan populasi yang sudah ada, dapat dibuat menggunakan code “ sample” dengan pemanggilan code sebagai berikut.

> sample (N,n)
atau
> sample (Y, n)
Keterangan :
N = data populasi yang akan digunakan sebagai pengambilan sampel
n  = jumlah data pengambilan sampel yang diinginkan
Y = variabel yang menjadi lokasi data populasi

Contoh :
> sample (100,5)
artinya membuat data dari populasi N=100 sebanyak jumlah sample n=5
> sample (y, 5)
artinya membuat data dari populasi yang tersimpan di variable “y” sebanyak sample n = 5

Random Data Berdistribusi Normal
Klik Sekilas Distribusi Normal untuk lebih mengetahui tentang distribusi normal. Pembuatan random data dengan syarat berdistribusi normal dapat dilakukan dengan code sebagai berikut.

> rnorm (N,mean,varians)
atau dengan mean dan varians default (0,1)
> rnorm( n = x )
atau dapat diringkas menjadi
>rnorm (x)
Keterangan :
N         = jumlah data yang diinginkan
Mean   = nilai rata – rata data yang diinginkan
Varians = nilai keragaman data yang diinginkan
x          = jumlah sample yang diinginkan
Contoh :
> rnorm (100,0,1)
artinya random data normal dengan N = 100, rata-rata=0, dan varians=1
>rnorm (n = 100)
artinya random data normal dengan N = 100, dengan pengaturan standard normal (rata-rata=0, varians=1)
>rnorm (100)
artinya random data normal dengan N = 100, dengan pengaturan standard normal (rata-rata=0, varians=1)

-..distribusi random data lainnya..-

Distribusi Uniform
> runif( n = x , min = y, max = z )
Random data berdistribusi uniform dapat dibuat dengan menentukan jumlah data yang diinginkan (x) dengan batasan nilai minimum (y) dan nilai maksimum (z). jika nilai min atau max tidak ditentukan maka software R akan memakai nilai default min = 0 dan max = 1

Distribusi t-student
> rt( n = x, df = y )
Pembuatan random data berdistribusi t – student, mensyaratkan adanya nilai degree of freedom (df). Hal ini dikarenakan belum ada settingan default nilai df (y) di software R dan nilai df tidak boleh bernilai 0 (nol).

Distribusi Chi Square
>rchisq(n = x, df = y)
Pembuatan random data berdistribusi Chi square sama dengan pembuatan random data berdistribusi t – student. Walaupun begitu, apabila dilihat pada code help di software R, pembuatan random data chi square dilengkapi dengan non-centrality parameter.

Distribusi f
> rf( n = x, df1 = y, df2 = z )
Pembuatan random data berdistribusi f tidak jauh berbeda dengan pembuatan random data berdistribusi t – student.  Perbedaannya pada pembuatan random data berdistribusi f dibutuhkan dua nilai degree of freedom (df).

Distribusi Poisson
> rpois( n = x, lambda = y )
Berbeda dengan distribusi t-student, pembuatan distribusi poisson secara random mensyaratkan adanya nilai lambda. Software R belum memiliki settingan default nilai lambda dan nilai lambda tersebut tidak boleh bernilai negatif (–).

Distribusi Binomial
>rbinom(n = x, s = y , p = z)
Pembuatan random data berdistribusi binomial dapat dilakukan dengan menentukan jumlah sampel yang diinginkan (x), jumlah percobaan (y), dan peluang sukses pada tiap percobaan (z).

-sekian, terima kasih-

Peta Kontrol EWMA


Peta kontrol EWMA memberikan pertimbangan lebih terkait waktu kontrol operasi. Pada peta kontrol EWMA, proses kontrol awal memiliki nilai batas (UCL & LCL) lebih kecil daripada proses akhir dan  selanjutnya akan bernilai konstan. Peta kontrol EWMA dapat digunakan pada data individual, sedangkan untuk data dengan subgrup dapat diwakili dengan nilai rata – rata subgrup.
Peta kontrol EWMA digunakan untuk mengetahui pergeseran kecil dari mean proses. Hal ini dikarenakan, nilai yang diplotkan pada peta kontrol EWMA merupakan nilai rata – rata yang sudah terboboti dengan pembobot yang telah ditentukan peneliti. Nilai rata – rata yang diplotkan biasa disebut weighted moving average.
Contoh :
Tery Company adalah perusahaan yang bergerak dibidang farmasi. Perusahaan ini ingin membuat evaluasi proses menggunakan peta kontrol ewma. Diketahui nilai bobot lamda, L, dan standart deviasi berturut – turut adalah 0.1, 2.5 dan 0.95. pada proses awal Z0 ditentukan nilai rata – rata proses sebesar 10.
 
Peta control EWMA mempertimbangkan data sebelumnya (Zt-1) untuk membuat data control selanjutnya (Zt), sehingga data Zt bergantung pada nilai Zt-1. Artinya, ketika proses berjalan optimal pada range Zt (9.40 – 10.60) dengan Xi (7.99 – 12.16) kemudian terjadi out of control pada X9 (16.34) maka nilai X10 (10) akan menghasilkan nilai Zt yang besar dan bisa jadi dianggap sebagai nilai out of control pada diagram ewma.
Nilai keragaman data, sangat berpengaruh pada besar kecilnya batas control. Jika keragaman data yang didapat besar maka batas control akan semakin lebar. Hal ini juga terjadi pada nilai L yang merupakan bilangan pengali pada pembuatan batas kontrol ewma.

Peta Kendali Kualitas


Perbaikan kualitas produk dapat dievaluasi dengan melihat pergeseran kualitas. Sedangkan pergeseran kualitas dapat diketahui dengan melakukan evaluasi menggunakan peta kontrol. Dengan menggunakan peta kontrol maka dapat diketahui kapan kualitas produk berjalan optimal atau mengalami penurunan, sehingga dapat segera dilakukan perbaikan. Peta kontrol kualitas pertama kali dikenalkan oleh Pak Walter Andrew Shewhart.
Walter Andrew Shewhart
Berbagai jenis peta kontrol sudah dikembangkan untuk mendapatkan hasil analisis yang baik. Perubahan jenis dan distribusi data, menuntut adanya penanganan variasi dan mean yang lebih baik. Kesalahan dalam pemilihan peta kontrol akan mengakibatkan pemberian kesimpulan yang kurang tepat. Oleh karena itu, beberapa diantara peta kontrol yang ada, akan dijelaskan pada tulisan ini.

Peta dengan data subgroup
Subgroup merupakan sebuah kelompok unit, yang diperoleh dari pengambilan unit produksi dengan pengaturan seragam. Subgroup digunakan sebagai representasi proses yang sebenarnya. Biasanya pengambilan data sebagai subgroup dilakukan dalam waktu yang berdekatan. Hal ini, dimaksudkan untuk mengurangi noise proses yang akan mengganggu dalam pengambilan kesimpulan.
Peta kendali yang dapat digunakan untuk data subgrup adalah
  1. Peta kontrol X bar menunjukkan control proses yang diwakili nilai rata – rata dalam sub grup. 
  2. Peta kontrol R menunjukkan control variasi data dalam sub grup, dalam metode ini digunakan nilai range untuk mewakili variasi
  3. Peta kontrol S menunjukkan variasi data yang diwakili nilai standart deviasi.
Peta R digunakan untuk sampel kecil n<10 atau n< 30 sedangkan untuk ukuran sampel besar digunakan peta S.

Peta dengan data Individual
Setiap proses belum tentu dapat dibuat sebuah subgrup sebagai proses evaluasi. Hal ini, dapat dikarenakan pengambilan data yang terkadang membutuhkan waktu yang lama dan biaya yang tidak sedikit. Oleh karena itu, beberapa peta kendali individu dibuat untuk menangani permasalahan ini.
  1. Peta kontrol Moving Range (MR) adalah peta kontrol yang menggambarkan variasi proses, digambarkan dengan perbedaan nilai data X dengan Xt-1 .
  2. Peta kontrol Z digunakan untuk mengevaluasi proses kontrol yang terjadi pada proses produksi yang memiliki variasi produk dalam satu line produksi.
  3. Peta kontrol I digunakan untuk mengevaluasi proses yang dalam evaluasinya tidak memungkinkan untuk membuat subgrup dan hanya memiliki satu jenis produk dalam satu line produksi.
Peta Attribute Binomial
Dalam proses produksi seringkali terjadi kecacatan produk yang berakibat produk ditolak. Data kecacatan produk biasanya memiliki distribusi binomial, dikarenakan data dalam proses digambarkan dengan kualitas cacat atau tidak cacat. Beberapa peta kontrol untuk analisis proses tersebut adalah sebagai berikut.
  1. Peta kontrol p jika ingin diketahui kontrol proporsi keberhasilan sebuah proses
  2. Peta kontrol np jika ingin diketahui kontrol kumulatif cacat sebuah proses
Peta Attribute Poisson
Sedangkan data dengan nilai ketidakberhasilan proses tanpa bisa diketahui nilai keberhasilannya digolongkan sebagai data berdistribusi poisson. Data seperti ini misalnya data kejadian kecelakan dan data kejadian mati lampu pada hari senin. Kedua data tersebut dapat diketahui jumlah ketidakberhasilan prosesnya semisal lampu mati 3 kali, namun tidak akan bisa diketahui jumlah keberhasilan prosesnya. Evaluasi proses data berdistribusi poisson dapat dilakukan dengan beberapa peta kontrol sebagai berikut.
  1. Peta kontrol C digunakan jika terdapat data kegagalan proses, tanpa bisa diketahui jumlah ketidakgagalan
  2. Peta kontrol U digunakan jika terdapat data kegagalan proses dengan waktu yang berbeda sehingga probabilitas kegagalan berbeda pada tiap waktunya
Masih banyak lagi peta proses yang dapat digunakan untuk membuat evaluasi kualitas produk. Hal ini akan terus berkembang seiring dengan kemampuan perusahaan memperbaiki kualitas prosesnya. Tulisan berikutnya akan membahas mengenai peta kontrol EWMA.

Tutorial Software R


Sebelum membaca tulisan ini, sebaiknya anda membaca tulisan sebelumnya “ sekilas mengenai software R “ , karena kali ini akan dibahas mengenai beberapa syntag yang seringkali digunakan pada software R.

Memunculkan Data Excel pada R
Data excel dapat langsung digunakan untuk analisis pada R, dengan syarat data tersebut memiliki extensi *.csv . Code untuk memanggil data excel ke dalam R adalah sebagai berikut.

data <-read.csv ("lokasi file ", sep = "," ,header = TRUE)

keterangan :
data        : nama variabel yang digunakan untuk pemanggilan selanjutnya
read.csv  : perintah program untuk menggunakan data berextensi *.csv
lokasi file : lokasi penyimpanan data ( misal “ C://Users//ASA//Desktop//data.csv")
sep        : separator, untuk memformat penggunaan tanda , atau . untuk nilai desimal pada excel (tergantung settingan pada komputer)
header   : perintah untuk penggunaan header atau tidak (header adalah kolom paling atas yang biasa diapakai sebagai keterangan pada tabel data)

Pemanggilan Function
Pembuatan program biasanya dilakukan dengan membagi program menjadi bagian kecil agar mudah untuk proses evaluasi atau juga mempermudah dalam pemanggilan ulang. Bagian kecil ini dapat dibuat menggunakan notepad dengan extensi *.txt . Pemanggilan program atau biasa disebut Function dapat mudah digunakan dengan code sebagai berikut.

source ("lokasi fungsi")
contoh :
source ("C:\\Users\\ASA\\Desktop\\VarianX.txt")

Penggunaan Fungsi Looping “ For “
Looping dalam pemrograman dapat diartikan sebagai pekerjaan yang dilakukan berulang – ulang. Looping sangat berguna sekali dalam pemrograman, salah satunya adalah untuk mengurangi beban program karena banyaknya code. Selain itu, dengan bantuan looping, programer dipermudah dengan tidak menggunakan code berulang sehingga waktu pembuatan program lebih efisien. Berikut contoh dari penggunaan looping dengan menggunakan fungsi “ for “.

> a<- c(1 : 3)
> b<-matrix (nrow=length(a), ncol=1)
> for (i in 1:length(a))
+ (b[i]<-a[i]^2)
>
=== Output ====
> b
     [,1]
[1,]    1
[2,]    4
[3,]    9
>

selanjutnya Tutorial Random Data

- sekian, terima kasih -

House Of Risk ( HOR )


Salah satu analisis yang sering digunakan dalam manajemen rantai pasokan adalah analisis HOR (House Of Risk). Metode ini digunakan untuk mengidentifikasi permasalahan (resiko) dalam rantai pasokan sehingga diperoleh sistem yang robust. Analisis HOR menggunakan pendekatan penghitungan Risk Priority Index sebagai metode pemilihan resiko utama kemudian memasukkannya pada House Of Quality. Data yang diperlukan untuk mendapatkan hasil analisis HOR adalah
  1. Data Kejadian Risiko ( Risk Event ) : data ini diperoleh dengan membuat daftar identifikasi resiko yang dapat terjadi di perusahaan berdasarkan model standar SCOR (plan, source, make, deliver, dan return). Identifikasi ini membutuhkan banyak pengalaman ataupun bisa diperoleh melalui studi literatur kemudian dipartisi kedalam lima model SCOR.
  2. Data Penyebab Risiko : data ini bisa didapatkan dengan melakukan wawancara kepada tiap bagian perusahaan. Satu penyebab resiko bisa saja menyebabkan timbulnya beberapa resiko, sehingga bisa jadi data penyebab resiko lebih banyak dari pada data kejadian resiko.
  3. Severity : merupakan besarnya gangguan yang ditimbulkan oleh kejadian risiko terhadap proses bisnis perusahaan. Data ini dapat diperoleh melalui penyebaran kuisioner pada tiap bagian perusahaan yang berwenang. Kuisioner ini berisi nilai skoring dampak resiko bagi perusahaan.
  4. Occurance : data ini merupakan tingkat peluang munculnya suatu penyebab risiko sehingga berakibat pada timbulnya satu atau beberapa dampak resiko. Data dapat diperoleh dengan menghitung peluang kejadian pada record perusahaan atau menurut pengalaman pada bagian yang berwenang.
  5. Data Korelasi : data hubungan antara suatu kejadian resiko dengan penyebab resiko. Data ini diidentifikasi dengan penyesuaian kondisi dan aktivitas supply chain perusahaan dan dapat diperoleh melalui penghitungan nilai korelasi statistik. data korelasi bisa juga menggunakan pertimbangan dari pihak yang berwenang dengan membuat standar {0, 1, 3, 9} yang artinya 0 = tidak ada korelasi, 1 = korelasi rendah, 3 = korelasi sedang, 9 = korelasi tinggi.
Setelah semua data terkumpul maka dapat dilakukan penghitungan Agregate Risk Potential (ARP) yaitu nilai yang menggambarkan besarnya akibat yang ditimbulkan oleh resiko. Hasil penghitungan ARP dapat digunakan untuk pemilihan penanganan resiko yang harus diutamakan. Setelah itu dapat juga dihitung beberapa nilai sebagai pertimbangan perusahaan seperti:
  1. Nilai keefektifan tindakan atau biasa disebut Total Effectiveness (TEk) untuk mengetahui keefektifan tindakan pencegahan yang direkomendeasikan
  2. Tingkat kesulitan dalam melakukan upaya pencegahan untuk diterapkan di perusahaan (Dk)
  3. Nilai rasio antara TEk dengan Dk sehingga diperoleh nilai yang menggambarkan besarnya kemungkinan tindakan dapat terealisasi, atau jika diranking maka akan diperoleh nilai rekomendasi yang dapat diprioritaskan.
Setelah penghitungan dilakukan dapat diringkas menjadi sebuah hasil analisis menggunakan House Of Quality bagian dari analisis Quality Function Deployment.

kebanyakan dari tulisan ini bersumber dari :
- Firdausa, R., Setyanto, N.W., dan Yuniarti, R. Analisis Risiko Project Alat Antrian c2000 Menggunakan House of Risk (Studi Kasus di PT. Cendana Teknika Utama). Jurnal Rekayasa Dan Manajemen Sistem Industri Vol. 3 no. 2 Teknik Industri Universitas Brawijaya
- Hidaya, S dan Baihaqi, I. Analisis dan Mitigasi Risiko Rantai Pasok pada PT. Crayfish Softshell Indonesia. ITS.
- Pujawan, I.N. dan Geraldin, L.H. 2009. House of risk: a model for proactive supply chain risk management. Business Process Management Journal Vol. 15 No. 6. Emerald Group Publishing Limited.

Supply Chain Management ( SCM )


Bahasa yang umum digunakan untuk pembahasan judul tulisan ini adalah Supply Chain Management (SCM), dalam bahasa indonesia berarti Manajemen Rantai Pasokan (MRP). Oleh karena singkatan MRP sudah digunakan dalam salah satu bahasan operasi maka pada tulisan ini digunakan singkatan SCM untuk pembahasan. 
Akan tetapi, secara tidak menguntungkan, tidak ada definisi umum dari Supply Chain Management (SCM). Pada awal nya istilah rantai pasokan pertama kali digunakan oleh Oliver and Weber (1982) dan diulang kembali oleh Houlihan (1984,1985, 1988) pada sebuah artikel untuk memberikan gambaran manajemen aliran bahan baku dalam lingkup organisasi. Kemudian definisi SCM terus berkembang secara signifikan pada perusahaan yang terkait dengan bidang rantai pasokan. Namun beberapa peneliti manajemen, memberikan definisi yang dapat melingkupi maksud dari SCM sebagai berikut.
  1. SCM adalah sebuah aktivitas manajemen untuk mendapatkan material dan jasa kemudian mentransformasikan ke bentuk menengah dan produk akhir dan mengirimkannya melalui sistem distribusi
  2. SCM adalah bentuk manajemen internal sebuah rantai pasokan. Ketika beberapa perusahaan membuat sebuah syarat manajemen rantai pasokan, mereka bisa saja menghubungkan aliran material dengan informasi dari supplier tingkat menengah, baik hubungan dalam operasi internal maupun diluar distribusi kepada pelanggan.
  3. SCM adalah suatu bentuk hubungan panjang antara partner atau relasi dengan supplier. Bisa dikatakan bahwa Partner adalah sumber daya yang terkait erat dengan pembayaran dan pasokan dengan cara bekerja secara bersama – sama untuk mendapatkan bisnis yang menguntungkan kedua pihak.
  4. SCM adalah perilaku memanajemen seluruh jaringan yang berhubungan dengan pasokan dari sumber daya paling awal sampai pada kebutuhan pelanggan.
Tujuan SCM adalah untuk membangun pasokan dari suppliers yang berfokus pada pengoptimalan nilai untuk pelanggan akhir. Pembahasan SCM sangat penting dalam dunia industri, karena kompetisi sebenarnya bukan antar perusahaan industri / jasa namun pada rantai pasokan nya.
Ada banyak proses identifikasi yang harus dilakukan untuk membuat proses SCM berjalan robust. Salah satu cara identifikasi proses SCM yang sering digunakan adalah dengan menggunakan model SCOR. Model SCOR sudah dianggap sudah mencangkup keseluruhan proses industri. Model ini terdiri dari proses plan, source, make, deliver, dan return pada sebuah perusahaan.

kebanyakan dari tulisan ini bersumber dari :
- http://blog.pasca.gunadarma.ac.id/wp-content/uploads/2012/11/supply-chain-management.jpg
- Heizer, J. and Render, B. 2011. Operations Management Tenth Edition. Pearson Education.
- Slack, N., et all. 2005. The Blackwell Encyclopedia Of Management Second Edition. Blackwell Publishing.

Statistika dalam Industri


Kata Industry akan sangat erat kaitannya dengan kata Produksi dan Manajemen Operasi. Produksi adalah pembuatan sebuah barang dan jasa, sedangkan Manajemen Operasi adalah satu set aktivitas manajerial untuk menciptakan sebuah nilai dalam pembentukan barang dan jasa dengan mentransformasi input menjadi output.
Statistika memegang peranan penting dalam tugas manajemen operasi, terutama sebagai subject untuk melakukan analis yang berhubungan dengan forecast, QAC, atau proses operasi itu sendiri. Oleh karena itu, penting bagi seorang statistisi untuk mengetahui tentang Manajemen Operasi. Alasan paling utama untuk belajar Manajemen Operasi (MO) adalah karena MO memegang peranan penting dalam empat tugas pokok perusahaan dan dapat menghubungkan keempat bisnis tersebut secara baik. Selain itu pengeluaran terbesar (sekitar 40%) sebuah industri / perusahaan dihabiskan pada Manajemen Operasi. Ada empat tugas pokok yang harus dilakukan sebuah industri (perusahaan) agar dapat terus menjalankan usahanya.
  1. Finance / Akutansi, untuk evaluasi seberapa baik jalannya perusahaan, memantau pendapatan dan pengeluaran agar sesuai target, melakukan pembayaran hutang / salary, pengumpulan modal, dan memastikan modal dipergunakan dengan hati - hati.
  2. Marketing, sangat berhubungan dengan permintaan, keinginan pelanggan, seberapa banyak kebutuhan pelanggan,  iklan dan promosi untuk penginformasian dan membujuk pelanggan untuk mencoba produk, atau mengenai proses pemesanan barang atau jasa sampai produk itu terjual.  
  3. Personal, dalam perkembangannya tidak hanya dalam kemampuan memberikan salary, juga tentang kebutuhan pelanggan, atau tentang teknologi yang dia miliki saja, namun juga menyangkut organisasi seperti kemampuan yang memadai, pemilihan manajernya dan kecukupan pegawai dalam rekrutmen.
  4. Produksi / Operasi, yang secara singkat berhubungan dengan pembuatan produk, bentuk transformasi input menjadi output yang memiliki added value.
Namun keempat tugas ini seringkali dirangkum menjadi tiga tugas pokok, dimana tugas untuk pemilihan human resource (personel) dilebur dalam proses operasi. Sehingga akan ada 10 hal yang menjadi point penting seorang analis manajemen operasi.
  1. Desain produk dan jasa
  2. Manajemen kualitas
  3. Desain proses dan kapasitas produksi
  4. Strategi lokasi industri
  5. Stretegi tata letak ruang produksi
  6. Sumber daya manusia dan desain kerja
  7. Manajemen rantai pasokan
  8. Inventory, perencanaan material, dan ketepatan waktu
  9. Penjadwalan jangka pendek dan lanjutan
  10. Perawatan Mesin
kebanyakan dari tulisan ini bersumber dari :
- Johnson, B. 1998. Managing Operations. Butterworth-Heinemann. The Institute of
Management Oxford.
- Heizer, J. and Render, B. 2011. Operations Management Tenth Edition. Pearson Education.
- Slack, N., et all. 2005. The Blackwell Encyclopedia Of Management Second Edition.
Blackwell Publishing.

Analisis Faktor dan Principal Component


Sebuah paradigma yang seringkali hadir dalam pengolahan data adalah terbentuknya model yang relevan yang berasal dari sejumlah faktor, hasil reduksi dari sejumlah variabel. Salah satu analisis yang dapat digunakan adalah Analisis Faktor / Factor Analysis. Factor Analysis adalah teknik pemodelan sebab akibat yang ditujukan untuk menjelaskan hubungan antara satu set variabel yang diamati (nyata ada), melalui kombinasi linier dari beberapa variabel laten faktor acak (yang tidak diketahui). Dasar dari analisis faktor adalah pemikiran bahwa sebuah variabel dapat digabungkan dengan melihat besar korelasinya. Analisis faktor, pertama kali digunakan oleh Charles Edward Spearman seorang psikolog inggris dibidang intelegensia.

Charles Edward Spearman
Analisis faktor sangat erat kaitannya dengan analisis principal component (PCA). Analisis PCA lebih terpusatkan untuk menjelaskan struktur dari varian variabel, sedangkan analisis faktor memberikan tambahan untuk menjelaskan kovarian dari beberapa variabel yang sudah ditentukan. Hasil dari PCA dapat digunakan untuk mencari jumlah kecil variabel yang dapat mewakili variabel sesungguhnya. Meskipun sejumlah variabel dibutuhkan untuk menghasilkan sistem keragaman total, akan tetapi jumlah yang banyak dari variabel ini, akan sangat menyulitkan dalam pengambilan kesimpulan analisis. Oleh karena itu, dengan menggunakan PCA akan dapat diketahui jumlah kecil variabel pengganti (dari sejumlah banyak variabel asal) yang dapat mewakili, tanpa banyak menghilangkan keragaman pada variabel asalnya.
Penggunaan PCA sangat erat kaitannya dengan penghitungan matrik varians – covarians maupun matrik korelasi. Pada pengembangan penghitungan tersebut tidak membutuhkan asumsi multivariat normal. Namun dalam situasi lain, PCA yang diturunkan dari populasi multivariate normal memiliki kesimpulan yang lebih baik dalam aturan kepekatan konstant elipsoid (berkaitan dengan bentuk grafik PCA).
Tahapan dalam analisis faktor adalah sebagai berikut.
  1. menghitung nilai matrik varian kovarian data sampel
  2. menghitung nilai korelasi antar matrik varian kovarian
    menghitung nilai eigen value dan eigen vektor matrik korelasi
  3. menghitung nilai loading faktor
  4. menghitung nilai communalities
  5. menghitung nilai keragaman spesifik

kebanyakan tulisan ini bersumber dari :
www.wikipedia.com
Johnson, R. A. and Wichern, D. W. 2007. .Applied Multivariat Analysis, Sixth Edition. Prentice Hall Inc. USA.
Timm, N.H. 2002. Applied Multivariate Analysis. Springer. Verlag. New York.


Penanganan Data Tidak Normal


Salah satu metode yang dapat mengatasi data terindikasi tidak normal adalah dengan cara transformasi data. Transformasi data dapat mengubah data tidak normal, menjadi terlihat mengikuti distribusi normal. Selain itu transformasi juga dapat menangani masalah yang berkaitan dengan keragaman data. Hal ini erat kaitannya dengan bentuk distribusi data dan kemiringan data. Dengan data positif, jika diperkirakan data tidak mengikuti distribusi yang simetris, maka pada kenyataanya akan memiliki kemiringan yang positif. Pada keadaan ini, transformasi yang umum digunakan adalah transformasi logaritma z = log y (basis 10 atau e) dan transformasi akar kuadrat z = y pangkat (1/2), namun untuk kasus khusus digunakan salah satu anggota transformasi power yang disimbolkan sebagai:
Pada prakteknya, ketika lambda bukan 0 penghitungan nilai z dilakukan tanpa pengurangan 1 dan pada buku lain terdapat penambahan faktor pembagi y^(λ-1). Transformasi log dan akar kuadrat lebih sering digunakan daripada transformasi lainnya, karena nilai tabel untuk transformasi tersebut sudah tersedia dan sekarang sudah banyak alat hitung maupun software yang memiliki program transformasi tersebut. Bentuk transformasi semacam ini dikembangkan oleh G.E.P Box dan D. Cox, sehingga sering disebut sebagai transformasi Box-Cox.
 
George Edward Pelham Box (kiri) dan David Cox (kanan)

Ada transformasi khusus lainnya yang berguna dalam analisis data seperti 1/(sin √(y ̂))untuk estimasi binomial dan 1/tanh(r) untuk sampel koefisien korelasi dari distribusi biavariat normal. Hal ini dibentuk untuk membuat varians dari estimator cukup bebas dari parameter yang tidak diketahui, dan pada saat yang sama bentuk tersebut dapat meningkatkan perkiraan normal.
Transformasi terkadang sangat membantu dalam menangani outlier, walaupun sebuah outlier terkadang akan tetap menjadi outlier, setelah dilakukan transformasi akar maupun logaritma. Transformasi dianggap sangat kuat untuk dapat menarik sebuah outlier ke dalam data sehingga menjadi bukan outlier. Penanganan yang lebih baik untuk menangani outlier adalah melalui metode nonparametrik atau estimasi robust. Walaupun begitu, perlakuan transformasi untuk mengatasi permasalahan normal terkadang menimbulkan masalah baru, yaitu tidak terpenuhinya asumsi lainnya. Dalam hal ini, pengalaman  analisis sangatlah berpengaruh untuk penanganan transformasi.

Kebanyakan tulisan ini bersumber dari :
www.york.ac.uk
www.wikipedia.com
Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.
Rawlings J.O., Pantula S. G., and Dickey D.A. 1998. Applied Regression Analysis: A Research Tool Second Edition. Springer-Verlag New York, Inc.
Weisberg S. 2005. Applied Linear Regression Third Edition. John Wiley and Sons, Inc. Hoboken. New Jersey and Canada.

Sekilas P-Value


Dalam ilmu statistika, para peneliti harus menggunakan kriteria uji untuk memutuskan apakah menolak H0 atau menerima  H0. Dalam perkembangannya, banyak peneliti yang sering menggunakan p-value untuk kriteria ujinya. Hal ini disebabkan karena p-value memberikan 2 informasi sekaligus, yaitu disamping petunjuk apakah H0 pantas ditolak, p-value juga memberikan informasi mengenai peluang terjadinya kejadian yang disebutkan di dalam H0 (dengan asumsi H0 dianggap benar). Definisi p-value adalah tingkat keberartian terkecil sehingga nilai suatu uji statistik yang sedang diamati masih berarti.

P-value dapat pula diartikan sebagai besarnya peluang melakukan kesalahan apabila memutuskan untuk menolak H0.Pada umumnya,p-value dibandingkan dengan suatu taraf nyata α tertentu, biasanya 0.05 atau 5%.Taraf nyata α diartikan sebagai peluang melakukan kesalahan untuk menyimpulkan bahwa H0 salah, padahal sebenarnya statement H0 yang benar.Kesalahan semacam ini biasa dikenal dengan galat/kesalahan jenis I. Misal α yang digunakan adalah 0.05, jika p-value sebesar 0.021 (< 0.05), maka peneliti berani memutuskan menolak H0. Hal ini disebabkan karena jika peneliti memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan peneliti melakukan kesalahan masih lebih kecil daripada α = 0.05, dimana 0.05 merupakan ambang batas maksimal dimungkinkannya kita salah dalam membuat keputusan.
Cara menghitung p-value adalah mendapatkan luasan daerah di bawah kurva distribusi t-student diantara dua ordinat kedua nilai tertentu. Misalkan dalam pengujian dua sisi, H0 : µ1=µ2 dan H1 : µ1≠µ2 dan nilai uji statistik t-hitung = 1,36. Dengan demikian nilai p-value untuk pengujian ini adalah probabilitas observasi suatu nilai t yang lebih dari 1,36. Nilai ini merupakan luas daerah di bawah kurva normal di sebelah kanan t = 1,36. Dari tabel nilai distribusi t didapatkan bahwa luas daerah di bawah kurva distribusi t pada t > 1,36 atau t < -1,36 adalah 0,05. Nilai ini merupakan nilai p-value/2, dikarenakan pengujian yang dipakai adalah pengujian rata – rata dua arah. Sehingga dapat diambil keputusan gagal tolak H0 karena nilai t-hitung sebesar 1,36 lebih kecil dibandingkan nilai t (0,025;11) sebesar 2,201 atau dengan nilai p-value sebesar 0,1 lebih besar daripada nilai α = 0,05.

Sebagian tulisan ini dibuat dengan referensi dari:
- Mubarok, R. 2012. Pengambilan-Keputusan-Dengan-P-Value. Diakses melalui website http://maximaresearch.wordpress.com/ pada tanggal 14 desember 2013.
- Priyatno, D.2009. Belajar Olah Data Dengan Spss 17.Andi. Yogyakarta.
- Walpole, R. E. 1995. Pengantar Statistika edisi ke-3. Gramedia Pustaka Utama. Jakarta.

Software R


R adalah software open source untuk penghitungan dan pembuatan grafik statisik. Software ini dapat dijalankan dalam beberapa sistem operasi seperti Windows, Unix, dan Mac Os. Software R memiliki semacam package yang terus dikembangkan, sehingga dapat mengatasi permasalahan statistik yang terbaru sekalipun. Package ini dikembangkan dalam bentuk R, dan terkadang dalam Java, C, C++, dan Fortran.

   
Logo R Software (kiri), Logo R Studio (kanan)
Ada satu software yang mendukung atau memudahkan dalam pengoperasian software R. software ini adalah R Studio. Software memiliki editor yang mendukung eksekusi kode secara langsung, serta alat untuk plotting, history, identifikasi debug kode dan manajemen kerja. Software R Studio tersedia dalam jenis open source dan komersial, dan dapat digunakan pada dekstop seperti halnya software R. 

Jika tertarik untuk mencoba silakan klik link download :


Analysis Of Varians (ANOVA)


Analisis ANOVA seringkali digunakan pada banyak riset eksperimental, seperti psikologi, kedokteran, biologi, sosiologi, ekonomi, industri dan lainnya. Analisis ANOVA dikembangkan oleh Ronald Aylmer Fisher, seorang ilmuan asal inggris yang ahli dalam bidang statistika, matematika, dan genetika. Konon nama distribusi - F pada ANOVA adalah inisial dari nama pak fisher ini.
Ronald Aylmer Fisher
Analisis ANOVA memiliki konsep dasar yang erat kaitannya dengan rata – rata dan varians. Analsis ini hampir sama dengan regresi yang berfungsi untuk mengetahui hubungan dan membuat model antara variabel respon (y) dan variabel prediktor (x). Perbedaannya adalah pada analisis ANOVA menggunakan prediktor data kualitatif (bersifat kategorik).
Pengujian ANOVA memiliki banyak karakteristik, hal ini dikarenakan kebutuhan riset eksperimen yang makin berkembang. Namun secara umum, ANOVA dapat digambarkan secara sederhana dengan tabel ANOVA sebagai berikut.
Nilai F0 yang diperoleh kemudian dibandingkan dengan nilai  Fα; a-1, N-a atau F tabel. Jika nilai F0 lebih kecil dari nilai Ftabel maka hipotesis awal (H0) yang digunakan dapat diterima, yang artinya bahwa minimal ada satu perlakuan yang memiliki perbedaan dengan perlakuan lainnya. Adapun asumsi yang dibutuhkan untuk menghasilkan penelitian ANOVA yang baik adalah asumsi IIDN (identik, independen dan distribusi normal)

Kebanyakan tulisan ini bersumber dari :
- www.wikipedia.com
- Rutherford, A. 2001. Introducing ANOVA and ANCOVA a GLM Approach. Sage Publication.
- Miller, R.G. 1986. Beyond ANOVA Basic Of Applied Statistics. John Wiley and Sons, Inc. Canada.

Koefisien Determinasi (R-Square)


Dalam bidang pemodelan, nilai koefisien determinasi ( Rsq ) dapat menjadi indikator kebaikan model.  Statistik uji R sudah sangat umum digunakan dalam pemilihan model regresi, walaupun nilai ini hanyalah salah satu dari banyak kriteria kebaikan model. Nilai Rsq yang tinggi adalah kriteria nilai model yang baik untuk meramalkan data. Bagaimana ini bisa terjadi? Jadi ceritanya begini. Rumus dari koefisien determinasi adalah
Terkadang peneliti seringkali menyebutkan bahwa nilai R dapat mengindikasikan besarnya variasi dalam respon yang dapat dijelaskan oleh model. Hal ini dikarenakan hasil ramalan pemodelan (fit responses) akan memiliki nilai rata – rata yang sama dengan data aslinya, namun akan memiliki perbedaan nilai variasi dengan data aslinya. Kemungkinan dengan konsep inilah rumus R ini terbentuk. Dalam rumus R, nilai SS Eror dapat dikatakan sebagai perwakilan nilai variasi dari residu model, sedangkan nilai SS Total merupakan nilai variasi total dalam data.

Rumus dari SS Total adalah penjumlahan dari SS Eror + SS Regresi, sehingga nilai SS Total akan lebih besar daripada SS Eror. Jika diaplikasikan pada rumus Rsq diatas maka nilai dari pembagian SS Eror dengan SS Total akan berada pada range 0 – 1. Oleh karena itu nilai koefisien determinasi ( Rsq ) seringkali akan memiliki nilai dengan range 0 – 1. Rsq akan bernilai 1 jika model dianggap dapat menjelaskan keseluruhan variasi dari data, jika bernilai 0 maka berlaku sebaliknya. Nilai Rsq seringkali akan memiliki nilai yang optimum ketika asumsi dalam pemodelan terpenuhi.

Akan ada banyak keragaman keputusan dalam membuat standar kebaikan model, hal tersebut seiring dengan perkembangan metode pemodelan yang digunakan dan ini masih terus akan berkembang. Koefisien determinasi yang telah dijelaskan hanyalah dasar untuk mempermudah pembelajaran statistik. Berikut ini adalah R adjusted, salah satu pengembangan koefisien determinasi dengan mempertimbangkan adanya perbedaan jumlah variabel prediktor atau terkadang ada yang menyebut sebagai nilai R yang terkoreksi.

R-Adjusted
Modifikasi nilai R dengan memasukkan koreksi jumlah prediktor dalam model dan sangat berguna untuk membandingkan model dengan jumlah prediktor yang berbeda.

tulisan ini bersumber dari:
- www.wikipedia.com
- Draper, N.R. and Smith H. 1998. Applied Regression Analysis, Third Edition. John Wiley and Sons. Canada
- Weisberg S. 2005. Applied Linear Regression, Third Edition. John Wiley and Sons. New Jersey.

Uji Normalitas Kolmogorov


Distribusi normal bisa jadi adalah bentuk distribusi yang paling sering digunakan dalam distribusi probabilitas baik itu pada teori statistik maupun dalam aplikasinya. Distribusi normal pertama kali digunakan oleh de Moivre tahun 1733 dalam literatur nya yang membahas mengenai estimasi distribusi binomial. Namun bagaimanapun juga, pengembang teori ini yaitu Gauss tahun 1809 dan 1816 menjadi standard yang digunakan dalam statistik modern. Oleh karena itu, distribusi normal pada umumnya disebut sebagai distribusi Gauss. (baca artikel sebelumnya)

Pada tulisan kali ini, akan dibahas mengenai pengujian distribusi normal menggunakan Kolmogorov Smirnov atau biasa disebut Kolmogorov Normality Test. Ada beberapa cara lain untuk pengujian distribusi normal yang seringkali digunakan yaitu Anderson Darling dan Shapiro–Wilk.

Pada mulanya pengukuran kesesuaian distribusi (goodness of fit) diciptakan oleh Bapak Pearson tahun 1902 namun untuk pengukuran goodness of fit pada bentuk distribusi yang umum, pertama kali dilakukan oleh Bapak Kolmogorov pada tahun 1933. Andrei Nikolaevich Kolmogorov bisa jadi adalah matematikawan yang paling sukses dan dikenal oleh matematikawan di negara soviet sepanjang masa. Kolmogorov membuat kontribusi penting pada teori probabilitas, termasuk tes statistik untuk persamaan distribusi. Sedangkan Smirnov, nama asli Nikolai Vasil’yevich Smirnov adalah matematikawan soviet lainnya yang memberikan penambahan pada hasil Kolmogorov untuk dua sampel.
 Andrei Nikolaevich Kolmogorov
Dua-sampel uji K-S merupakan salah satu metode nonparametrik yang paling berguna dan umum untuk membandingkan dua sampel, karena sensitifitas terhadap perbedaan kedua lokasi dan bentuk fungsi distribusi kumulatif empiris dari dua sampel. Namun berbagai penelitian telah menemukan bahwa tes ini kurang kuat dalam pengujian normalitas dibandingkan pengujian Shapiro–Wilk test or Anderson–Darling meskipun sudah dilakukan koreksi terhadap data (standartdize).

Kolmogorov smirnov adalah sebuah tes nonparametrik untuk menguji kesamaan distribusi secara kontinyu, probabilitas data sebuah dimensi digunakan untuk pembanding dengan satu sampel (pengujian satu sampel K-S) maupun dua sampel (pengujian dua sampel K-S). Hal ini dikarenakan konsep dasar pada pengujian kolmogorov smirnov adah pengujian jarak. Pengujian Kolmogorov Smirnov melakukan penghitungan jarak antar fungsi distribusi dari pengamatan (empiris) dan distribusi kumulatif dari distribusi acuan atau antara fungsi distribusi empiris dari dua sampel.
Statistik uji untuk pengujian Kolmogorov – Smirnov diberikan sebagai.
 
secara mudahnya konsep dari Kolmogorov – Smirnov adalah mengetahui jarak terbesar distribusi pengamatan dengan distribusi kumulatif yang bisa dibentuk. (pahamkah?). Secara gambar mungkin seperti ini.
 
Ilustrasi statistik Kolmogorov-Smirnov. 
Garis merah adalah CDF, garis biru adalah ECDF, dan panah hitam adalah statistik K-S.
Hasil penghitungan ini dapat secara mudah diperoleh dengan menggunakan software statistik seperti minitab, spss, matlab ataupun opensource software R.

Tulisan ini bersumber dari :
- http://www.wikipedia.com
- http://gozips.uakron.edu
- Kvam P.H. and Vidakovic B. 2007. Nonparametrics Statistics with Applications to Science and Engineering. John Wiley and Sons, Inc.
- Alzaatrech A., Lee C., and Famoye F. 2014. T-Normal Family Of Distributions: A New Approach To Generalize The Normal Distribution. Springer Open Journal. Dapat diakses di http://www.jsdajournal.com
 

Statistiser, all about statistics Of Galih_sp © 2011