Metodologi penelitian
Pertemuan 2
Prodi PIWAR Politeknik APP Jakarta
OLS
- kita sudah bahas bahwa OLS merupakan metode yang menjelaskan hubungan dua variabel X dan Y.
- persamaan sederhananya adalah:
Yi=β0+β1Xi+μi
ada 2 part dari persamaan di atas: yaitu parameter dari X dan error.
OLS
- OLS mencari parameter sedemikian sehingga errornya minim.
μi=Yi−^Yi di mana ^Yi=β0+β1Xi, atau Y yang diprediksi oleh model.
Mencari beta
minβ0,β1(Yi−β0−β1Xi)2 - error dikuadratkan dulu supaya negatifnya jadi positif. - kemudian dilakukan optimisasi dengan ngeset:
∂∂β0=0 and ∂∂β1=0
Prinsipnya sama seperti cari titik minimum parabola.
Mencari beta
- hasilnya adalah sebuah persamaan garis lurus yang dibuat sedemikian sehingga dia meminimalisir jarak antar titik
- Dengan kata lain, OLS merupakan cara untuk mendapatkan garis lurus yang paling fit dengan observasinya.
Tentang statistik
- OLS tidak beda dari statistik lain, dalam artian, pada prinsipnya dia adalah tebak-tebakan berbasis data.
- Kita tidak bisa menebak sesuatu dengan ketepatan 100%.
- Tapi kita bisa membuat perkiraan rentang tebakan kita, yang paling tidak punya kemungkinan benar yang cukup tinggi.
- Meleset dikit gak papa yang penting berguna.
BLUE
- Parameter dari OLS memiliki karakteristik yang disebut juga dengan BLUE, atau Best, Linear, Unbiased Estimators.
- linear cukup jelas, karena dari persamaannya aja udah linear.
- Best artinya efisien, artinya bahwa parameter OLS memiliki standar deviasi yang kecil, atau rentang estimasinya kecil.
- Unbiased artinya parameter OLS akan mendapatkan parameter yang mendekati aslinya.
- ada dua pemanah, plus merah dan lingkarang hitam.
- Jika anda harus memilih 1 untuk kompetisi, pilih yang mana?
- plus merah: bias namun efisien.
- titik hitam: unbiased but not efficient.
Key assumption
- X-nya independen, khususnya terhadap μi. alias cov(Xi,,μi)=0
- by extension, errornya juga harus random.
- nilai ekspektasi dari errornya adalah 0, atau E[μi|xi]=0, atau conditional zero mean
- homoskedastis, atau variasi error-nya konstan, atau var(μi)=σ2
Tanpa ini semua, parameter OLS tidak lagi BLUE.
Key assumption
- Key assumptions ini sangat penting untuk dipahami.
- Sebagus apapun hasil regresinya, namun apabila key assumptions ini terlanggar, maka hasilnya bisa misleading.
- Hasil yang misleading ini sangat berbahaya jika menjadi sebuah kebijakan, baik kebijakan publik maupun kebijakan perusahaan.
- Yang penting anda paham keterbatasan teknik yang anda gunakan.
Independensi X
- Independen berarti tidak dipengaruhi oleh hal lain.
- Jika kita yakin X ini independen, maka kita bisa klaim hubungan kausal X→Y dan bukan Y→X.
- Biasanya arah hubungan tersebut dapat kita bangun dengan teori/hipotesis.
Independensi X
- Independen berarti X-nya bisa kita ubah-ubah sesuka kita.
- Apakah karena kita belajar maka nilai kita bagus, atau karena nilai kita bagus makanya kita jadi rajin belajar?
- Belajar itu terserah kita, tapi nilai terserah dosen (tidak bisa diubah sesuka kita)
- Di dunia nyata, sering kali hubungan sebab-akibat X dan Y ga jelas.
- reverse causality: ketika hubungan X dan Y ketuker.
- unhealthy eating vs depresi, merokok dan konsumsi.
Independensi X
- spurious : ketika hubungan X dan Y cuma kebetulan.
- Pertumbuhan PDB vs panjang rumput.
- Ada teknik lanjutan OLS yang namanya causal inference
- tapi jika pakai OLS biasa, sebaiknya hindari klaim causality
correlation does not imply causation
tentang error
- OLS mewajibkan error/residual yang juga independen.
- error ga boleh berkorelasi dengan X maupun Y
- error harus punya rata-rata==0 (zero mean condition)
- error harus punya variance yang konstan (tidak tambah lebar/tambah kecil distribusinya).
- contoh kemarin, X dan Y yang bagus adalah yang ada polanya. Error yang bagus adalah yang gak ada polanya.
Kenapa error harus random?
- error harusnya hanya menangkap hal-hal yang sifatnya random.
- X tidak akan pernah bisa 100% memprediksi Y
- akan ada variasi-variasi kecil.
- setiap individu tidak 100% sama.
- yang penting variasi-variasi ini sifatnya random.
Bentuk error yang baik
Kesalahan error
- error yang berpola adalah permasalahan yang paling fatal.
- artinya, estimasi kita akan bias, karena ada pola yang ada di error yang tidak ditangkap oleh X.
- error yang heteroskedastik masih ga papa karena masih unbiased.
- meski demikian, heteroskedastik mengurangi ke-“best”-an dari estimator kita.
- Tapi standar deviasi yang agak lebar masih mending daripada estimasi yang bias.
Contoh
- Mari kita coba regresi dengan microsoft excel
- Kita mau cek hubungan antara jam belajar dengan nilai UAS
- X= jumlah jam belajar dalam seminggu
- Y= nilai UAS
- Kita akan regresi, hitung ˆY, dan plot error.
- Datanya bisa didownload di sini
Summary
- OLS: simple (linear) dan powerful (best & unbiased)
- Asumsinya sangat kuat:
- independensi X dan μ
- rata-rata error = 0
- homoskedastis
Regresi multivariat
- Seringkali Y dapat dijelaskan oleh lebih dari 1 X.
Y=β0+β1X1+β2X2+...+βjXj+μ - Ini disebut juga dengan regresi multivariat.
Omitted variable bias
- Jika seandainya aslinya Y=β0+β1X1+β2X2=μ
- kita regressnya Y=β0+β1X1+ε
- Artinya, aslinya ada X2 yang ngaruh, tapi nggak kita masukan ke model regresi.
- akibatnya variasi yang harusnya bisa dijelaskan X2 jadi masuk ke ε
- dan artinya ε akan punya pola.
Omitted variable bias
- Jika errornya punya pola, artinya ada variabel yang mestinya ngefek tapi tidak kita masukan ke regresi.
- beta kita (si β1) akan jadi bias.
- Karena itu, omitted variable bias adalah problem yang cukup serius.
- usahakan kita sudah menggunakan semua variabel yang ngaruh ke Y menurut teori.
Minggu depan
- Multivariat & binary
- membaca tabel regresi
- growth vs level
- logarithmic transformation