İstatistik derslerini tablet üzerinden çalışmanız şiddetle tavsiye olunur.
Bu bölümde istatistikte Ki-Kare dağılımına ve Ki-Kare testinin kullanımına değinilecektir.
Yunan alfabesinde χ ile gösterilen ki harfi istatistikte sadece χ2 (Ki-Kare) dağılımında kullanılan özel bir semboldür. Yunan alfabesindeki büyük Χ (ki) harfinin küçük yazımıdır. Yabancı kaynaklarda adı sıklıkla chi (çi) olarak okunsa da dilimize doğru bir telaffuzla geçmiştir. ki olarak okunmaktadır.
Normal dağıldığı varsayılan bir anakütleden 30'un altında birimden oluşan örnekleme oluşturmak istersek 3 farklı dağılım kullanabiliriz:
Ki-Kare bu dağılımlar içerisinde örneklem verilerinin anakütle parametreleri ile farklılığın olup olmadığı durumlarda kullanılmaktadır.
Formülden de görüleceği üzere anakütle standart sapması Ki-Kare dağılımında kritik bir rol oynamaktadır.
olasılık yoğunluk fonksiyonudur. n burada r/2'yi belirtmektedir. r aynı zamanda rank'in (derecenin) kısaltması olan serbestlik derecesidir. Yunan alfabesinde Γ (büyük gamma) harfinin sembolüdür.
x ≈ Γ(n,β) dağılımında n = r/2 ve β = 2 alınırsa Gamma dağılımı, r serbestlik dereceli Ki-Kare dağılımına dönüşür.
Ki-Kare dağılımı aslında bir Gamma dağılımıdır. 4 serbestlik derecesinde görseldekine benzer bir grafik oluşacaktır.
Serbestlik derecesi arttıkça χ2 dağılımının grafiği görseldeki gibi değişecektir.
Normal dağılım sergileyen bir anakütleyi analiz ederken parametrik testlerden faydalanırız. Fakat örneklem hacmi azaldıkça (30'un altına düştükçe) seçtiğimiz örneklem normal dağılım sergilemeyebilir. Bu gibi durumlarda parametrik olmayan (nonparametrik)1 testler kullanabiliriz. Nonparametik testlerin avantajı anakütle hakkında hiçbir şey bilinmediği durumlarda kullanılabilmesidir. Ki-Kare testi de nonparametrik bir testtir.
Ki-Kare testinin üç farklı kullanımı vardır:
Tüm testlerde aşağıdaki formülü kullanacağız.
Oi: Gözlenen Değerler (Observed Values)
Ei: Beklenen Değerler (Expected Values)
k: Serbestlik Derecesi
Ki-Kare testlerinde ki-kare değerini (kritik değeri) bulmak için Ki-Kare tablosunu kullanacağız. Sütunlarda α anlamlılık düzeyleri yer alırken satır başlıklarında serbestlik dereceleri yer almaktadır.
Ki-Kare tablosunu PDF formatında indirmek için yukarıdaki bağlantıyı kullanabilirsiniz. Biçim değişikliği yapmak isterseniz Ki-Kare Tablosu (Excel) çalışma kitabını indirebilirsiniz.
Hesaplanan Ki-Kare değeri kritik değerin altında ise kabul bölgesinde olacaktır. H0 hipotezini kabul edip H1 hipotezini reddedeceğiz. Tersi durumda H0 hipotezi reddedilecektir.
Kabul bölgesi daha önceki hipotez testlerinde olduğu gibi H0 hipotezinin kabul edileceği bölgedir. Benzer şekilde ret bölgesi H0 hipotezinin reddedileceği bölge olacaktır.
Örneklem istatistiklerinin anakütle parametreleri olan ortalama (μ), standart sapma (σ) gibi değerler ile uyumlu olup olmadığını test etmek için kullanılır.
Örnek 1: Yetişkin bir insanın haftalık uyku süreleri aşağıdaki şekilde ölçülmüştür:
Uyku sürelerinin günlere göre farklılık gösterip göstermediğine %5 anlamlılık düzeyinde karar veriniz.
İlk olarak hipotezimizi oluşturalım:
H0: Uyku süresi günlere göre farklılık göstermemektedir.
H1: Uyku süresi günlere göre farklılık göstermektedir.
Formülümüz yukarıdaki gibidir. Tablomuzu formüle göre oluşturalım:
Oi: Gözlenen Değerler (Observed Values)
Ei: Beklenen Değerler (Expected Values)
k: Serbestlik Derecesi
olduğunu tekrar hatırlayalım. Ei beklenen değerini gözlenen değerlerin ortalaması (58.3/7 gün = 8.33) ile bulduk.
Hesaplanan χ2 değerini 1.2574 bulduk.
k serbestlik değeri 7 gün - 1'den 6'dır. Tabloda %5 güven düzeyinde 6 serbestlik derecesine denk gelen Ki-Kare değeri 12.59'dur.
χHesaplanan < χ0.05;6 = 1.2574 < 12.59 olduğu için H0 hipotezi kabul edilir. Uyku süreleri %95 güven düzeyinde günlere göre farklılık göstermemektedir.
Örnek 2: Bir banka şubesine hafta içi gelen müşteri sayıları aşağıdaki gibidir:
Gelen müşteri sayılarının günlere göre farklılık gösterip göstermediğine %5 anlamlılık düzeyinde karar veriniz.
Hipotezimizi oluşturalım:
H0: Müşteri sayısı günlere göre farklılık göstermemektedir.
H1: Müşteri sayısı günlere göre farklılık göstermektedir.
Aynı formülü kullanacağız. Tablomuzu bu formüle göre oluşturalım:
Hesaplanan Ki-Kare değerini 6.3270 bulduk.
Örnekte 5 gün kullanılmıştır. Serbestlik derecesi k = 5 gün - 1'den 4'tür. Tablomuzda %5 anlamlılık düzeyinde serbestlik derecesi 4'e karşılık gelen Ki-Kare değeri 9.49'dur.
Hesaplanan Ki-Kare değeri 6.3270, kritik değer olan 9.49'dan küçük olduğu için H0 hipotezi kabul edilir. Müşteri sayısı günlere göre farklılık göstermemektedir.
İki veya daha fazla değişken grubu arasında ilişki bulunup bulunmadığını sınayan Ki-Kare testidir. Akademik tezlerde en çok bu test kullanılmaktadır.
Beklenen değerler grup ortalamasına göre bulunmaktadır. Serbestlik derecesi k ise farklı bir metodla hesaplanır. 2'ye 2 değişken kullanıldıysa serbestlik derecesi (2-1)(2-1) = 1'dir.
4'e 3 değişken kullanıldıysa serbestlik derecesi (4-1)(3-1) = 6'dır. Birazdan değineceğiz.
Örnek 3: Elektronik sigara kullanımı için 100 birey seçilmiş ve cinsiyetlerine göre aşağıdaki tabloda ayrılmıştır:
Cinsiyete göre elektronik sigara kullanımında fark olup olmadığını %5 anlamlılık düzeyinde test ediniz.
Tabloya dikkat edilirse kadınlar erkeklere göre çok daha az elektronik sigara tüketmektedir. Bunu istatistiksel olarak kanıtlayacağız.
Hipotezimizi oluşturalım:
H0: Elektronik sigara kullanımı cinsiyete göre farkılılık göstermemektedir.
H1: Elektronik sigara kullanımı cinsiyete göre farkılılık göstermektedir.
Toplam değerlerini tablomuza ekleyelim:
Beklenen Değer (Kadın-Evet) = 50*53/100 = 26.50
Beklenen Değer (Kadın-Hayır) = 50*47/100 = 23.50
Beklenen Değer (Erkek-Evet) = 50*53/100 = 26.50
Beklenen Değer (Erkek-Hayır) = 50*47/100 = 23.50
Bu değerleri hesaplarken her değişkene ait toplam değerlerini kullanıyoruz. Örneğin; Beklenen Değer (Kadın-Evet)'de kadınların toplamı 50 ile evet diyenlerin toplamı 53'ü çarpıyoruz ve örneklem hacmine bölüyoruz.
Hesaplanan Ki-Kare değerini 25.09 bulduk.
Kadın ve erkek olmak üzere 2 farklı değişken vardır. Aynı zamanda evet ve hayır olmak üzere 2 farklı yanıt verilmiştir. Serbestlik derecesi k'yı (2-1)(2-1) çarpımı ile 1 buluruz. Tablomuzda %5 anlamlılık düzeyine ve 1 serbestlik derecesine karşılık gelen kritik değer 3.84'tür.
Hesaplanan Ki-Kare değeri 25.09, kritik değer olan 3.84'ün çok ilerisinde olduğu için grafiğe bile sığmamıştır. 25.09'un ret bölgesinde olmasından dolayı H0 hipotezi reddedilir ve H1 hipotezi kabul edilir. Elektronik sigara kullanımında kadın ve erkekler arasında ciddi bir fark vardır.
Örnek 4: 310 bireyin süt, peynir ve yoğurt ürünleri üreten dört farklı markayı tercih etme istatistikleri tablodaki gibidir:
Ürün seçiminde markalara göre farklılık olup olmadığını %5 anlamlılık düzeyinde test ediniz.
Dikkat edilirse peynirde B, yoğurtta C markası baskın gelmiştir. İstatistiksel olarak bunu test edeceğiz.
Hipotezimizi kuralım:
H0: Ürün seçiminde markalara göre farklılık bulunmamaktadır.
H1: Ürün seçiminde markalara göre farklılık bulunmaktadır.
Toplam değerlerini tablomuza ekleyelim:
Beklenen Değer (Süt-A Markası) = 102*60/310 = 19.74
Beklenen Değer (Süt-B Markası) = 102*105/310 = 35.55
Beklenen Değer (Süt-C Markası) = 102*97/310 = 31.92
Beklenen Değer (Süt-D Markası) = 102*48/310 = 15.79
Beklenen Değer (Peynir-A Markası) = 103*60/310 = 19.94
Beklenen Değer (Peynir-B Markası) = 103*105/310 = 34.89
Beklenen Değer (Peynir-C Markası) = 103*97/310 = 32.23
Beklenen Değer (Peynir-D Markası) = 103*48/310 = 15.95
Beklenen Değer (Yoğurt-A Markası) = 105*60/310 = 20.32
Beklenen Değer (Yoğurt-B Markası) = 105*105/310 = 35.56
Beklenen Değer (Yoğurt-C Markası) = 105*97/310 = 32.85
Beklenen Değer (Yoğurt-D Markası) = 105*48/310 = 16.26
Hesaplanan Ki-Kare değerini 40.55 bulduk.
Süt, peynir ve yoğurt olmak üzere 3 ürün vardır. A, B, C, D olmak üzere 4 marka vardır. Serbestlik derecesi (3-1)(4-1) çarpımıyla 6 bulunur. Tablomuzda %5 anlamlılık düzeyi ve serbestlik derecesi 6'nın kesiştiği hücre 12.59'dur.
Hesaplanan Ki-Kare değeri olan 40.55, kritik değer olan 12.59 değerinin çok ötesinde olduğu için H0 hipotezi reddedilir ve H1 hipotezi kabul edilir. Ürün seçiminde markalara göre farklılık bulunmaktadır.
Birbirinden bağımsız seçilen iki veya daha fazla örneklemin aynı anakütleden seçilip seçilmediğini test etmek için kullanılır.
Örnek 5: 593 hasta üzerinde 296'sı I. Grup'ta, 297'si II. Grup'ta olmak üzere 4 farklı ilaç test edilmiş, ilaçların etki düzeyleri kayıt altına alınmıştır.
İlaç etki düzeylerinin iki grup arasında farklı olup olmadığını %5 anlamlılık düzeyinde test ediniz.
Öncelikle hipotezimizi kuralım:
H0: İlaç etki düzeyleri iki grup arasında farklı değildir.
H1: İlaç etki düzeyleri iki grup arasında farklıdır.
Tablomuza toplamları ekleyelim:
Beklenen Değer (A ilacı-I. Grup) = 149*296/593 = 74.37
Beklenen Değer (A ilacı-II. Grup) = 149*297/593 = 74.63
Beklenen Değer (B ilacı-I. Grup) = 143*296/593 = 71.38
Beklenen Değer (B ilacı-II. Grup) = 143*297/593 = 71.62
Beklenen Değer (C ilacı-I. Grup) = 170*296/593 = 84.86
Beklenen Değer (C ilacı-II. Grup) = 170*297/593 = 85.14
Beklenen Değer (D ilacı-I. Grup) = 131*296/593 = 65.39
Beklenen Değer (D ilacı-II. Grup) = 131*297/593 = 65.61
Hesaplanan Ki-Kare değerini 0.0432 bulduk.
4 farklı ilaç ve 2 farklı grup vardır. Serbestlik derecesi (4-1)(2-1)'in çarpımıyla 3 bulunur. Ki-Kare tablosunda serbestlik derecesi 3'ün %5 anlamlılık düzeyindeki değeri 7.81'dir.
Hesaplanan 0.0432 Ki-Kare değeri kritik değer olan 7.81'in altında olduğu için H0 hipotezi kabul edilir. İlaç etki düzeyleri iki grup arasında farklı değildir.
SPSS'te Ki-Kare testi hesaplaması oldukça kolaydır.2 Bilmemiz gereken en önemli nokta significance value anlamlılık değeridir.
Örnek 1'deki verileri kullanalım:
Uyku sürelerinin günlere göre farklılık gösterip göstermediğine %5 anlamlılık düzeyinde karar veriniz.
Hipotezimizi kuralım:
H0: Uyku süresi günlere göre farklılık göstermemektedir.
H1: Uyku süresi günlere göre farklılık göstermektedir.
Verilerimizi SPSS'te yazalım. Dikkat ederseniz gün ve süre değişkenlerinin sütun başlık simgeleri birbirinden farklı.
Dilerseniz bu veri setinin SPSS dosyasını yukarıdaki bağlantıdan indirebilirsiniz.
Öncelikle sayfanın altındaki Variable View sekmesine tıklıyoruz. gün değişkeni bu örnekte sayısal (nümerik) bir değişken değildir. Metinsel (nominal) bir değişkendir. Bu yüzden measure'ını (ölçüsünü) Nominal seçmeliyiz. süre değişkeni ise sayısal bir değişkendir. Bu nedenle ölçüsü Scale kalmalıdır.
İkinci olarak gün değişkeni için Values menüsüne tıklıyoruz ve her bir günü değer olarak atıyoruz.
Menüden Data > Weight Cases... yolunu izliyoruz.
Süreyi ağırlıklandırıyoruz. Bunu yapmadığımız takdirde sonuçlarımız hatalı olacaktır.
Her şey hazır. Artık analize geçelim. Menüden Analyze > Nonparametric Tests > Legacy Dialogs > Chi-square... yolunu izliyoruz.
gün değişkenini Test Variable List alanına aktarıyoruz ve OK'a tıklıyoruz.
Output (çıktı) penceresi açılacaktır. Asymp. Sig. (Asymptotic Significance) değeri 0.967 bulunmuştur. Tekrar hatırlayalım:
Asymp. Sig. değeri olan 0.967, 0.05'ten büyük olduğu için H0 hipotezi kabul edilir. Uyku süresi günlere göre farklılık göstermemektedir.