GİRİŞ
Nitel araştırmalarda elde edilen sözel bulguları, araştırıcı mevcut bilgilere dayanarak yorumlar, genellemeler yapmaya çalışır. Meselâ kırsal kesimde yağmur yağmadığı zaman yağmur duasına çıkan insanların duygu ve düşüncelerini öğrenmek için yapılan bir araştırmada, mülakat yapılan kişilerin sorulara verdiği cevapları araştırıcı kendi bilgilerine göre tasnif edip yorumlar yaparken, elde ettiği sonuçların bir populasyona genelleme ihtimalini hesaplama ihtiyacı duymayabilir. “Köylüler inançlarının gereği olarak yağmur duasına çıkıyorlar” veya “bunun yararlı olduğunu müşahede ettiklerini düşünüyor, bu yüzden de devam ediyorlar” gibi hükümlerle yapılan genellemeler araştırmanın amacı bakımından yeterli sayılabilir.
Ne var ki, nicel veya nitel olsun, araştırma konusunun gereği olarak, araştırıcı, elde ettiği sonuçların benzer tipten başka gözlemlerde de elde edilip edilemeyeceğini veya yüzde ne kadarında elde edileceğini merak edebilir (Düzgüneş ve ark. 1984). Bu durumda araştırıcı, istatistik tekniklere başvurmak zorundadır.
İstatistik tekniklerin önemi, bilimsel çalışmaların sonuçlarını genellemek için iyi bir vasıta olmalarından dolayıdır. Araştırıcı, denemeden elde ettiği sonuçları değerlendirir ve gözleme dayanan bu değerlendirmeleri, benzer tipten bütün denemelere genelleyebilir. Ancak bu mantık metodunun, yani yeni bilgileri, bu şekilde özelden genele giderek elde etmenin bir riski vardır. Tesadüf denemesi kavramını incelerken görüldü ki, aynı şartlarda tekrarlanan denemelerden elde edilen gözlemler arasında bir varyasyon vardır. Diğer bir ifadeyle böyle bir deneme sonucu önceden söylenemez. İşte bu belirsizlik, genelleme metodunun riskidir. İstatistiğin önemli bir fonksiyonu, genelleme tekniklerini geliştirmek ve bu tekniklere dayanarak elde edilen bilgilerin ihtiva ettiği bu belirsizliğin derecesini belirlemektir. Belirsizlik, olasılık deyimleriyle ifade edilir. Bunu anlayabilmek için örnek ve populasyon kavramları üzerinde tekrar durmakta yarar vardır:
Bilimsel denemeler birçok kere tekrarlanır veya bir populasyon hakkında fikir geliştirmek için o populasyondan birçok gözlem elde edilir. Bu şekilde elde edilen veriler, bir örnek teşkil ederler. Populasyon ise, gerçek anlamda, belirli sayıda bireylerin teşkil ettiği bir topluluktur. Gözlemler böyle bir gerçek populasyona ait ünitelerin, genellikle populasyonu temsil ettiğine inanılan bir kısmında yapılabileceği gibi, populasyonun gerçek olması da gerekmez. Meselâ bir laboratuvar denemesinden elde edilen sonuçlar, nasıl bir populasyona ait değerler olarak kabul edilmelidir? Böyle bir tesadüf denemesine ait örnek sonsuz kere tekrarlansaydı elde edilecek sonuçların tamamı bizim populasyonumuzu oluşturacaktı. Burada örnek uzayının yani mümkün olan tüm sonuçlar setinin her bir elemanına ait oluş olasılıkları, yani sonuçları ifade eden tesadüf değişkenine ait olasılık dağılımı eğer biliniyorsa, populasyonun temsili yapısı biliniyor demektir.
Populasyon ister gerçek olsun, ister temsili olsun; birçok hallerde populasyonun tamamına ait gözlemler elde etmek imkânsız veya çok masraflı olabilir; bir deneme sonsuz kere tekrarlanamaz. 10 milyon çiçek tohumunun kaçından beyaz kaçından kırmızı çiçek çıkacağını bilmek isteyen bir tohum satıcısı bunların hepsini ekemez, çünkü tohumları satacaktır. Bir ülkede belirli bir canlı grubuna ait genetik varyasyonu bilmek isteyen bir ıslahçı, çoğu zaman, o canlı grubunun tamamını elden geçirme imkânı bulamaz.
Bütün bu hallerde populasyonu temsil ettiğine inanılan bir örnekle çalışmak gerekmektedir. Bu örnekten elde edilen bilgileri populasyona genellemek veya bu bilgilerin belirli populasyon değerlerine ne ölçüde tekabül edip ettiğine karar vermek istatistik metotlarının başlıca kullanma alanını teşkil eder. Örnekten elde edilen bilgiler (yani hesaplanan değerler), bilindiği gibi istatistik, bunların populasyonda karşılığı olan değerlere de parametre adı verilir.
Örnekten hesaplanan istatistiklerden yararlanarak populasyon parametreleri hakkında genellemeler yaparken, akıldan hiç çıkarılmaması gereken husus, elimizdeki örneğin, temsil ettiği popülasyondan çekilebilecek örneklerden sadece birisi olduğudur ve biz bununla yetinmek zorundayız. Bu husus, istatistik metotlarını kullanma mecburiyetimizin sebebidir. Hedef popülasyondan elimizdeki örnek gibi bir örnek çekme ihtimali nedir? Bu ihtimal ne kadar büyük olursa örneğimizi o popülasyondan çekilmiş kabul edebiliriz? Bu sorulara cevap vererek genelleme yapmanın yolu, istatistik yöntemlerdir.
Bu bölümde verilerin özetlenmesi, sunulması ve iki veya daha fazla grup ortalamasının karşılaştırılması, iki özellik arasında doğrusal ilişkinin varlığı ve iki özelliğin birlikte dağılımında bir bağımlılık olup olmadığı gibi araştırmalarda en çok karşılaşılan basit hipotez kontrolleri ele alınacaktır. Bunların her birisinin dayandığı varsayımlar ve bu varsayımların gerçekleşmemesi durumunda kullanılabilecek muhtelif yöntemler vardır. Bütün bunlar istatistik dersinin konusudur. Araştırıcının titizlikle uyması gereken husus, bu gibi konularda bir istatistikçiye danışmaktır. Hatta en iyisi araştırma projesi müsait ise, araştırma grubuna bir istatistikçiyi de almaktır.
ELDE EDİLEN VERİLERİN ÖZETLENMESİ VE SUNULMASI
İstatistik, verilerin toplanması, özetlenmesi ve sunulması, verilerin tanımı için gerekli istatistiklerin hesaplanması ve bu istatistiklerden yararlanarak popülasyon parametreleri hakkında gerekli kararların verilmesi, yani elde edilen sonuçların genellenmesi işlerini yapan bir bilim dalıdır. Verilerin nasıl toplanacağı ve veri toplarken dikkat edilmesi gereken hususları daha önceki derslerimizde, veri toplama ve örnekleme yöntemleri bahsinde (4 ve 5. bölümlere) işledik.
Araştırma materyalinden elde ettiğimiz verilerin özetlenerek sunulması, üzerinde durulan özelliklerin dağılım şekilleri ve bu dağılımların çeşitli hususiyetleri hakkında bilgi edinmek için gereklidir. Verilerin dağılım şekillerini görmek için frekans tabloları ve grafikler yapılır. Verilerimizdeki her değerin adedi (sayısı) o değerin frekansıdır. Bugün artık istatistik paket programlarda bu tablolar ve grafikler gayet kolay oluşturulmaktadır.
Verilerin frekans dağılımlarının çeşitli hususiyetlerini ortaya koymak üzere tanımlayıcı (descriptive) istatistikler denilen istatistikler hesaplanır. Herhangi bir özellik bakımından elde edilen verilerin ortalaması kaçtır, bu ortalama etrafında veriler ortalama olarak ne kadar farklılık (varyasyon) göstermektedir, gibi soruların cevabı bu tanımlayıcı istatistikler hesaplanarak verilir. Bunlar araştırma yayına hazırlanırken sonuçlar veya bulgular kısmında uygun olan şekillerde tablo haline getirilir.
Tanımlayıcı istatistikler deney ünitelerinin sayısı, yani örnek genişliği, ortalama, ortalamanın standart hatası, standart sapma gibi bilgilerdir. Bunların dışında da hesaplanması gerekebilen istatistikler vardır. Hangi istatistiklerin hesaplanacağı, araştırmanın amacına ve verilerin frekans dağılım şekline bağlıdır. Genel olarak söylenebilir ki, araştırmada ele aldığınız özelliklerin rakamla ifade edilebilenlerinin tamamına ait tanımlayıcı istatistikleri hesaplamak ve sunmak gerekir. İstisnalar da olabilir. Meselâ bir araştırmada 35 üniversite öğrencisinin günlük sigara tüketimleri, yaşları ve cinsiyetleri belirlenmiş olsun (Tablo:1). Cinsiyetler erkek 1, kız 2 olarak işaretlenmiş olabilir.
Bu durumda cinsiyetlerin ortalamasını ve diğer tanımlayıcı istatistiklerini hesaplamak anlamsızdır. Ama 40 kişinin kaçının bayan kaçının erkek olduğunu bilmek ve bunları metinde ifade etmek gerekebilir. Burada 40 kişinin 22’si erkek, 18’i bayandır. Oran olarak ifade etmek isterseniz, 22/40=0.55’i erkek, 18/40=0.45’i bayan şeklinde hesaplayıp “örneğin %55’i erkek, %45’i bayan” şeklinde bir ifadeyle verinin cinsiyet özelliğini yansıtabilirsiniz. Oranlar yanında hesaplanabilecek başka istatistikler, üzerinde durduğunuz özellikler arasında doğrusal bir ilişkinin varlığını gösteren korelasyon katsayısı olabilir veya ilişkinin miktarını gösteren regresyon katsayısı olabilir. Ancak günlük sigara tüketimi ve yaş özelliklerine ilişkin verileri sunarken ortalama, varyans, standart sapma ve ortalamanın standart hatası gibi istatistikleri hesaplayıp araştırma yazılı hale getirildiğinde sonuçlar (ya da bulgular) kısmında sunmak gerekir.
Tablo:1- 35 Üniversite Öğrencisiyle Yapılan Ankette Günlük Sigara Tüketimine İlişkin Sonuçlar
Nu |
Cinsiyet |
Yaş |
Sigara |
Nu |
Cinsiyet |
Yaş |
Sigara |
1 |
1 |
20 |
5 |
21 |
1 |
21 |
5 |
2 |
1 |
21 |
10 |
22 |
2 |
20 |
10 |
3 |
1 |
26 |
15 |
23 |
2 |
21 |
10 |
4 |
1 |
24 |
15 |
24 |
2 |
22 |
20 |
5 |
2 |
27 |
0 |
25 |
1 |
26 |
0 |
6 |
2 |
27 |
0 |
26 |
1 |
25 |
0 |
7 |
1 |
24 |
10 |
27 |
1 |
25 |
0 |
8 |
1 |
26 |
0 |
28 |
1 |
27 |
0 |
9 |
2 |
21 |
5 |
29 |
1 |
25 |
5 |
10 |
1 |
22 |
0 |
30 |
1 |
25 |
10 |
11 |
1 |
28 |
5 |
31 |
2 |
24 |
15 |
12 |
2 |
29 |
10 |
32 |
2 |
25 |
20 |
13 |
2 |
23 |
5 |
33 |
2 |
22 |
0 |
14 |
2 |
23 |
0 |
34 |
1 |
25 |
0 |
15 |
1 |
22 |
10 |
35 |
2 |
26 |
5 |
16 |
1 |
21 |
5 |
36 |
1 |
28 |
5 |
17 |
2 |
23 |
5 |
37 |
1 |
22 |
0 |
18 |
1 |
23 |
15 |
38 |
2 |
27 |
0 |
19 |
2 |
25 |
20 |
39 |
1 |
23 |
0 |
20 |
2 |
24 |
5 |
40 |
2 |
24 |
5 |
Burada günlük sigara tüketimi ve yaş ile ilgili tanımlayıcı istatistikler MİNİTAB isimli istatistik paket program kullanılarak aşağıdaki gibi bulunmuştur:
ÖzellikN Ort ± St Hata St Sapma Min Q1 Ortanca Q3 Maximum
Yaş 40 24,05 ±0,374 2,364 20 22 24 26 29
Sigara 35 6,25 ±0,993 6,279 0 0 5 10 20
Burada ilk değer, N, gözlem sayısını, yani örnek genişliğini vermektedir. İkinci değer ortalamadır. Demek ki, günlük sigara tüketimi ortalama 6, yaş ortalaması 24.314’tür. Diğer değerler de ortalamanın standart hatası, standart sapma, minimum, q1 (en küçük %25 q1’den küçüklerdir), ortanca, q2 (en büyük %25’in başladığı değer) ve maksimumdur. Bunların her birinin nasıl hesaplandığı istatistik dersinin konusudur.
Yaşa ve sigara tüketimine ilişkin frekans grafikleri de yine MİNİTAB tarafından Şekil:1 ve 2’deki gibi çizilmiştir. Frekans dağılımları görsel olarak sürekli değişkenler için histogram veya poligon şeklinde, kesikli değişkenler için çubuklu diyagram şeklinde çizilebilir. Estetik olarak çok çeşitli grafikler mümkündür.
Şekil: 1- 40 öğrencinin yaşlarına ilişik Histogram
Şekil: 2- 40 öğrencinin günlük sigara tüketimine ilişkin Histogram
Araştırmalarda en çok ihtiyaç duyulan konuların başında, deneme materyalimizi oluşturan muamele gruplarının ortalamaları arasındaki farkın istatistik olarak önemli olup olmadığını belirlemek gelir. Ancak grup ortalamaları arasındaki varyasyonun önemli olup olmadığına, istatistikte en çok kullanılan F istatistiği yardımıyla karar verirken çok dikkatli olmak ve mutlaka bir istatistikçiye danışmak gerekir. Çünkü F istatistiğinin veya özel olarak muamele gruplarının sayısı iki ise F istatistiğinin karekökü olan t istatistiğinin uygulanabilirliği bazı varsayımların sağlanmış olmasına bağlıdır. Bunlar istatistik dersinin konusu olduğu için burada üzerinde durmayacağız. Burada ele alınan t testinin ayrıntıları için Kocabaş ve ark 2012, ikiden fazla grup için kullanılan F testinin ayrıntıları için deDüzgüneş ve ark 1984 tavsiye edilir. Ancak karşılaştırılan grupların ortalamalarının örnekleme dağılımının normal olması, varyansın homojen olması, iki grubun birbirinden bağımsız olması gibi varsayımların karşılanmaması halinde F veya t testinin doğrudan uygulanamayacağını, verileri bu istatistik yöntemlerin uygulanabileceği değerlere dönüştürmek veya daha iyisi parametrik olmayan yöntemlere başvurmak gerektiğini bilmek gerekir.
Ayrıca ortalamaları karşılaştırılacak gruplar, iki veya daha fazla faktörün seviye kombinasyonlarına göre belirlenmiş alt gruplar olabilir. O zaman her bir faktörün seviyeleri arasındaki farklılıklar, faktörlerin birlikte etkisinde tek tek etkilerinin ve bunların toplamından geriye kalan etki (interaksiyon etkisi) paylarına göre analiz edilmek istenir. Bu durumlarda uygulanacak yöntemleri bütün ayrıntılarıyla Düzgüneş ve ark 1984’te bulmak mümkündür. Burada basit olarak araştırma materyalini oluşturan muamele gruplarının ortalamaları arasındaki farkın önemli olmadığına ilişkin hipotez kontrolleri üzerinde durulacaktır. Önce iki grup için t testi, daha sonra ikiden fazla grup için varyans analizi ve F testi misallerle anlatılacaktır.
Misal: Günlü sigara tüketimi bakımından bayanlarla erkeklerin ortalamaları arasında bir farklılık var mıdır? Kontrol edeceğimiz hipotez “İki grubun ortalaması aynıdır, aralarında önemli bir fark yoktur” şeklinde olacaktır
Tablo:1’deki verilerle, MİNİTAB kullanarak yapılan ve aşağıda verilen hesaplama sonuçlarına göre, “kızlarla erkeklerin günlük sigara tüketimi ortalamaları arasında önemli bir fark yoktur” hipotezini kabul ederiz. Böyle yapmakla bir hata yapmış olabileceğimizi de biliyoruz. 0,05’ten büyük bir olasılıkla bu ikisi aynı populasyonu temsil etmektedir ama farklı populasyonları temsil etme ihtimalli de sıfır değildir. Yani hipotezi kabul etmekle aslında yanlış bir hipotezi kabul etme hatası yapmış olabiliriz. Yanlış bir hipotezi kabul etmekle yapılacak hataya ikinci tip hata denir.
h0: μ₁ - µ₂ = 0
H1:μ₁ - µ₂ ≠ 0
Cinsiyet |
N |
Ortalama±St Hata |
Standart Sapma |
1 (Erkek) |
22 |
5,23±1,2 |
5,45 |
2 (Kız) |
18 |
7,50±1,7 |
7,12 |
Fark |
|
-2,27±1,986 |
|
T= -2,27/1,98=-1,14 p=0,26>0,05
Hesaplanan 0,26 ihtimal 0,05’ten büyük olduğu için hipotezi kabul ediyoruz. Kızlarla erkekler arasında günlük ortalama sigara sayısı bakımından hesaplanan -2,27 kadarlık fark, ortalaması sıfır olan bir örnekleme dağılımına 0.05’ten küçük bir ihtimalle dahil olsaydı hipotezi reddedecektik. O durumda da hipotezi reddetmekle bir hata yapmış olabilirdik. İstatistikte bu hatanın olasılığını da baştan 0.05 olarak belirlemiş oluyoruz. Doğru bir hipotezi reddetmekle yapılacak bu hataya birinci tip hata denir.
Misal: 9 buğday hattına ait dekara verimler üç tekerrürlü bir denemede aşağıdaki gibi bulunmuştur (Tablo:2). 9 buğday hattı arasındaki fark önemli midir? Kontrol edeceğimiz hipotez “grup ortalamaları arasındaki fark önemsizdir; grup içi farklılıktan daha büyük değildir” şeklinde olacaktır.
Tablo:2- Dokuz buğday hattının üç blokta elde edilen dekara verim sonuçları
|
Bloklar |
||
Hatlar |
1 |
2 |
3 |
1 |
180 |
182 |
180 |
2 |
206 |
242 |
240 |
3 |
236 |
226 |
232 |
4 |
178 |
196 |
208 |
5 |
188 |
185 |
192 |
6 |
214 |
208 |
221 |
7 |
216 |
231 |
240 |
8 |
190 |
194 |
184 |
9 |
238 |
230 |
223 |
MİNİTAB kullanılarak yapılan varyans analizi sonucu aşağıdaki gibidir:
Varyasyon Kaynağı |
SD |
KT |
KO |
F |
P |
Bloklar |
2 |
313,2 |
156,59 |
1,58 |
0,236 |
Hatlar |
8 |
10901,6 |
1362,70 |
13,79 |
0,000 |
Hata |
16 |
1581,5 |
98,84 |
|
|
Genel |
26 |
12796,3 |
|
|
|
Bu sonuçlara göre hatlar arası farklılık istatistik olarak önemlidir. Hatlar Arası Varyans, Hata Varyansından tesadüfe atfedilemeyecek kadar büyüktür. Bu sonuçtan sonra, bu varyasyona sebep olan hatların hangileri olduğu, başka bir ifadeyle hatların hangilerinin daha yüksek ortalamaya sahip olduğu araştırılmalıdır. Bunun için hatların ortalamaları ikişer ikişer karşılaştırılarak hangi hatlar arası farkın bu önemli F değerine sebep olduğu belirlenmeye çalışılır. Bunun için de geliştirilmiş metotlar vardır. Bunlar hakkında burada bilgi verilmeyecektir; bilgi için Düzgüneş ve ark 1984 tavsiye edilir. Örnek olarak ortalamaları arasındaki fark istatistik olarak önemli çıkan 9 hattın ortalamalarını karşılaştırmak üzere MINITAB kullanılmıştır. Hangi grupların ortalamaları arasındaki fark bu önemliliği meydana getirmiştir sorusuna cevap olarak yapılan test sonucunda hatların ortalamaları, grafik incelendiği zaman aşağıdaki gibi gruplandırılabilir:
2, 3, 7 ve 9. Hatların ortalamaları yüksek verimli, 4 ve 6. Hatlar orta verimli, 1, 5 ve 8. Hatlar düşük verimli olarak gruplandırılabilir.
Meselâ X özelliği ile Y özelliği arasındaki korelasyon katsayısının hesaplanmış olsun. Bunun karesi, determinasyon katsayısı adını alır. Determinasyon katsayısı, değişkenlerden birisi bağımlı, diğeri açıklayıcı değişken olarak kabul edildiğinde, bağımlı değişkendeki varyasyonun ne kadarının açıklayıcı değişkendeki varyasyonla açıklanabileceğini gösterir.
Eskiden bir yıl gelen leylek sayısı ile o yıl doğan çocuk sayısı arasında bir ilişki olduğu söylenirdi. Bu söylenti yanlış olmayabilir. Gerçekten doğan çocuk sayısı ile gelen leylek sayısı arasında bir ilişki olabilir. Hatta bu ilişkiden yararlanarak biz, gelen leyleklerin sayısından doğacak çocukların sayısını tahmin edebiliriz. Ancak bu ilişkiyi, “doğan çocuk sayısı, gelen leylek sayısının bir fonksiyonudur” şeklinde bir sebep sonuç ilişkisi olarak algılayamayız. İlişkinin varlığını istatistik yöntemlerle söyleyebiliriz; aynı yöntemlerle ilişkinin miktarını, şeklini ve derecesini de ölçebiliriz. Ancak ilişkinin bir sebep sonuç ilişkisi mi olduğu, yoksa iki özellik arasında, her ikisini de bir şekilde etkileyen başka sebepler yüzünden mi bir ilişki olduğunu söyleyebilmek için istatistik yöntemler dışındaki bilgilere gerek vardır.
Biz iki özellik arasında herhangi bir şekilde mevcut ilişkiye (birlikte değişmeye) korelatif ilişki diyoruz. Bunlardan birisinin oluşumu, diğerinin oluşumuna bağlı ise, biri diğerinin foksiyonu ise, bunlar arasındaki ilişkiye sebep-sonuç ilişkisi (nedensel ilişki) diyoruz. Görülüyor ki, korelatif ilişkide, ilişkinin mahiyeti bizi ilgilendirmiyor; daha çok ilişkinin miktarı ve derecesi üzerinde duruyoruz. Oysa nedensel ilişkide, aralarında sebep sonuç ilişkisi aşikârdır.
Özet olarak, korelatif ilişki, sadece birlikte değişmenin varlığına işaret eder. Açıktır ki, her sebep sonuç ilişkisi, aynı zamanda bir korelatif ilişkidir. Ancak her korelatif ilişki, sebep sonuç ilişkisi olmayabilir.
Biz çoğu zaman aralarındaki ilişkinin şeklini ve mahiyetini bir tarafa bırakarak iki özellik arasındaki ilişkinin miktarı ve derecesi üzerinde dururuz, korelatif ilişkiye bakarız. İlişkinin miktarını, “birindeki değişmeye karşılık diğerinde ne kadar değişme oluyor?” sorusuna cevap olarak ölçeriz. Burada bir değişkeni açıklayıcı değişken olarak almış oluruz. Buraya kadar söylenenlerden anlaşılmış olmalıdır ki, açıklayıcı değişken her zaman sebep değişken olmayabilir.
Sebep sonuç ilişkisi olan durumlarda, açıklayıcı değişkene etmen (Etken veya Faktör) diyoruz. Etmen, yeterli, gerekli veya koşullu olabilir. Bazı olaylar birden fazla etmenin etkisiyle ortaya çıkabilir.
Yeterli etmen her ortaya çıkışında bağımlı olay da ortaya çıkar. Ancak olayın vukubulması, başka etmenlerle de olabilir. Bir insanın elmaya allerjisi olabilir; her elma yediğinde bir anormallik, kaşıntı, sivilce, mide yanması, vs. olabilir. Ancak aynı rahatsızlıklar başka yiyeceklerden de olabilir.
Gerekli etmen ortaya çıkmadan bağımlı olay tezahür etmez. Hiç alkol kullanmayan bir insan alkolik olamaz. Ancak alkol kullanan her insan mutlaka alkolik olacak diye bir kesinlik yoktur.
Bir etmenin varlığının bir olayı meydana getirmesi başka bazı etmenlerin varlığına bağlı ise, biz bu etmene koşullu etmen diyoruz.
Bir sebep sonuç ilişkisi varsayıldığında, açıklayıcı değişkene etmen dediğimiz anlaşılmış olmalıdır. İlişkinin miktarına ilişkin istatistikler, açıklayıcı değişkende bir birim değişmeye karşılık, bağımlı değişkende ne kadar değişme olacağını gösterir. Bu tip istatistikler, bağımlı değişken ile bağımsız (açıklayıcı) değişken arasında nedensel bir ilişkinin varlığını göstermez; sadece ilişkinin varlığını, derecesinin ve miktarını gösterir.
Misal: 40 öğrencinin yaşları ile günlük sigara tüketimleri arasında doğrusal ilişkinin miktarını ve derecesini hesaplayınız.
MİNİTAB veya SPSS gibi bir istatistik programını kullanarak korelasyon katsayısı hesaplanır. Bunun nasıl hesaplanacağı istatistik dersinin konusudur. Araştırıcı kendisi bu hesaplamaları yapamıyorsa mutlaka bir istatistikçiyle çalışmalıdır.
Bulunan korelasyon katsayısı -0,134 olup bu değerin ortalaması sıfır olan bir örnekleme dağılımına dahil olma ihtimali 0,41 gibi yüksek bir değerdir. Bu yaş ile günlük tüketilen sigara sayısı önemli bir ilişki olmadığı anlamına gelir. Ancak misal olsun diye yine de bir regresyon doğrusu hesaplanmıştır. Orada da regresyon katsayısı -0,356 bulunmuştur. Yani yaş bir birim artınca içilen günlük sigara sayısında ortalama 0.356 birim azalma olmaktadır. Ancak bu ilişki istatistik olarak önemli değildir. Çünkü korelasyon katsayısı sıfır olan bir populasyondan bu örneğimizin çekildiği hipotezini kabul etmiş bulunuyoruz.
İki özellik arasındaki doğrusal ilişkinin ölçüsü olan korelasyon katsayısı, iki özellik arasında daha yüksek dereceden bir ilişki varsa bunu göstermeyebilir. Bu durumda en iyisi iki özelliğin dağılımında bir bağımlılık olup olmadığını incelemektir. Dağılımda bağımsız olmak, sadece doğrusal değil, daha yüksek derecelerden de bir birliktelik olmaması anlamına gelir. Demek oluyor ki, iki özelliğin dağılımı birbirinden bağımsızsa, bir özelliğin frekans dağılımı diğer özelliğin her değerinde aynıysa korelasyon katsayısı da sıfır çıkar. Ama tersi her zaman söylenemez; korelasyon katsayısı sıfır çıktığı halde iki özelliğin dağılımı bağımsız olmayabilir; müşterek dağılımda bir bağlılık söz konusu olabilir.
Misal: Aşağıda durumu göstermek için düzlenmiş olan 64 üniteden elde edilen X ve Y değerlerinde korelasyon katsayısı hesaplandığında sıfır çıkar. Bu, X ve Y özellikleri arasında birlikte değişim söz konusu değil; iki özellik arasında doğrusal bir ilişki yok demektir. Ancak iki özelliğin müşterek frekans dağılımı yapılırsa görülür ki dağılımları birbirinden bağımsız değildir. X’in her değerine karşılık Y değerleri farklı bir dağılım göstermektedir. Yapılacak bağımsızlık analizi durumu daha iyi ortaya koyacaktır.
Unite nu |
X |
Y |
Unite nu |
X |
Y |
Unite nu |
X |
Y |
1 |
58 |
70 |
23 |
65 |
70 |
45 |
58 |
86 |
2 |
58 |
78 |
24 |
72 |
78 |
46 |
65 |
86 |
3 |
58 |
86 |
25 |
58 |
78 |
47 |
65 |
86 |
4 |
65 |
86 |
26 |
72 |
78 |
48 |
65 |
86 |
5 |
58 |
78 |
27 |
58 |
78 |
49 |
58 |
70 |
6 |
65 |
86 |
28 |
72 |
70 |
50 |
58 |
78 |
7 |
65 |
70 |
29 |
65 |
70 |
51 |
58 |
78 |
8 |
72 |
70 |
30 |
58 |
78 |
52 |
58 |
78 |
9 |
65 |
70 |
31 |
72 |
78 |
53 |
58 |
86 |
10 |
72 |
78 |
32 |
72 |
78 |
54 |
72 |
70 |
11 |
58 |
70 |
33 |
72 |
78 |
55 |
72 |
78 |
12 |
65 |
70 |
34 |
58 |
78 |
56 |
72 |
78 |
13 |
72 |
86 |
35 |
65 |
70 |
57 |
72 |
78 |
14 |
72 |
86 |
36 |
58 |
78 |
58 |
72 |
86 |
15 |
65 |
70 |
37 |
72 |
70 |
59 |
65 |
70 |
16 |
65 |
86 |
38 |
65 |
86 |
60 |
65 |
70 |
17 |
58 |
78 |
39 |
72 |
78 |
61 |
65 |
70 |
18 |
58 |
78 |
40 |
58 |
70 |
72 |
65 |
86 |
19 |
58 |
86 |
41 |
72 |
78 |
63 |
65 |
86 |
20 |
65 |
86 |
42 |
65 |
86 |
64 |
65 |
86 |
21 |
72 |
86 |
43 |
72 |
78 |
|
|
|
22 |
65 |
70 |
44 |
65 |
70 |
|
|
|
İki yanlı frekans tablosu
Y
X |
70 |
78 |
86 |
Top |
58 |
4 |
12 |
4 |
20 |
65 |
12 |
0 |
12 |
24 |
72 |
4 |
12 |
4 |
20 |
Top |
20 |
24 |
20 |
64 |
Şeklinde bulunur. “X’in dağılımı Y’den bağımsızdır” hipotezi için, MINITAB ile yapılan hesaplama sonucunda 4 s.d.’li khi-kare değeri 23,04 bulunur. Bu değerin tesadüfi bir değer oluş ihtimali binde birden küçüktür. Bu, elimizdeki örneğin hipotezle belirlenen popülasyondan çekilme ihtimalidir. Yani hipotez reddedilir; X ve Y’nin dağılımlar birbirinden bağımsız değildir. Öte yandan X ve Y arasında korelasyon katsayısı hesaplanınca sıfır çıkmaktadır. Demek oluyor ki bu örnekte X ve Y özellikleri arasında doğrusal bir ilişki yok ama frekans dağılımları bağımsız değildir.
Misal: 75 öğrencinin tuttuğu takımla vejetaryen olma arasında bir bağımlılık olup olmadığı araştırılmaktadır. İki yanlı tablo aşağıdaki gibi bulunmuştur:
|
Fenerbahçe |
Galatasaray |
Beşiktaş |
Diğer |
Toplam |
Et yer |
15 |
12 |
17 |
10 |
54 |
Et yemez |
7 |
6 |
4 |
4 |
21 |
Toplam |
22 |
18 |
21 |
14 |
75 |
Burada kontrol edeceğimiz hipotez “tutulan takıma göre et yeyip yememe oranı değişmemektedir” şeklinde olacaktır. Yani iki özellik bakımından dağılım birbirinden bağımsızdır. Mesela Fenerbahçeli olanların bu hipoteze göre yaklaşık 54*22/75= 16 tanesinin et yiyor olması beklenir. Diğer beklenenler de aynı şekilde hesaplanır. Buna göre MİNİTAB istatistik paket programı kullanılarak yapılacak test sonucu et yemenin takımdan takıma değişmediği hipotezi kabul edilir. Burada hesaplana khi-kare istatistiğinin serbestlik derecesi 3 olacaktır.
Yararlanılan Kaynaklar:
9 ziyaretçi ve 0 üye çevrimiçi