BEŞİNCİ BÖLÜM

KORELASYON VE REGRESYON

            Şimdiye kadar örneğimizi, tek bir değişken (özellik, vasıf, karakter) bakımından elde edilmiş veriler için tanımlamaya çalıştık; bu verileri özetledik, frekans tablosu yaparak dağılımın şekli hakkında fikir edinmeye çalıştık, bu dağılımın ortalamasını ve o ortalama etrafında verilerin varyasyonunu ölçen istatistikleri gördük.

Oysa birçok araştırıcı elindeki ünite topluluğunda, yani örnekte tek bir özellik değil de birden fazla özellik üzerinde çalışır, bunlar arasındaki ilişkiyi bulmaya çalışır. Özellikler arasındaki ilişki de genellikle istatistiğin konusudur; çünkü genellikle ilişkinin herhangi bir sebebe atfedilemeyen, açıklanamayan bir kısmı vardır; eğer yoksa ilişki deterministik olarak bütün sebepleri ile açıklanabiliyor demektir ki o zaman istatistiğin konusu değildir.

            Eldeki örnekte iki özellik arasındaki ilişki araştırılıyorsa her üniteden iki özelliğe ait ölçümler yapılır. Özellikleden birisini X diğerini Y ile gösterelim. O zaman ilk üniteye ait ölçümler (X1, Y1), ikinci üniteye ait ölçümler (X2, Y2) olacak demektir. Bu durumda tesadüf örneği iki boyutlu (X1,Y1), (X2,Y2), … , (Xn,Yn) şeklinde n çift gözlemden meydana gelmiş olacaktır. Meselâ bir insan populasyonundan bir tesadüf örneği seçebilir ve örneğin her bir ünitesinde (bireyinde) boy ve ağırlık, gelir ve zekâ, yaş ve olgunluk testinde alınan puanlar ölçülmüş olabilir. Veya bir psikiyatri uzmanı bir fare grubunda, her bir fareye ait som yemlemeden sonra geçen zamanı ve öbür ucunda yem bulunan bir tüneli geçtiği zamanı ölçebilir. Ya da buğday parsellerinde her parseldeki verim ve düşen yağmur miktarını ölçmüş olabilirdik.

 

            Bu bölümde iki değişken arasındaki doğrusal ilişki ölçüleri üzerinde durulacaktır. Doğrusal olmayan ilişkiler de istatistiğin konusudur. Bu ilişkilerden bir kısmı doğrusal hale çevrilebilir, bir kısmı ise doğrusal hale çevrilemez. Ancak bunlar bu kitabın kapsamı dışında tutulmuştur. İstatistiğin konusu olarak iki değişken arasındaki ilişki denilince, birini sebep birini sonuç olarak ele almış olsak bile bir sebep sonuç ilişkisi olmaktan daha ziyade ili değişkenin birlikte değişmesinin kast edildiği iyi anlaşılmalıdır.

 

            V.1- Birlikte Değişmenin Derecesi: Korelasyon Katsayısı

 

            X ve Y özellikleri arasındaki korelasyon katsayısı, populasyonda,

 

     ρxy= Kov(x,y)/[σx. σy] = E[(x-μx)(y-μy)]/{E[(x-μx)2] E[(y-μy)2]}1/2         (V.1)

şeklinde gösterilir. ρ Eski Yunan (Grek) alfabesinin 17nci harfidir ve “ro” olarak okunur. Burada E sembolü beklenen değer demektir. ρ populasyon korelasyon katsayısı olup teorik bir değer, bir parametredir[i]. Çoğu zaman olduğu gibi populasyonun korelasyon katsayısı bilinmiyorsa bunun bir tahmini olarak örneğin korelasyon katsayısı,

 

                                                                                  (V.2)

 

olarak hesaplanır. Burada dx=, dy=olup daha önce gördüğümüz formüllerle V.2 numaralı eşitliğin paydasındaki terimler sırasıyla x’e ve y’ye ait kareler toplamı, payındaki terim ise x ve y’nin çarpımları toplamı olarak bilinir. Çarpımlar toplamı için de, kareler toplamı için olduğu gibi bir hesaplama formülü vardır:

                                                                                       (V.3a)

Veya

                                                                                                     (V.3b)

            Korelasyon katsayısı -1 ile +1 arasında değerler alır. r’nin -1 olması demek, x değerleri artarken y değerlerinin azaldığı tam bir doğrusal ilişki demektir. r=1 demek, x artarken y’nin de tam doğrusal olarak artması demektir. r=0 ise x ve y arasında doğrusal bir ilişki yok demektir. x ile y arasındaki doğrusal ilişki arttıkça korelasyon katsayısı da 0’dan 1’e veya -1’e yaklaşır.

            Misal: V.1- Bir endüstri bölgesinde rastgele seçilen 10 fabrikada yıllık gelir (X) ve ortalama işçi aylıkları (Y) aşağıdaki gibi bulunmuştur. Bu iki özellik arasındaki korelasyon katsayısını hesaplayınız. Bulduğunuz değeri nasıl yorumlarsınız?

Yıllık Gelir (100 milyon TL) (X) : 5.0 6.0 7.0 5.0 4.0 3.0 2.5 7.0 4.2 5.7

Ortalama işçi aylığı (bin TL) (Y) : 3.5 4.0 4.5 3.7 2.7 2.6 2.5 3.5 3.0 4.0

 

A-    Gerekli toplamlar aşağıdaki gibi bulunur:

 

           

 

Buradan da

 

Korelasyon katsayısını hesaplamak için gerekli bütün değerler elimizde olduğuna göre:

 

Fabrikaların yıllık gelirleri ile işçilere ödedikleri ortalama aylık arasında oldukça yüksek bir ilişki olduğu söylenebilir.

 

            V.2-Regresyon Katsayısı ve Önceden Tahmin Denklemi: Regresyon Doğrusu

            Korelasyon katsayısı, iki özellik arasındaki doğrusal ilişkinin derecesini, yani ne kadar sıkı veya ne kadar gevşek olduğunu gösterir. Burada ilişki derken muradımız birlikte değişmedir. Korelasyon katsayısı hesaplanırken her iki özellik de tesadüf değişkenidir.

            Ele aldığımız iki özellik arasında birlikte değişme derecesi yanında, birindeki değişmeye karşılık diğerinin ne kadar değiştiğini de bulmak isteriz. X’in 1 birim değişmesine karşılık Y’nin ne kadar değişeceğini gösteren katsayıya Y’nin X’e göre regresyon katsayısı denir:

                                                                                                     (V.4)

Eğer X’ler bağımsız tesadüf değişkenleri olarak kabul edilmiş ve Y değerlerinde 1 birim değişmeye karşılık X’lerin ne kadar değiştiği bulunmak isteniyorsa, o zaman X’in Y’ye göre regresyon katsayısı hesaplanır:

                                                                                                (V.5)

V.4 ile V.5’in geometrik ortalaması, V.2 ile verilen korelasyon katsayısına eşittir:

                                                                                                (V.6)

            Acaba değişkenlerden birisini açıklayıcı (bağımsız) değişken, diğerini de bağımlı değişken olarak kabul etseydik doğrusal ilişkiyi gösteren doğru denkleminin katsayılarını nasıl bulurduk? Meselâ X açıklayıcı değişken olsaydı, o zaman korelasyon yaklaşımından farklı olarak her iki değişkeni de tesadüf değişkeni olarak almayacak, X’lerin bizim belirlediğimiz değerlerine karşılık Y’nin aldığı tesadüfi değerleri tahmin etmeye çalışacaktık. Ancak misal verirken bu varsayımı gerçekleşmiş kabul edeceğiz. Kullanacağımız önceki misallerde her iki özellik de tesadüf değişkenleri olduğu halde biz X’lerin değerlerini bizim verdiğimiz değerler gibi düşüneceğiz.

            Bir doğrunun denklemi, aşağıdaki formülle verilir:

                                                                                                  (V.7)

Bu formülde a katsayısı doğrunun Y eksenini kestiği noktanın ordinatı, yani orijine olan dikey uzaklığı, b katsayısı ise doğrunun eğimidir; yani X’te bir birim değişmeye karşılık Y’deki değişmenin miktarını gösteren sayıdır; doğrunun X ekseniyle yaptığı açının tanjantıdır.

            Y’yi X’in doğrusal bir fonksiyonu olarak kabul edip mütekabil doğru denkleminin katsayılarını bulduğumuz zaman Y’nin X’e göre regresyon denklemini bulmuş oluruz. Doğru denkleminin a ve b katsayılarını, gerçek noktalardan en yakın geçen doğrunun denklemi olarak bulmak isteriz. Bunun belirli X değerlerine karşılık gelen gerçek Y değerleri ile doğru denklemine göre beklenen Y değerleri arasındaki farkların karelerinin toplamının en küçük olmasını sağlayacak şekilde katsayıları hesaplarız. Regresyon denklemin göre olması beklenen Y değerlerini Ŷ ile gösterirsek, istediğimiz şey,

                                                                       (V.8)

V.8 numaralı eşitlikle hesaplanan değer Hata Kareler Toplamı olarak bilinir ve HKT olarak gösterilir. Bu değeri minimum yapacak şekilde a ve b katsayılarını bulmak demek, bu denklemin a’ya ve b’ye göre kısmi türevlerini sıfır yapacak şekilde a ve b katsayılarını bulmak demektir:

                                                                                                                         (V.9)

Görülüyor ki regresyon doğrusunun eğimi, (V.5) numaralı eşitlikle verdiğimiz regresyon  katsayısına eşittir. V.7 numaralı eşitliğe regresyon doğrusu denildiği gibi, V.8 numaralı eşitliğe uygun şekilde bulunduğu için, yani HKT’ını en küçük yapacak şekilde bulunduğu için, en küçük kareler doğrusu da denir.

            Misal: V.2-  Misal: V.1’de verilen ortalama işçi aylıklarının fabrikaların yıllık gelirine göre regresyon denklemini bulunuz. Gerçek değerleri ve regresyon doğrusunu bir koordinatlar ekseninde gösteriniz.

 şeklinde ifade edilen regresyon denkleminin a ve b katsayıları

 

Buradan da regresyon denklemi

 

olarak yazılır.

                Gerçek (X,Y) noktaları ve regresyon doğrusu, Şekil: V.1’de gösterilmiştir.

            Şekil: V.1- 10 Fabrikanın yıllık geliri (X) ile işçilerine ödediği ortalama aylıklara (Y) ilişkin gerçek değerler ve regresyon doğrusu

 

            V.3- Korelasyon Katsayısı ve HKT Arasındaki İlişkiler

                Y’ye ait kareler toplamı (KTy):

           

Ortalamadan sapmayı aşağıdaki gibi ikiye bölebiliriz:

Sağdaki iki parantez içi terimin birbirinden bağımsız olduğu dikkate alınarak KTy iki unsura ayrılabilir:

                                                       (V.10)

V.10 numaralı eşitliğin her iki yanını KTy ile bölersek

                                                     (V.11)

Dikkat edilirse, Y’ye ait kareler toplamını regresyonla açıklanabilen kısım (r2) ve açıklanamayan kısım olarak ikiye ayırmış oluyoruz. Regresyonla açıklanamayan ikinci kısım HKT’nın KTy’deki payıdır. Regresyonla açıklanabilen birinci kısım ise korelasyon katsayısının karesi olup determinasyon (belirtme) katsayısı olarak bilinir.

            Misal: V.2’deki regresyon denklemiyle biz Y’deki varyasyonun, korelasyon katsayısını 0.8819 bulduğumuza göre bunun karesi olan 0.778 kadarını, yani %77.8’ini açıklayabiliyoruz demektir. Y’deki varyasyonun açıklayamadığımız kısmı ise 1-0.778=0.222 yani %22.2’dir. Böyle bir regresyon denkleminin ve korelasyon katsayısının önemli bir ilişkiyi gösterip göstermediğine ilişkin kararları daha sonra hipotez kontrollerini görürken yeniden ele alacağız.

 

            V.4- Alıştırma Soruları

1- Aşağıda verilen x ve Y değerlerini inceleyerek korelasyon katsayısını hesap yapmadan bulmaya çalışınız. Buna göre korelasyon katsayısı için aşağıdakilerden hangisi doğrudur? a) +1’e eşittir; b) -1’e eşittir; c) 0 çıkar; d) Bir şey söylenemez.

X: 4 3 5 6 4 7 8 9

Y: 6 7 5 4 6 3 2 1

2- İlk sorudaki X ve Y değerleri arasında a) X arttıkça Y’nin azaldığı tam bir doğrusal ilişki vardır, b) İlişki tam doğrısal bir artan ilişkidir, c) Tam bir doğrusal ilişki olduğu söylenemez, d) Regresyon katsayısını hesaplamadan bir şey söylenemez.

3- İlk soruda Y’nin X’e göre regresyon katsaysı, a) -1, b) +1, c) 0, d) hesaplamadan söylenemez.  

4- Bir örnekte X ve Y değerleri arasında korelasyon katsayısı 0.8 hesaplanmıştır. Y’nin X’e göre regresyon denklemini bulsanız, bu denklemle Y’deki varyasyonun ne kadarını açıklanamaz? A) 0.64, b) 0.20, c) 0.80, d) 0.36

5-  5 adet erkek öğrencinin boy (X) ve ağırlıkları aşağıdaki gibi bulunmuştur. X ve Y arasındaki korelasyon katsayısı kaçtır?

     X (cm): 176 192 178 184 173

     Y (kg):    73   78   62   60   64

a)      0.439,  b) 0.4301, c) 151.5, d) 67.38

6- Beşinci soruda X’lerden 180, Y’lerden 70 çıkararak bulacağınız değerler arasındaki korelasyon katsayısı,  a) yine 0.439 çıkar, b) daha büyük çıkar, c) daha küçük çıkar, d) hesaplamadan bir şey söylenemez.

7- Beşinci soruda Y’nin X’e göre regresyon katsayısı

a)      0.4474, b) 0.439, c) 0.4301, d) 13.47

8- Beşinci soruda ağırlıklardaki varyasyonun ne kadarı X’teki varyasyonla açıklanabilir? a) 0.439, b) %19.2, c) 1-0.192, d) 1-0.439

9- Beşinci sorudaki veriler için bulacağınız önceden tahmin (regresyon) denklemi Y’deki varyasyonun ne kadarını açıklayamaz? a) %43.9, b) %19.2, c) %80.8, d) % 56.1

10. Bir endüstri bölgesinde rastgele 10 şirketin yönetim kurulu başkanlarının tahsil süresi (X) ile o fabrikanın yıllık geliri (Y) için aşağıdaki sayılar hesaplanmıştır. Korelasyon katsayısını ve Y’nin X’e göre regresyon katsayısı aşağıdakilerden hangisidir?

a)       0.821 ve 0.906, b) 0.906 ve 0.745, c) 0.821 ve 0.745, d) 0.911 ve 0.332



[i] Populasyon değerleri, yani parametreler eski Yunan – Grek alfabesindeki harflerle gösterilir. Eski Yunan alfabesinin on ikinci harfi μ (mü okunur), populasyon ortalaması için kullanılır. μx, x değerlerinin ortalaması demektir. σ (sigma okunur), eski Yunan alfabesinin on sekizinci harfi olup populasyon standart sapması için kullanılır. σy, y özelliğininstandart sapması demektir. σx2, x değerlerinin varyansını gösterir ve görüldüğü gibi standart sapmanın karesine eşittir.

 

Site içi arama

Site düzenlemesi Crystal Studio