BÖLÜM YEDİ: ÖRNEKLEME DAĞILIMLARI VE BAZI LİMİT TEOREMLERİ

YEDİNCİ BÖLÜM

ÖRNEKLEME DAĞILIMLARI VE BAZI LİMİT TEORMELERİ

Örnekten hesaplanan istatistiklere dayanarak, örneğin temsil ettiği populasyonun parametreleri hakkında bir beklentimiz varsa onu test etmek, bir beklentimiz yoksa söz konusu parametreyi tahmin etmek istediğimizi önceki bölümde ifade etmiştik. Bu testi veya tahmini yapabilmek için elimizdeki istatistiğin nasıl bir dağılım gösterdiğini de bilmek isteriz. Bu istatistiklerin teorik frekans dağılımına örnekleme dağılımı denir. Bu bölümde belirli bazı istatistiklerin örnekleme dağılımlarını ele alacağız.

VII.1- ÖRNEK ORTALAMASININ ÖRNEKLEME DAĞILIMI

Bir populasyonda çekilen basit tesadüf örneği (X₁, X₂, … , X_n) olarak ifade edilir. Burada X_i’ler birbirinden bağımsız ve özdeş dağılımlı tesadüf değişkenleridir. Elde mevcut örnek, populasyondan çekilebilecek o örnek gibi örneklerden sadece birisidir.

Bir örneğin ortalamasını ve varyansını nasıl hesaplayacağımızı ve bunların populasyondaki karşılığı parametre değerlerini nasıl tanımladığımızı bundan önceki bölümlerde gördük. Bir tesadüf örneğini oluşturan bağımsız ve özdeş dağılımlı tesadüf değişkenlerinin ortalamasının ortalaması, yani beklenen değeri

(VII.1)

Yani örnek ortalamasına ait örnekleme dağılımının ortalaması populasyon ortalamasına eşittir.

Ortalamaya ait örnekleme dağılımının varyansı da benzer şekilde, bağımsız ve özdeş tesadüf değişkenlerinin toplamının varyansından aşağıdaki gibi bulunur:

(VII.2)

Misal: VII.1-50 adet erkek öğrencinin boy ortalaması 178 cm bulunmuştur. 18-22 yaş grubundaki erkeklerin ortalaması 177 cm ve varyansı 36 olan bir normal dağılım gösterdiği bilinmektedir. Bizim elimizdeki örneğin ortalamasının, bu populasyondan çekilecek 50’lik örneklerin ortalamalarına ait dağılımdaki oluş ihtimalini bulunuz. Not: Oluş ihtimali, “ortalamadan onun kadar ve daha fazla sapanların nisbi miktarı” anlamında kullanılmaktadır.

Bu populasyondan bizim örneğimizi gibi örnekler çekilse bunların ortalaması, ortalaması ve varyansı, sırasıyla, olan bir dağılım gösterir. Bu dağılımda 178’den daha fazla olan ortalamaların nisbi miktarı, dağılımı standart normal dağılıma çevirerek aşağıdaki gibi bulunur:

Daha ileride hipotez kontrol ederken göreceğimiz gibi oluş ihtimali bazen iki tarafa doğru sapanların nisbi miktarı olarak da hesaplanır. Eğer öyle bir durum olsaydı ortalamadan 178 ve daha fazla sapan ortalamaların nisbi miktarı, normal dağılım simetrik olduğu için

Örneğin çekildiği populasyonun varyansı bilinmediği zaman, örnek varyansını bunun tahmini olarak kullanırız. Bu durumda ortalamaya ait örnekleme dağılımının standart sapmasının örnekten elde edilen tahminine ortalamanın standart hatası denir:

(VII.3)

Her istatistiğin standart hatası bu şekilde hesaplanır ve bir alışkanlık olarak istatistiğin sağ yanında ± olarak gösterilir:

Ortalama ve standart hatası:

Populasyon varyansı bilinmediği zaman örnek ortalamasının dağılımında çeşitli ihtimalleri hesaplayabilmek için standart normal dönüşümünden yararlanamayız. Bunun yerine dağılımı “student’s t-dağılımı” olarak bilinen aşağıdaki test istatistiği kullanılır:

(VII.4)

t-dağılımı, serbestlik derecesine bağlı bir dağılımdır. Standart normal dağılım gibi ortalaması sıfır, ancak varyansı 1’den büyüktür. Serbestlik derecesi büyüdükçe dağılım standart normal dağılıma yaklaşır, varyans 1’e doğru küçülür. Farklı serbestlik dereceleri için t değerinden daha büyük t’lerin nisbi miktarları, tablo: VII.1’de verilmiştir. Aşağıda ele alacağımız diğer istatistiklerin örnekleme dağılımlarında da aynı şey söz konusudur: İlgili örnekleme dağılımının standart sapması bilinmediği zaman bunun yerine örnekten hesaplanan istatistiğin standart hatası kullanılır ve çeşitli ihtimalleri hesaplamak için t dağılımından yararlanılır.

VII.2- İSTENENİN ORANINA AİT ÖRNEKLEME DAĞILIMI

İstenen ve istenmeyen diye mümkün olan iki sonuçtan oluşan bir populasyondan çekilen tesadüf örneğinde istenen sonucun sayısına ait dağılım, bilindiği gibi, binomiyal dağılım gösterir. Böyle n genişlikteki bir örnekte istenen sonucun oranı, istenen sonucun sayısı r’nin bir fonksiyonun olarak aşağıdaki gibi bulunur:

(VII.5)

Bu istatistiğin ortalaması ve varyansı, r’nin ortalama ve varyansından aşağıdaki gibi bulunur:

(VII.6)

(VII.7)

İstenenin oranı ve n yeterince büyükse oranlara ait örnekleme dağılımı yaklaşık normal kabul edilir. Burada ölçü, p>1/2 ise n.(1-p)>10, p<1/2 ise n.p>10 olmasıdır. Yani meselâ p=1/2 olan bir populasyondan çekilen örnekten hesaplanan oranın normal dağılım gösterdiğinin kabul edilmesi için n 20 veya daha büyükse yeterli şart sağlanmış olur.

Misal: VII.2- Arızalı vida oranı 0.02 olan bir imalat tipi yerine teklif edilen yeni bir tip ile imal edilen 600 vidadan 7’si arızalı çıkmıştır. Arızalı vida oranı 0.02 olan bir populasyondan 600 vidalık örnekler çekilse, arızalı vida oranı 0.01 ve daha küçük olma ihtimali nedir?

n.p=600*.02=12>10 şartı sağlandığı için örnekleme dağılımını normal kabul edebiliriz. Bu durumda standart normale dönüştürme yoluyla sorulan ihtimal bulunur:

Standart normal dağılımda ortalama ile 1ç46 arasındaki z’lerin nisbi miktarı tablodan 0.4279 olarak bulunur. Demek ki, İstenenin oranı 0.02 olan bir populasyondan çekilen 600 bireylik bir örnekte istenenin sayısının 7 veya daha az olma ihtimali 0.50-0.4279=0.0721 olarak bulunur.

Örneğin çekildiği populasyonda istenenin oranı bilinmiyorsa o zaman örnekteki oranı bunun tahmini olarak kullanacağız demektir. Bu takdirde örnekteki oranın standart hatası, oranlara ait örnekleme dağılımının standart sapmasının tahmini olarak kullanılır:

(VII.8)

VII.3- İKİ ORTALAMANIN FARKINA AİT ÖRNEKLEME DAĞILIMI

Bilimsel araştırmalarda bazen iki muamele, iki ilaç, iki yöntem, iki gıda karşılaştırılmak istenir. Bu karşılaştırmalar çoğu zaman ortalamalar arasında bir fark olup olmadığına bakmak suretiyle yapılır. Bu durumda da biz iki grubun aynı populasyondan çekilmiş örnekler olduğu hipotezini kontrol ederiz. Dolayısıyla aynı populasyondan çekilmiş örnek ortalamaları arasındaki farkın gösterdiği örnekleme dağılımına ihtiyacımız vardır.

Aynı populasyondan çekilmiş iki tesadüf örneğinin ortalamaları arasındaki fark ortalaması sıfır olan bir dağılım gösterir:

(VII.9)

Farkın varyansı da, iki tesadüf örneği birbirinden bağımsız çekildikleri için, iki ortalamanın varyansının toplamına eşittir:

(VII.10)

Misal: VII.3- Araba yakıtlarına konan iki antifrizin yakıt tüketimine etkisi araştırılıyor. A antifrizinin denendiği 20 arabada ortalama 5.8 lt/100km, B antifrizinin denendiği 22 arabada ise ortalama tüketim 6.4 lt/100km bulunuyor. Bu örneklerin varyansı 1.44 olan bir populasyondan çekilen bizim örnek çiftimiz gibi örnek çiftlerinin ortalamaları arasındaki farkın örnekleme dağılımına dâhil oma ihtimalini bulunuz.

D=6.4-5.8=0.6 lt farkın ortalaması sıfır, varyansı da eşitlik VI.10’dan

olan örnekleme dağılımına dâhil olma ihtimali, yani bu dağılımda 0.6 ve daha büyük olan farkların nispi miktarı, ilgili örnekleme dağılımını standart normal dağılıma çevirerek bulunur:

Bu iki örneğin ortalaması arasındaki farktan daha büyük farkların, aynı populasyondan çekilmiş bu iki örnek gibi örnek ortalamaları arasındaki farkların örnekleme dağılımındaki nispi miktarı %5,26’dır.

Örneklerin çekildiği varsayılan populasyonun varyansı bilinmiyorsa, bunun yerine örneklerin varyansından elde edilen tahmin kullanılır:

(VII.11)

Eşitlik VII.11 ile verilen tahmin “toplanmış varyans” olarak bilinir. Eşitlik VII.10’da verilen iki örnek ortalamasının farkına ait örnekleme dağılımın varyansının tahmini de bu durumda aşağıdaki gibi olur:

(VII.12)

VII.12’nin karekökü farkın (D’nin) standart hatasıdır.

VII.4- KORELASYON KATSAAYISINA AİT ÖRNEKLEME DAĞILIMI

Korelasyon katsayısı ρ olan bir populasyondan çekilen tesadüf örneklerinde hesaplanan korelasyon katsayıları, ortalaması ρ, varyansı aşağıda verilen bir örnekleme dağılımı gösterir (Kocabaş ve ark. 2013, sayfa:135):

(VII.13)

Örneklerin çekildiği populasyonda iki özellik arasında korelasyon katsayısı ρ=0 ise, örneklerin korelasyon katsayısı değişim aralığı -1<r<+1 olan, ortalama etrafında simetrik çan eğrisi şeklinde bir dağılım gösterir. Örnek genişliği n kaç olursa olsun dağılım yaklaşık normal kabul edilir, n büyüdükçe dağılımın dikliği de normale yaklaşır.

Misal: VII.4- 38 arabada egzozdaki CO₂ miktarı (Y) ile 100km’de litre olarak yakıt tüketimi (X) arasında korelasyon katsayısı r=0.4 olarak bulunmuştur. Bu örneğin ρ=0 olan bir populasyondan çekilmiş olma ihtimalini hesaplayınız.

Z=2.47 değerine karşılık gelen nispi miktar z tablosundan 0,4931 bulunur. Demek ki, korelasyon katsayısı sıfır olan bir populasyondan n=38 büyüklüğünde tesadüf örnekleri çekilse bunların 0,50-0,4931=0,0069 kadarında r değeri 0,40’tan daha büyük çıkacaktır. Egzozdaki CO₂ oranı ile yakıt tüketimi arasında ilişki olmayan bir populasyondan örneğimizin çekilmiş olma ihtimali on binde 69’dur.

Populasyonun korelasyon katsayısı ile ilgili bir bilgimiz ve/veya bir beklentimiz yoksa o zaman korelasyon katsayısına ait örnekleme dağılımının standart sapmasının örnekten elde edilecek tahmini, örnek korelasyon katsayısının standart hatasıdır:

(VII.14)

ρ≠0 ise örnek korelasyon katsayılarına ait örnekleme dağılımı yine -1 ile +1 arasında asimetrik bir dağılım gösterir. Sıfıra yakın ρ değerleri için örnek genişliği 30 ve daha büyükse örnek korelasyon katsayılarının dağılımı yine normal kabul edilebilir. Ancak ρ büyük olduğu zaman, n kadar geniş olursa olsun örnek korelasyon katsayılarının dağılımı normal kabul edilemez. Bu durumda r’ler, eşitlik (VII.15)’te verilen şekilde, normal dağılacak bir değere dönüştürülür:

(VII.15)

U tesadüf değişkeni ortalaması ve varyansı sırasıyla aşağıdaki gibi olan bir yaklaşık normal dağılım gösterir:

(VII.16a)

(VII.16b)

U dağılımı kullanılarak ρ≠0 durumunda da belirli r değerlerine karşılık gelen u değerlerinin oluş ihtimalini hesaplamak mümkündür.

Misal: VII.5- Misal VII.4’teki örneğin ρ=0.60 olan bir populasyondan çekilmiş olma ihtimalini hesaplayın.

Örnek değerimiz olan r=0.4’ın standart normal dağılımdaki z karşılığını bulmak için gerekli sayılar aşağıdaki gibi hesaplanır:

Bunları yerine koyarak standart normal dağılım değeri aşağıdaki gibi bulunur:

Standart normal dağılımda -1.18’den daha küçük z’lerin nisbi miktarı 0.50-0.382=0.118 kadardır. Yani ρ=0.60 olan bir populasyondan r=0.4 olan bir örnek çekme ihtimali %11.8 kadardır.

Not: Burada bir istatistiğin, ilgili örnekleme dağılımındaki oluş ihtimali deyince, o dağılımda izim değerimiz kadar ve daha sapanların nisbi miktarını hesapladığımıza dikkat ediniz. Şimdiye kadar ki misallerde bu ihtimali tek taraftaki sapmaların nisbi miktarı olarak hesapladık. Hipotez kontrolü bahsinde görüleceği gibi, sapmaların “iki taraftaki, yani bizim örnek değerimiz tarafında ve öbür taraftaki sapmalar” olarak da hesaplanması gerekebilir.

VII.5- ÖRNEKLEME DAĞILIMLARI İLE İLGİLİ BAZI LİMİT TEOREMLERİ

Örnek, teorik olarak, özdeş dağılımlı ve bağımsız tesadüf değişkenleri olarak tanımlanır. Örnekten hesaplanan değerler, yani istatistikler de o zaman, bu bağımsız ve özdeş dağılımlı tesadüf değişkenlerinin müşterek bir fonksiyonudur. Bu bahiste örneklerle ilgili bazı limit teoremleri göreceğiz. Örnek genişliği büyük olduğu zaman örneğin bazı özelliklerini veren bu limit teoremleri, istatistik genelleme (inferential statistics) yöntemlerinin gelişmesinde ve uygulanmasında son derece faydalı teoremlerdir.

VII.5.1- İhtimalde Yönelme ve Büyük Sayılar Kanunu

Tanım: İhtimalde Yönelme.Bir X₁, X₂, … ,X_n tesadüf değişkenleri dizisi düşünelim, herhangi bir küçük ϵ sayısı için yazılabiliyorsa X ihtimalde c’ye yönelmiştir denir. Bu bahiste bu tanımdan istatistik genelleme uygulamalarında çok yararlı olan bir takım sonuçlar çıkarılacaktır.

Bir tesadüf örneğinden hesaplanan herhangi bir istatistik û olsun. Û’nun beklenen değeri, yani ortalaması mevcutsa, herhangi bir c sabiti için

(VII.17)

Burada E(Û), Û’nun ortalamasıdır. Bu teoremin ispatı için (Kavuncu 1995, sayfa 131’e bakınız). Markov eşitsizliği olarak bilinen Eşitlik VII.17’deki Û, ortalaması µ, varyansı σ²olan X tesadüf değişkeninin şeklinde bir fonksiyonun olsun. VII.17’deki c için de k bir sabit olmak üzere tanımlaması yapalım. Eşitlik VII.17’yi buna göre

şeklinde yeniden yazabiliriz.

İhtimal içindeki eşitsizliğin her iki tarafındaki ifadelerin kare kökü alınırsa

(VII.18)

Eşitlik VII.18, Markov eşitsizliğinin özel bir hali olarak Tchebysheff eşitsizliği olarak bilinir. Eşitlik VII.18, 1/k²’nin bir limit değeri olduğunu gösterir. Ortalamanın iki tarafında kadarlık bir sapma düşünelim.X’in ortalamadan kadar ve daha fazla sapma ihtimalien fazla 1/k² kadar demektir. Tersine söyleyecek olursak, X’in ortalamadan en fazla kadar sapma ihtimali 1-(1/k²)’dan daha fazladır:

İhtimalde yönelme ve Tchebysheff eşitsizliğinin bir sonucu büyük sayılar kanunudur:

Büyük Sayılar Kanunu: X₁, X₂, … ,X_ntesadüf değişkenleri stokastik bağımsız ve özdeş dağılımlı olsunlar (yani bir tesadüf örneğinifade etsinler). X’in ortalaması μ=E(X_i) ve varyansı σ²= Var(X_i), gerçek sayılar ve olmak üzere, herhangi bir küçük ve pozitif ϵ sayısı için

(VII.19a)

ya da

(VII.19b)

olup ihtimalde μ’ye yönelmiştir.

Bu kanunu Tchebysheff eşitsizliği kullanılarak ispatlanabilir. Örnek ortalamasına ait dağılımın beklenen değeri µ ve varyansı σ²/n değerlerini yerine koyarak eşitlik VIII.18 yeniden aşağıdaki gibi yazılabilir:

Burada k yerine

konularak

yazılabilir. Buradan da limit değeri

veya

Misal: VII.6- X binomiyal bir tesadüf değişkeni olsun. X/n istatistiğinin ihtimalde p’ye yöneldiğini gösteriniz.

N adet Bernoulli denemesi düşünelim. i. denemede sonuç istenen ise X_i=1, değilse X_i=0 olsun. X binomiyal değişkeni X_i’lerin toplamı olarak tanımlanır:

Öte yandan E(X_i)=p ve Var(X_i)=p(1-p) olduğu dikkate alınırsa eşitlik VII.19b’den aşağıdaki ifade kolayca yazılır:

İhtimalde yönelme ile ilgili aşağıdaki teorem de çok faydalıdır (Mendenhall ve Scheaffer 1973):

Teorem: ihtimalde µ₁’e, Ῡ de µ₂’ye yönelmiş olsun. Buna göre,

a. ,ihtimalde µ₁+ µ₂’ye

b. ,µ₁.µ_2’ye

c. , Ῡ>0 şartı ile,µ₁/µ₂’ye

d. karekök(Ῡ) de, Ῡ>0 şartı ile, karekök(µ₂)’ye yönelmiştir.

VII.5.2- Dağılımda Yönelme ve Merkezi Limit Teoremi

Tanım: Dağılımda Yönelme. X₁, X₂, …, Xn bir tesadüf değişkenleri dizisi, g (X₁, X₂, …, Xn) de bunların bir fonksiyonu olsun. Bu g fonksiyonunun kümülatif yoğunluk fonksiyonunu (kısaca dağılım fonksiyonu da denilir) F_n(X) ile gösterelim. Dağılım fonksiyonu F_Y(Y) olan bir Y tesadüf değişkeni ve F_Y(Y)’nin sürekli olduğu her a değeri için

yazılabiliyorsa g(X₁, X₂, …, Xn), dağılımda Y’ye yönelmiştir. F_Y(Y) fonksiyonu, g (X₁, X₂, …, Xn)’nin limit dağılım fonksiyonu adını alır.

Merkezi Limit Teoremi: X₁, X₂, …, Xn bağımsız ve özdeş dağılımlı tesadüf değişkenleri olsun. μ=E(X_i), σ²= Var(X_i) ve

olsun. Aşağıdaki gibi tanımlanan Z_n tesadüf değişkeni, dağılımda standart normale yönelir:

Merkezi limit teoreminin ispatı için Kavuncu (1995)’e bakınız.

VII.6 - Çalışma Soruları

1- Bir lastiğin eskime ömrü, ortalaması 45000 km, standart sapması 1200 olan bir normal dağılım göstermektedir. Bu populasyondan çekilecek 20 ünitelik tesadüf örneklerinin ortalamalarına ait örnekleme dağılımını tanımlayınız (Yani örnekleme dağılımının ortalama ve standart sapmasını bulunuz).

2- Bir adayın seçimlerde ne kadar oy alacağını araştıran bir kamuoyu araştırma şirketi, 560 seçmenden 290’ının bu adaya oy vereceğini belirlemiştir. Bu örnekte hesaplanacak 290/560 oranının ait olduğu örnekleme dağılımının parametrelerini yazınız (Standart sapma yerine örnekten hesaplanan standart hatayı alçaksınız).

3- Meyve suyu şişelerinde kuru madde oranı ile C vitamini oranı arasında bir ilişki olmadığı belirlenmiştir. Bu şişelerden rastgele 15 tanesinde hesaplanacak korelasyon katsayısı nasıl bir örnekleme dağılımı gösterir? Bu 15 şişede r=0.40 olma ihtimali nedir? (r=0.40 ve daha fazla sapan değerlerin yüzdesi ne kadardır?)

4- Ortalaması 44150 km olan 20 lastiklik bir örneğin birinci sorudaki normal dağılımdan çekilmiş olma ihtimali nedir? (44150 km değerinin birinci sorudaki örnekleme dağılımına ait olma ihtimali ne kadardır? Burada 44150 ve daha fazla sapanların yüzdesi sorulmaktadır.)

5- a) N=25 olan bir grubun ortalaması 12±0.22, n=30 olan başka bir grubun ortalaması 14±0.26 bulunmuştur. İki grubun ortalaması arasındaki farkı ve bu farkın standart hatasını bulunuz.

b) a şıkkındaki ikinci grupta da ünite sayısı 25 olsaydı, farkın standart hatasını nasıl bulurdunuz?