SEKİZİNCİ BÖLÜM
PARAMETRE TAHMİNİ
VIII.1- Nokta Tahmini ve Bir Tahminde Aranan Özellikler
İstatistik karar verme süreçleri, parametre hakkında bir hipotezimiz olup olmamasına göre ikiye ayrılır. Örneğimizin çekilmiş (veya çekilmemiş) olduğunu varsaydığımız bir populasyon varsa, bunun parametresi ile ilgili bir hipotezimiz de var demektir. Bu hipotezi, bu işe özel istatistik yöntemlerle test ederiz. Bu sürece hipotez kontrolü denilir. Hipotez kontrollerini gelecek bölümlerde ele alacağız.
Parametre ile ilgili bir hipotezimiz, yani bir bilgimiz veya bir beklentimiz yoksa o zaman örnekten elde edilen bilgilerden istifade ederek parametreyi tahmin etmeye çalışırız. Örnek değerinin kendisi, parametrenin bir tahminidir. Buna nokta tahmini denir. Örnek ortalaması, populasyon ortalamasının bir nokta tahminidir.
Örnekten hesaplanan her istatistik, mütekabil parametrenin bir tahmindir. Bu istatistiklerin iyi tahminler olması için bazı özelliklere sahip olması istenir. Bu bölümde bunlardan uygulamalı istatistik dersini alan bir lisans öğrencisine yetecek kadar bahsedilecektir.
Bir istatistiği, bir populasyon değerinin, yani parametrenin tahmini değeri olarak hesaplamak için kullanılan formüle tahmin edici denir. Böyle bir tahmin ediciyi û ile, bununla tahmin etmek istediğimiz parametreyi de u ile gösterelim. Tahminin hatası, tabiatıyla
(VIII.1)
olarak gösterilir. Bu hata mümkün olduğu kadar küçük olsun istenir. Ancak bir tahminin hatasını önceden bilmek mümkün değildir. Çünkü û bir tesadüf değişkeni olduğuna göre, ɛda bir tesadüf değişkenidir. Dolayısıyla hatayı önceden bilmek mümkün değildir ama, û’nun ihtimal fonksiyonu biliniyorsa ɛ’nunbelirli değerler alma ihtimalinden bahsedilebilir. Buna daha sonra tahminin isabet derecesi ve güven aralığı bahsinde ele alacağız.
Sapmasız Olmak. Tahmin edici û, bir örnekleme dağılımına sahiptir. Bu dağılımın ortalamasını (beklenen değerini) E(û) ile gösterelim. [E(û)-u] farkına sapma (bias) denir ve B ile gösterilir:
(VIII.2)
B=0 ise, yani E(û)=u ise, û sapmasız (unbiased)bir tahmin (edici) olarak tanımlanır.
Küçük Varyanslı Olmak. Var(û), û’nun varyansı olsun. Bu varyans ne kadar küçük olursa tahminin isabet derecesi o kadar yüksek olur. Başka bir şekilde ifade edilecek olursa
(VIII.3)
olsun istenir. Öte yandan tahminin hatasının karesinin beklenen değeri, tahminin hata kareler ortalaması olarak bilinir:
Demek ki, tahmin sapmasız olduğu zaman HKO ile varyans birbirine eşit oluyor. Sapmasız iki tahminden küçük varyanslı olanı tercih edilir. Buna küçük varyanslı tahminin daha etkin olması (efficient)olması denir.
Yeterli Olmak. Yeterli istatistik deyince iki farklı özellik düşünülür: Bunlardan birisi hedef parametre için örnekteki gerekli bütün bilgiyi özetleyen istatistikler yeterli istatistik olarak tanımlanır. İkincisi bilinmeyen bir parametreye bağlı olmayan istatistikler yeterli istatistiktir. Biz burada birinci özelliği ele alıyoruz. İkincisi için daha fazla bilgi isteyenler (Kavuncu 1995, sh 153-155 ve Hoggve Craig1978, sh 344’e bakabilirler).
Özet olarak söylemek gerekirse bir istatistiğin iyi bir tahmin sayılması için, yeterli, en küçük varyanslı ve sapmasız olması istenir. Bunların dışında tahminde tutarlı olması da istenir. Tutarlılık, tahminin ihtimalde hedef parametreye yönelmesi demektir (Kavuncu 1995, sh. 152). Küçük bir ɛ sayısı için
(VIII.4)
İse, yani û, ihtimalde u’ya yönelmişse, u için tutarlı bir tahmindir.
VIII.2- Tahminin İsabet Derecesi ve Güven Aralıkları
Tahminin hatası küçük olsun istenir, ancak bu hatayı önceden ölçmek mümkün değildir. Fakat tahminin hatası için, û’nun örnekleme dağılımı biliniyorsa, belirli değerler alma ihtimali hesaplanabilir.
Û, u’nun sapmasız bir tahmini olsun. Û’nun örnekleme dağılımında hedef parametre u etrafında simetrik iki nokta seçelim. Bu noktaların hedef parametreye b uzaklığı küçük bir sayı olarak seçilmiş olsun. Bu durumda belirli bir P(ɛ<b) ihtimali için b’nin değeri bulunabilir ve bu ihtimal tahminin isabet derecesi için bir fikir verir.Meselâ tahminin hatası %90 ihtimalle b’den küçük olsun isteniyorsa, b’nin değeri aşağıdaki integrali sağlayacak şekilde araştırılır:
Û’nun yoğunluk fonksiyonu bilinmiyorsa, ɛ için yaklaşık bir sınır değeri bulmada Tchebyscheffeşitsizliğinden yararlanılabilir. Eşitsizlikle ilgili teorem, tahminin hatası ɛ için aşağıdaki şekilde yazılabilir:
(VIII.5)
Meselâ, k=2 için ɛ≤2.Var(û) olma ihtimali en az %75 demektir. Gerçekte bu ihtimal birçok örnekleme dağılımı normal olduğu için %95’ten daha fazladır.
Bu eşitsizlikten ve elde mevcut istatistiğin örnekleme dağılımının merkezi limit teoremine göre normal olduğu varsayımından yararlanarak ilgili örnekleme dağılımının ortalamasının belirli bir ihtimalle içinde bulunduğu sınırları tahmin edebiliriz:
Ua,ü=û±tα/2.Sû (VIII.5a)
Burada Sû, û’nun standart hatası olup, û’ya ait örnekleme dağılımının standart sapmasının tahminidir. tα/2 ise ilgili serbestlikdereceli t dağılımında 1-α dışında kalan alanı ayıran değerdir. Hedef parametrenin içinde bulunduğu aralığın sınırlarını 1-α ihtimalle belirliyoruz demektir ki bu değer güven katsayısı olarak bilinir.
VIII.2.1- Ortalamanın Güven Aralığı
Ortalamaya ait örnekleme dağılımı birçok hallerde normal dağıldığı için, standart normal dağılıma çevrilebiliyordu. Örnek ortalamamızın bilinmeyen parametre değerinden büyük mü küçük mü olduğunu bilmediğimiz için dönüşüm formülünü aşağıdaki gibi yazarız:
Buradan belirli bir α değeri için parametrenin dışında bulunacağı alt ve üst sınırları aşağıdaki gibi hesaplayabileceğimiz açıktır:
(VIII.6)
Ancak ortalamasını bilmediğimiz populasyonun varyansı da genellikle bilinmeyeceği için VIII.6’da örnekten hesaplanan standart hatayı kullanmak durumunda kalırız ve tabii bu durumda da z yerine t dağılımından yararlanırız:
Misal VIII.1- 45 öğrencinin ağırlığı ortalama 67 ± 1,05 kg bulunmuştur. Bu öğrencilerin temsil ettiği populasyonun ortalamasının %95 olasılıkla içinde bulunduğu aralığın alt ve üst sınırlarını hesaplayınız.
Eldeki t tablosundan 44 serbestlik dereceli t dağılımında α=1-0.95=0.05 olduğu için t0.025=2.017 olarak bulunur ve sorunun cevabı aşağıdaki gibi olur:
µa=64.88 ve µü=69.12. Yani populasyonun ortalaması % 2.5 ihtimalle 64.88’den küçük ve %2.5 ihtimalle 69.12’den büyük, %95 ihtimalle de bu iki değer arasındadır.
VIII.2.2- Oranın Güven Aralığı
Yeterince büyük n için istenenenin oranı ŝ olan bir örneğin çekildiği populasyonda p oranı 1- α ihtimalle aşağıdaki sınırlar arasındadır:
Pa,ü= ŝ±tα/2.Sŝ
Misal: VIII.2- Yeni bir vakumlama yöntemiyle kapakları monte edilen içme suyu şişelerinde kapağın kolayca açılmadığından şikayet edilmektedir. Şikayet üzerine üretici firmanın AR-GE birimi 125 şişede 12 tanesinin gerçekten açılma sorunlu olduğunu bulmuştur. Populasyonda kapak açılma arıza oranını %95 güven katsayısıyla tahmin ediniz.
Ŝ=12/123=0.096 olup bunun standart hatası
Örneğimizin temsil ettiği populasyonda arızalı kapak oranı p, %95 ihtimalle
Pa,ü= ŝ±tα/2.Sŝ=0.096±1.98*0.027=0.096±0.0535
Yani p %95 ihtimalle 0.0425 ile 0.1495 arasındadır; %5 ihtimalle de bu değerşerin dışındadır.
VIII.2.3- Korelasyon Katsayısının Güven Aralığı
Ortalama için anlatılanlardan anlaşılmış olacağı gibi, yeterince büyük n için X ve Y arasında korelasyın katsayısı r olarak hesaplanan örneğin ait olduğu populasyonda korelasyon katsayısı 1-α ihtimalle aşağıdaki sınırlar arasındadır:
Misal: VIII.2- 27 arabada egzostaki CO2 oranı ile yakıt tüketimi (lt/100km) arasında korelasyon katsayısı 0.55 bulunmuştur. 27 arabanın temsil ettiği populasyonun korelasyon katsayısı %90 ihtimalle hangi değerler arasında olabilir?
Eldeki t tablosundan, korelasyon katsayısının serbestlik derecesi n-2 olduğundan, 25 serbestlik dereceli t dağılımında α=1-0.90=0.10 olduğu için t0.05=1.708 bulunur. Buradan da ρ için güven aralığı aşağıdaki gibi bulunur:
Demek ki, ρa=0.55-0.285=0.265 ve ρü=0.835. Yani populasyon korelasyon katsayısı %90 ihtimalle .265 ile 0.835 arasındadır; %10 ihtimalle de bu sınırların dışındadır.
Ancak tahmin edilmek istenen ρ için kullanılan örnek değerleri r yeterince küçük, n de yeterince büyük değilse o zaman r, yedinci bölümde verilen dönüşüm formülüyle (eş. VII.5) normal dağılan bir u istatistiğine dönüştürülür:
Sonra U istatistiğinin ortalaması için bulunan alt ve üst sınır parametre tahminleri ûalt ve ûüst, ρalt ve ρüst’e çevrilir:
(VIII.7)
Misal: VIII.3- Misal: VIII.2’deki problemi bu yolla çözersek
U’nun örnekleme dağılımının standart sapması
ve kendinden daha fazla sapan z’lerin yüzdesi 0.05 olan z değeri ±1.96 olduğundan μUiçin alt ve üst sınır değerler aşağıdaki gibi bulunur:
μU için buradan bulunan 0.218 ve 1.018 sınırları eş. VIII.7’den ρ için alt ve üst sınırlara çevrilir:
Güven katsayısı 0.95 değil de 0.90 olsaydı, z değerini 1.708 alacaktık. Bu durumda ρ için güven sınırları 0.264 ve 747 olacaktı (μUiçin güven sınırlarını bulup buradan geri dönüşümle ρ için güven sınırlarını 0.264 ve 0.747 olarak bulmak okuyucuya alıştırma olarak bırakılmıştır).
Çalışma Problemleri:
1- Bir ay süreyle belirli bir mama ile beslenen dört aylık 30 kız bebekte ağırlık artışı 1.30±0.026 olarak bulunmuştur. Bebeklerin temsil ettiği populasyonun ortalaması %95 ihtimalle hangi değerler arasında olabilir?
2- 12 arabada lastiklerin ömrü 29.17±0.75 (*1000)km bulunmuştur. Bu arabaların temsil ettiği populasyon ortalamasının güven aralığını %90 ihtimalle bulunuz.
3- Misal: VIII.2’deki korelasyon katsayısı 0.70 bulunmuş olsa, yine %90 ihtimalle güven aralığının ait ve üst sınırları kaç olur?
4- 15 adet meyve suyunda kuru madde oranı ile C vitamini miktarı arasında korelasyon katsayısı .6 bulunmuştur. Populasyonun korelasyon katsayısı %99 ihtimalle hangi sınırlar arasında olabilir? Buna göre yaptığınız aralık tahmini anlamlı bir sonuç mudur?
2 ziyaretçi ve 0 üye çevrimiçi