[3],[4],[5],[6]
Bilinmeyen \(\theta \) ölçümötesinin tahmin sorunu, belli bir anlamda \(\theta \)’nın “iyi” ya da “en iyi” tahmini olabilecek \(t\left( {{x}_{1}},\cdots ,{{x}_{n}} \right)\) gibi bir işlev bulma sorunudur. \(t\left( {{x}_{1}},\cdots ,{{x}_{n}} \right)\) tahmini rassal bir değişgen olduğundan, bilinmeyen ölçümöteyle çakışmasını bekleyemeyiz; ancak \(t\left( {{x}_{1}},\cdots ,{{x}_{n}} \right)\)’yi, \(t\)’nin bilinmeyen \(\theta \) ölçümötesinin değerine olabildiğince yakın olma olasılığını, olabildiğince büyük tutacak biçimde seçmeye çalışacağız.
Bu “iyi” ya da “en iyi” istatistiksel tamin için gerekenin biraz üstü kapalı ifadesidir. Bu birkaç farklı yoldan daha açık duruma getirilebilir. Markoff[15:344], örneğin, “en iyi” kavramını şöyle tanımlıyor: Bir \(t\) istatistiği, (gözlemlerin her hangi bir işlevine istatistik diyeceğiz),
(1) \(\theta \)’nın sapmasız bir tahmini, başka bir deyişle, bilinmeyen ölçümöte gerçek değerinin \(\theta \) olduğu varsayımı altında \(t\)’nin beklenen değeri \({{E}_{\theta }}\left( t \right)\) olmak üzere, \({{E}_{\theta }}\left( t \right)=\theta \) ise, ve
(2) tüm (1)’i sağlayan \(t\)’ler için \({{E}_{\theta }}{{\left( t-\theta \right)}^{2}}\le {{E}_{\theta }}{{\left( {t}’-\theta \right)}^{2}}\) ise,
\(\theta \)’nın en iyi tahminidir.
\(t\)’nin değişkesi küçüldükçe, \(\theta \)’nın yakın bir komşuluğunda olma olasılığı artacağından, genelde, “en iyi tahmin”in bu tanımı mantıklı ve kabul edilebilir görülmektedir. Değişkenin küçüklüğü, (Chebyshev eşitsizliğine göre) \(t\)’nin \(\theta \)’nın yakın bir komşuluğunda olma olasılığının küçük olmasını gerektirse de, tersinin genellikle doğru olmadığına işaret etmek gerekir. Bir \(t\) istatistiğinin değişkesi büyük olabilir ve yine de \(\theta \)’nın yakın bir komşuluğunda olma olasılığı büyük olabilir. Bu, Markoff’un tanımına karşıt bir durumdur. Bununla birlikte, daha ciddi bir zorluk, Markoff’un anlayışına göre en iyi olan bir tahminin seyrek olması gerçeğidir.
R.A.Fisher’in tahmin kuramı, en çok olabilirlik ilkesi üzerine kuruludur. Örnek uzayının ölçülebilir her hangi bir alt kümesi W için,
\[O\ell (W\left| \theta ) \right.=\int\limits_{W}{O\ell \left( {{x}_{1}},…,{{x}_{n}};\theta \right)dx}\]
olacak biçimde, örnek uzayında, bir
\[O\ell \left( {{x}_{1}},…,{{x}_{n}};\theta \right)\]
olasılık yoğunluğunun bulunduğu varsayılır.
Birikimli dağılım işlevi de,
\[\Phi \left( {{x}_{1}},{{x}_{2}},{{x}_{3}},\cdots ,{{x}_{n}};\theta \right)=\int\limits_{-\infty }^{{{x}_{n}}}{\int\limits_{-\infty }^{{{x}_{n-1}}}{…}\int\limits_{-\infty }^{{{x}_{1}}}{O\ell \left( {{v}_{1}},{{v}_{2}},…,{{v}_{n}} \right)d{{v}_{1}}d{{v}_{2}}…d{{v}_{n}}}}\]
ile tanımlanır.
Ençok olabilirlik tahmini \({{\theta }_{n}}\left( {{x}_{1}},{{x}_{2}},…,{{x}_{n}} \right)\), \(O\ell \left( {{x}_{1}},…,{{x}_{n}};\theta \right)\)’nin en yüksek olduğu \(\theta \) değeri olarak tanımlanır. Şimdi \({{X}_{1}},{{X}_{2}},{{X}_{3}},…,{{X}_{n}}\)’nin aynı dağılımlı bağımsız rassal değişgenler olduğunu varsayalım. Bu, aynı \(X\) rassal değişgenine ilişkin birbirinden bağımsız \(n\) tane gözlem değerinin \({{x}_{1}},{{x}_{2}},{{x}_{3}},…,{{x}_{n}}\) olduğu söylenerek de ifade edilebilir. Fisher’in tahmin kuramının temel sonucu şöyle ifade edilebilir: Eğer, aynı \(X\) rassal değişgenine ilişkin \(n=1(1)\infty \) tane bağımsız gözlem \({{x}_{1}},{{x}_{2}},{{x}_{3}},…,{{x}_{n}}\) ise ve \(X\)’in dağılım işlevi (fazla kısıtlayıcı olmayan ve uygulamada çoğunlukla yerine getirilen) belli koşulları sağlıyorsa, o zaman \({{\hat{\theta }}_{n}}\), etkin bir istatistiktir. Etkin istatistik aşağıdaki gibi tanımlanır:
Eğer,
(1) \(\sqrt{n}\left( {{t}_{n}}-\theta \right)\)’nın eren dağılımı sıfır ortalamalı ve değişkesi sonlu normal bir dağılımsa, ve
(2) \({{\sigma }^{2}}=\underset{n\to \infty }{\mathop{er}}\,{{\left\langle {{\left( \sqrt{n}\left( {{t}_{n}}-\theta \right) \right]}^{2}} \right\rangle }_{\theta }}\text{ ve }{{{\sigma }’}^{2}}=\underset{n\to \infty }{\mathop{er}}\,{{\left\langle {{\left( \sqrt{n}\left( {{{{t}’}}_{n}}-\theta \right) \right]}^{2}} \right\rangle }_{\theta }}\)
olmak üzere, (1)’i sağlayan her hangi diğer bir \(\left\{ {{{{t}’}}_{n=1(1)\infty }} \right\}\) istatistik dizisinin etkinliği, \(\frac{{{\sigma }^{2}}}{{{{{\sigma }’}}^{2}}}\le 1\) ise
\(\left\{ {{t}_{n=1(1)\infty }} \right\}\) dizisi, \(\theta \)’nın etkin tahminidir.
Kabaca söylersek, büyük örneklerde en çok olabilirlik tahmini, eren dağılımı normal olan istatistikler içinde en küçük değişkeli olandır. Bu karşılaştırmayı, eren dağılımı normal olan istatistiklerle sınırlandırmak ağır bir sınırlandırma gibi görülebilir. Ancak, yeni varılan sonuçlar, en çok olabilirlik tahmininin, etkinlikten çok daha güçlü bir özelliği olduğunu ve ereni normal dağılımlı olmayan istatistikler içinde bile “en iyi” büyük örnek tahmini olarak görülebileceğini göstermiştir.[20]
En çok olabilirlik tahmininin tutarlılık ve eren dağılımı sorunu H. Hotelling[7] tarafından ele alınmış, tam bir ispat J. L. Doob[1] tarafından verilmiştir.
Bir örnek olarak, ortalaması bilinmeyen birim değişkeli normal rassal bir değişgenin \(n\) tane bağımsız gözlem değerleri \({{x}_{1}},{{x}_{2}},{{x}_{3}},…,{{x}_{n}}\) olsun. \(\theta \)’nın ençok olabilirlik tahmininin
\[{{\hat{\theta }}_{n}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}}\]
olduğu kolayca gösterilebilir. \({{t}_{n}}\left( {{x}_{1}},{{x}_{2}},{{x}_{3}},…,{{x}_{n}} \right)\), \({{x}_{1}},{{x}_{2}},{{x}_{3}},…,{{x}_{n}}\)’lerin ortancası olsun. \(\sqrt{n}\left( {{t}_{n}}-\theta \right)\)’nin eren dağılımının, sıfır ortalamalı ve \(\frac{\pi }{2}\) değişkeli normal olduğu gösterilebilir. Dolayısı ile, \(\theta \)’nın tahmini olarak ortancanın etkinliği, \(\frac{2}{\pi }=0.636…\)’dır.