probabilités-statistiques 2

Statistiques

On cherche à étudier le caractère aléatoire de n expériences fournissant les résultats chiffrés x_1,..,x_n. Les n expériences sont réalisées à l’identique et indépendamment les unes des autres.

Nous faisons donc l’hypothèse que l’observation (x_1,..,x_n) provient de n variables aléatoires X_1,..,X_n identiquement distribuées. La famille (X_1,..,X_n) est appelée un n-échantillon et la loi commune des X_i est notée \mathcal L(X). L’aléa lié à notre expérience est tel que X_1 = x_1,..., X_n = x_n .

Le problème fondamental de la Statistique est de déterminer la loi commune des X_i supposée inconnue à partir des résultats (X_1,..,X_n). On ne donnera pas de réponse absolue, on cherchera à déterminer une réponse approchée « la plus probable » selon des critères définis à l’avance.

Pour obtenir des résultats précis et intéressants, nous faisons un certain nombre d’hypothèses liées à l’expérience effectuée sur la loi commune \mathcal L(X) des variables(X_1,..,X_n) de l’échantillon, les différentes lois considérées possibles a priori pour les variables X_i sont les P_\theta , \theta \in \Theta (on prédéfinit une famille de loi avec lesquelles il semble très probable de devoir travailler)

On cherche alors à déterminer le paramètre \theta \in \Theta inconnu pour lequel \mathcal L(X)=P_\theta.

Exemple de choix: \mathcal L(X) \in \{\mathcal B(p); 0\leq p\leq 1\}

La probabilité d’obtenir une observation X_1,..,X_n dépend du paramètre \theta du modèle.

P((X_1,..,X_n) =(x_1,..,x_n) ) = P(X_1 = x_1,...,X_n = x_n)=\displaystyle \prod_1^n P_\theta (x_i)

\bullet On appelle estimateur du maximum de vraisemblance le paramètre \theta pour lequel l’observation est la plus vraisemblable (probable ).

Exemple 16

Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d’un palmier malade et d’un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité \theta pour un palmier d’être malade ?

On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d’un palmier à son jumeau.

L’hypothèse que l’on veut tester, H_0, est que la maladie ne se transmet pas.

Alors, si \theta représente la probabilité pour qu’un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :

P (X =2) = \theta ^2 = p_1 ; P (X = 1) = 2\theta (1 - \theta) = p_2 ; P (X = 0) = (1 - \theta)^2 = p_3 (faire un arbre !)

Si l’on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3)N1 est le nombre de couples dont les deux éléments sont malades , N2 le nombre de couples comportant un seul pied malade, N3 le nombre de couples dont aucun pied n’est malade, est une loi multinomiale de paramètres (n ; \theta ^2 , 2\theta (1 - \theta) , (1 - \theta)^2 ).

Préalablement à l’ajustement, il faudra estimer \theta.

La vraisemblance s’obtient en remplaçant dans P ((N1 , N2 , N3) =(n1,n2,n3 )), n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de \theta seul.

P ((N1 , N2 , N3) =(n1,n2,n3 ))=\dfrac{n !}{n1 ! n2 ! n3 !}p_1^{n1} p_2^{n2}p_3^{n3}=\dfrac{500 !}{73 ! 185!242 !}\theta^{146} (2\theta (1 ? \theta))^{185}(1 - \theta)^{484}

L’estimateur du maximum de vraisemblance de \theta est la valeur qui rend cette fonction de \theta aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance puisque la fonction Logarithme est monotone croissante.

On note V(\theta) la vraisemblance et L(\theta) son logarithme. Ici L(\theta) vaut :

L(\theta) =\ln(\dfrac{500 !}{73 ! 185!242 !}\theta^{146} (2\theta (1 - \theta))^{185}(1 - \theta)^{484})

=\ln(\dfrac{500 !}{73 ! 185!242 !})+\ln(\theta^{146})+\ln( (2\theta (1 - \theta))^{185})+\ln((1 - \theta)^{484})

=C+146\ln(\theta)+185(\ln(2)+\ln (\theta)+\ln (1 - \theta)+484\ln(1 - \theta)

=C'+ (146 + 185) \ln(\theta) + (185 + 484) \ln (1 - \theta)

On obtient le maximum de L en dérivant L par rapport à \theta

L'( \theta) = \dfrac{331}{\theta} - \dfrac{669 }{(1 - \theta) } qui s’annule pour \theta=\dfrac{331}{1000}=0.331

On a vu que Z_n =\displaystyle\sum_{i=1}^{k} \dfrac{(N_i(n)-np_i)^2}{np_i} converge en loi vers la loi du \chi^2 à (3-1-1) degrés de liberté, ici un paramètre (\theta) e été estimé.

avec les valeurs estimées de p_1 ; p_2 ; p_3 = 0,1096 ; 0,4422 ; 0,4475, on obtient Z_n =12.55

Or pour une loi \chi^2(1) on lit dans la table fournie en annexe P(X\geq 3.84) =0.05

12.55>3.84, on rejette H_0, on ne peut pas affirmer que la maladie ne se transmet pas.

\bullet La méthode du maximum de vraisemblance est la méthode la plus naturelle pour estimer \theta \in \Theta à partir de n observations, mais son utilisation est souvent délicate aussi on préfèrera étudier une fonction de la forme Y (\theta) dépendant de \theta , c’est-à-dire en fait de la loi \mathcal L(X).

Une telle fonction Y_n: \R^n \mapsto \R appelée estimateur est telle que la variable Y_n(X_1,...X_n) est censée nous donner une valeur approchée de Y (\theta).

Un bon estimateur doit au moins vérifier les deux caractéristiques suivantes:

On dit que (Y_n) est une suite d’estimateurs \textbf{sans biais} pour Y si E(Y_n(X_1,...X_n)) = Y(\theta):

On dit que (Y_n) est une \textbf{suite convergente} d’estimateurs pour Y si Y_n(X_1,...X_n) \xrightarrow[n\rightarrow +\infty]{}Y(\theta)

Il est très classique de devoir estimer l’espérance et la variance de X . Dans un modèle de Bernoulli par exemple, l’espérance caractérise la loi. Dans un modèle gaussien, l’espérance et la variance caractérisent la loi.

Estimateur pour l’espérance : M_n: \R^n \mapsto \R , x\mapsto \dfrac{1}{n} \displaystyle \sum_1^n x_i

Alors (M_n) est une suite convergente et sans biais d’estimateurs pour Y

Estimateur pour la variance : \bar{V_n}: \R^n \mapsto \R , x\mapsto \dfrac{1}{n} \displaystyle \sum_1^n (x_i-M_n(x_i))^2

\bar{V_n} est convergent mais E(\bar{V_n})=\dfrac{n-1}{n} Var(X) ainsi on utilisera de préférence V_n: \R^n \mapsto \R , x\mapsto \dfrac{1}{n-1} \displaystyle \sum_1^n (x_i-M_n(x_i))^2 qui lui est un estimateur sans biais et convergent de la variance.

\bullet Intervalles de confiance:

En statistique on ne cherche pas à déterminer exactement Y (\theta), on se contente d’un intervalle déterminée à partir de (x_1,..,x_n) auquel appartient « vraisemblablement » Y (\theta).

Soit Y une fonction de \Theta vers \R. On dit que [a_n; b_n] est un intervalle de confiance de niveau 1-\alpha si et seulement si P(a_n(X_1,....,X_n) \leq Y (\theta) \leq b_n(X_1,....,X_n)) = 1-\alpha

Exemple : le modèle de Bernouilli:

On a vu au chapitre convergence que pour la loi de Bernouilli de paramètre \theta.

P\left(\,\left|\dfrac{1}{n} \displaystyle \sum_1^n X_i-\theta\right|\,\geq \varepsilon \,\right)\leq \dfrac{\theta(1-\theta)}{n\,\varepsilon^2}

et la max de la fonction \theta(1-\theta) sur [0;1] est \dfrac{1}{4} donc :

P\left(\,\left|\dfrac{1}{n} \displaystyle \sum_1^n X_i-\theta\right|\,\geq \varepsilon \,\right)\leq \dfrac{1}{4\;n\,\varepsilon^2}

En posant \alpha= \dfrac{1}{4\;n\,\varepsilon^2}, a_n(x)=\dfrac{1}{n} \displaystyle \sum_1^n X_i-\varepsilon et b_n(x)=\dfrac{1}{n} \displaystyle \sum_1^n X_i+\varepsilon définissent un intervalle de confiance

(par excès) de niveau 1-\alpha

Exemple 17

On considère un sondage dans lequel deux réponses sont possibles, « oui » et « non ».

Combien faut-il interroger de personnes pour avoir une estimation à 0.03 près du pourcentage de gens en faveur de « oui », et ce au moins 19 fois sur 20.

Soit \theta \in ]0; 1[ la proportion de la population totale favorable au “oui”. Quand on interroge n personnes prises au hasard, indépendamment, comme c’est le cas dans les sondages, en notant 1 lorsque la réponse est « oui » et 0 lorsque la réponse est « non », on observe n variables aléatoires indépendantes de loi \mathcal (\theta).

P(\dfrac{1}{n} \displaystyle \sum_1^n _i-\varepsilon \leq \theta \leq \dfrac{1}{n} \displaystyle \sum_1^n _i+\varepsilon)\geq 1-\dfrac{1}{4\;n\,\varepsilon^2}

ici on fixe \varepsilon =0.03 et on veut 1-\dfrac{1}{4\;n\,\varepsilon^2}\geq \dfrac{1}{20}, soit n\geq \dfrac{5.10^4}{9}=5556

\bullet Le modèle gaussien

Considérons un échantillon gaussien (X_1,....,X_n),Autrement dit X_1,....,X_n sont des variables aléatoires indépendantes de loi \mathcal N(m; \sigma^2).

 

Les estimateurs M_n et V_n introduits plus hauts possèdent des propriétés très précises:

(1) Mn suit une loi \mathcal N(m; \frac{\sigma^2}{n}) ou \sqrt{n}\dfrac{M_n-m}{\sigma} suit une loi \mathcal N(0;1)

(2) \dfrac{n-1}{\sigma^2}V_n suit une loi du chi-deux à n-1 degrés de liberté .

(3) Mn et V_n sont indépendantes.

(4) \sqrt{n}\dfrac{M_n-m}{\sqrt{V_n}} suit une loi de Student à n-1 degrés de liberté.

 

La démonstration du point (2) est assez délicate, le point (4) est évident en remarquant que:

\sqrt{n}\dfrac{M_n-m}{\sqrt{V_n}}=\dfrac{\sqrt{n}\dfrac{M_n-m}{\sigma}}{\sqrt{\dfrac{1}{n-1}(\dfrac{n-1}{\sigma^2}V_n)}}

Exemple d’utilisation :

\bullet Intervalle de confiance pour m lorsque \sigma est connu: Comme \sqrt{n}\dfrac{M_n-m}{\sigma} suit une loi \mathcal N(0;1)

 

Fixons un niveau de confiance 0 < \alpha < 1. et soit a tel que P(\mathcal N(0; 1) \leq a) = 1 -\frac{\alpha}{2}, par symétrie de la courbe de densité, on obtient P(| \mathcal N(0; 1) |\leq a) = 1 -\alpha ainsi P(-a\leq \sqrt{n}\dfrac{M_n-m}{\sigma} \leq a)=P(M_n-a\dfrac{\sigma}{\sqrt{n} }\leq m \leq M_n+a\dfrac{\sigma}{\sqrt{n}})=1 -\alpha

…et nous venons de construire un intervalle de confiance de niveau 1 -\alpha pour m.

\bullet Intervalle de confiance pour m lorsque \sigma est inconnu: \sqrt{n}\dfrac{M_n-m}{\sqrt{V_n}} suit une loi de Student à n-1 degrés de liberté, on cherche dans la table le nombre a tel que P(\mathcal T(n-1) \leq a) = 1 -\frac{\alpha}{2}, par symétrie de la courbe de densité, on obtient P(| \mathcal T(n-1) |\leq a) = 1 -\alpha et on construit l’intervalle de confiance comme ci-dessus.

Exemple 18

On suppose que le taux de cholestérol X d’un individu choisi au hasard dans une population donnée suit une loi normale. Sur un échantillon de 100 individus, on constate la moyenne des taux observés est 1.55 (gr pour mille). On constate aussi une variance corrigéeV_n= 0.25.

Donner un intervalle de confiance pour la moyenne \mu au niveau de confiance 0.95.

\sqrt{n}\dfrac{M_n-m}{\sqrt{V_n}} suit une loi de Student à 99 degrés de liberté, on cherche dans la table le nombre a tel que P(\mathcal T(99) \leq a) = 0.975 .

On lit a=1.984.

P(-1.984\leq \sqrt{100}\dfrac{1.55-\mu}{\sqrt{0.25}}\leq 1.984)=0.95

Soit \mu \in [1.55-1.84\frac{\sqrt{0.25}}{\sqrt{100}}; 1.55+1.84\frac{\sqrt{0.25}}{\sqrt{100}}]=[1.4508;1.642 ], au niveau de confiance 0.95

\bullet Comparaison de deux moyennes :

On considère deux populations sur lesquelles sont définies deux caractères numériques X et Y distribués selon des lois de moyennes \mu_1 et \mu_2 et de même variance \sigma^2(inconnue).

On souhaite tester s’il y a une différence significative entre les moyennes des deux populations. L’hypothèse nulle à tester estH_0 : "\mu_1 = \mu_2 "

On dispose d’un échantillon de taille n_1 pour X et de taille n_2 pour Y.

V_n^1= \dfrac{1}{n_1-1} \displaystyle \sum_1^{n_1} (x_i-M_n(x_i))^2 et soit V_n^2= \dfrac{1}{n_2-1} \displaystyle \sum_1^{n_2} (y_i-M_n(y_i))^2

On considère V=\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\times\sqrt{ \dfrac{(n_1-1)V_n^1+(n_2-1)V_n^2}{n_1+n_2-2}}

Alors la statistique U=\dfrac{M_n(x_i)-M_n(y_i)}{V} suit une loi de Student à (n_1+n_2-2) degrés de liberté.

Exemple 19

De deux échantillons (mâles vs. femelles) de Souris des Cactus , dont on a mesuré le poids (g) chez l’individu adulte

F : (31, 25, 29, 30, 31, 28, 31, 29, 29, 33, 30, 28)

M : (28, 29, 30, 29, 27, 26, 27, 28, 25, 28)

Peut-on déceler, avec un risque d’erreur \alpha de 5\%, une différence de la moyenne du poids (g) chez l’individu adulte entre mâles et femelles ?

M_n(x_i)=29.5 , V_n^1=4.0909

M_n(y_i)=27.7 , V_n^2=2.33

On obtient ainsi U=2.330109

On cherche dans la table le nombre a tel que P(\mathcal T(20) \leq a) = 0.975 , on lit a=2.086

2.330109\geq 2.086 , on rejettera H_0, la différence des moyennes est significative.

\mapsto L’idée est maintenant de mélanger les résultats de la section convergence et les résultats ci-dessus pour obtenir des Intervalles de confiance asymptotiques:

On dit que [a_n; b_n] est un intervalle de confiance asymptotique de niveau 1-\alpha si et seulement si:

P(a_n(X_1,....,X_n) \leq Y (\theta) \leq b_n(X_1,....,X_n)) \xrightarrow[n\rightarrow +\infty]{}1-\alpha

Considérons une suite de variables aléatoires indépendantes et identiquement distribuées X_n tel que E(X)=m et Var(X)=\sigma^2.

Soit l’estimateur M_n: x\mapsto \dfrac{1}{n} \displaystyle \sum_1^n x_i ,d’après le T.C.L., \sqrt{n}\dfrac{M_n-m}{\sigma} \xrightarrow[n\rightarrow +\infty]{loi} \mathcal N(0;1) et l’estimateur V_n: \R^n \mapsto \R , x\mapsto \dfrac{1}{n-1} \displaystyle \sum_1^n (x_i-M_n(x_i))^2 \xrightarrow[n\rightarrow +\infty]{} \sigma^2

on en déduit:

\sqrt{n}\dfrac{M_n-m}{\sqrt{V_n}} \xrightarrow[n\rightarrow +\infty]{loi} \mathcal N(0;1)

Soit a définit comme dans l’exemple précédent, l’intervalle [M_n-\dfrac{a\sqrt{V_n}}{\sqrt{n}};M_n+\dfrac{a\sqrt{V_n}}{\sqrt{n}}] est un intervalle de confiance asymptotique de niveau 1-\alpha pour estimer m

Exemple 19

On veut estimer la taille moyenne des hommes adultes dans une population. Un échantillon de 100 individus a donné les résultats suivants :

\dfrac{1}{100} \displaystyle\sum_{individus}^{}\text{taille}=175 et \dfrac{1}{99} \displaystyle\sum_{individus}^{}(\text{taille}-175)^2=49

Donner un intervalle de confiance à 95\% pour la taille moyenne de la population.

Soit a tel que P(-a \leq \mathcal N(0;1) \leq a) = 0. 95 soit P( \mathcal N(0;1) \leq a) = 0. 975 . a=1.96 (voir table)

et l’intervalle [175-\dfrac{1.96\sqrt{49}}{\sqrt{100}};175+\dfrac{1.96\sqrt{49}}{\sqrt{100}}]=[173.62;176.32] est l’intervalle cherché.

Dans le cas particulier du modèle de bernoulli, V_n=\dfrac{n}{n-1}M_n(1-M_n) et le résultat de convergence s’écrit:

\sqrt{n}\dfrac{M_n-m}{\sqrt{M_n(1-M_n)}} \xrightarrow[n\rightarrow +\infty]{loi} \mathcal N(0;1)

Et l’intervalle [M_n-\dfrac{a\sqrt{M_n(1-M_n)}}{\sqrt{n}};M_n+\dfrac{a\sqrt{M_n(1-M_n)}}{\sqrt{n}}] est un intervalle de confiance asymptotique de niveau 1-\alpha pour estimer m, et comme M_n(1-M_n)\leq \dfrac{1}{4} on utilise généralement l’intervalle [M_n-\dfrac{a}{2\sqrt{n}};M_n+\dfrac{a}{2\sqrt{n}}]

Exemple 20

Reprenons l’exemple 17 , on sait que pour a=1.96 , P(M_n-\dfrac{a}{2\sqrt{n}}\leq \theta \leq M_n+\dfrac{a}{2\sqrt{n}})\approx 0.95 Soit le \dfrac{19}{20} demandé.

On souhaite \dfrac{a}{2\sqrt{n}}\leq 0.03 donc n\geq \dfrac{1.96^2}{4.0.03^2}=1067

Cette estimation est plus précise pour de grandes valeurs de n (on a déjà vu que l’inégalité de Tchebychev n’était pas de très grande qualité.

Bonus: le test de corrélation de Pearson

Rappel, on appelle coefficient de corrélation entre deux variables X et Y le nombre \rho(X,Y)=\dfrac{Cov(X, Y ) }{\sqrt{Var(X)}\,\sqrt{Var(Y)}}, si \rho(X,Y)=1, il existe une relation affine entre ces deux variables.

Un coefficient proche de 1 est un indice reflétant une relation linéaire entre deux variables continues.

On veut donc savoir si, dans la population ces deux variables sont réellement corrélées ou pas. On doit donc réaliser un test d’hypothèse.

On choisit H_0: Pas de corrélation entre les deux variables :\rho=0

On choisit de travailler avec l’estimateur t=\sqrt{n-2}\dfrac{\rho}{\sqrt{1-\rho^2}}

t suit, sous H_0, une loi de Student à n-2 degrés de liberté, là encore les calculs permettant de démontrer ce résultat sont très pénibles.

Exemple 21

Pour illustrer ce type de problème, nous aimerions savoir si le poids influence le taux de glycémie. Le poids et le taux de glycémie de 20 adultes ont été récoltés. Voici les données obtenues:

dans cette situation \rho=0.4170647 et donc la valeur de t observée est t=\sqrt{18}\dfrac{0.4170647}{\sqrt{1-0.4170647^2}}=1.9468

On cherche dans la table le nombre a tel que P(\mathcal T(18) \leq a) = 0.975 .

On lit a=2.101,

1.9468\leq 2.101 donc on ne rejette pas H_0.

Il ne semble pas y avoir de relation de type linéaire entre poids et glycémie.

Annexe1

Compléments sur les fonctions caractéristiques d’une variable aléatoire X: \Phi_X(t)=E(e^{itX})=\displaystyle\int_{\R}^{}e^{itx} \,f_X(x) \,dx

\bullet Si X suit une loi exponentielle de paramètre \lambda > 0 :

\Phi_X(t)=\displaystyle\int_{0}^{+\infty}e^{itx} \,\lambda e^{-\lambda x} \,dx=\lambda \displaystyle\int_{0}^{+\infty}e^{(it-\lambda)x} \,dx= \dfrac{\lambda}{\lambda-it}

\bullet Si X suit une loi {\mathcal N}(0,1 ) :

\Phi_X(t)=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{+\infty}e^{itx} \, e^{-\frac{x^2}{2} } \,dx

donc \Phi'_X(t)=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{+\infty}\,ix\,e^{itx} \, e^{-\frac{x^2}{2} } \,dx

ce qui , à l’aide d’une intégration par partie donne : -t \Phi_X(t), or la solution de l’équation différentielle f'(t)=-t f(t) a pour solution Ce^{-\frac{t^2}{2} } et comme \Phi_X(0)=1, on en déduit \Phi_X(t)=e^{-\frac{t^2}{2} }.

\bullet Si X suit une loi Gamma de paramètres a et \lambda, notée \Gamma(a,\lambda), alors la densité de X est la fonction définie sur [0;+\infty [ par f_X(x)=\dfrac{\lambda^a}{\Gamma(a)}\;x^{a-1}e^{-\lambda x}

\Gamma(x) est la fonction définie par \Gamma(x)=\displaystyle\int_{0}^{+\infty}t^{x-1}_, e^{-t} \,dt

\Phi_X(t)=\displaystyle\int_{0}^{+\infty}e^{itx} \dfrac{\lambda^a}{\Gamma(a)}\;x^{a-1}e^{-\lambda x} dx=\dfrac{\lambda^a}{\Gamma(a)} \displaystyle\int_{0}^{+\infty} \;x^{a-1}e^{(it-\lambda) x} dx

\Phi'_X(t)=\dfrac{\lambda^a}{\Gamma(a)} \displaystyle\int_{0}^{+\infty} \;i\;x^{a}e^{(it-\lambda) x} dx

ce qui , à l’aide d’une intégration par partie donne : \dfrac{ia}{\lambda-it}\Phi_X(t), or la solution de l’équation différentielle f'(t)=\dfrac{ia}{\lambda-it} f(t) a pour solution C(\lambda-it)^{-a} et comme \Phi_X(0)=1, on en déduit \Phi_X(t)=\left(\dfrac{\lambda}{\lambda-it}\right)^a.

Remarques :

– Pour a=1, on retrouve bien la fonction caractéristique d’une loi exponentielle .

-La somme de a variables aléatoires de même loi exponentielle de paramètre \lambda est une loi Gamma de paramètres (a, \lambda).

-La somme de deux variables aléatoires indépendantes de lois Gamma de paramètres respectifs (a, \lambda) et (b, \lambda) a pour loi une loi Gamma de paramètres (a+b, \lambda).

Si X suit une loi {\mathcal N}(0,1 ) , déterminons la fonction caractéristique de Y=X^2:

\Phi_Y(t)=E(e^{itX^2})=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{+\infty}e^{itx^2} \, e^{-\frac{x^2}{2} } \,dx

\Phi_Y(t)=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{+\infty}\, e^{-\frac{1}{2}(1-2it)x^2 } \,dx= \dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{+\infty}\;\dfrac{e^{-\frac{1}{2}u^2}}{(1-2it)^{\frac{1}{2}} }} \,du , en posant u=(1-2it)^{\frac{1}{2}}x

Soit \Phi_Y(t)=\dfrac{1}{(1-2it)^{\frac{1}{2}}}=\left(\dfrac{\frac{1}{2}}{\frac{1}{2}-it}\right)^\frac{1}{2}….soit la fonction caractéristique d’une loi Gamma de paramètres (\frac{1}{2}, \frac{1}{2}).

\mapsto On en déduit que si X_1,X_2,...,X_k sont des variable aléatoires indépendantes qui suivent la loi normale {\mathcal N}(0,1 ) alors Y=X_1^2+X_2^2+...+X_k^2 suit une loi Gamma de paramètres (\frac{k}{2}, \frac{1}{2}) ce qui correspond à une loi du khi-deux à k degrés de liberté.