probabilité-statistiques 1

\bullet On appelle univers, et on note \Omega, l’ensemble des issues liées à une expérience aléatoire.

On considère l’ensemble \A, appelé tribu, des parties de \Omega obtenues par unions finies ou dénombrables d’éléments de \Omega ainsi que par passage au complémentaire. Les éléments de \A seront appelés évènements.

\bullet On appelle mesure sur \A toute fonction \mu :

\;\;\;\;Positive: \mu(A)\geq 0 , \forall A \in \A

\;\;\;\;Additive: C\cap D=\emptyset implique \mu(C\cup D) =\mu (C)+ \mu(D)

Si \mu(\Omega)=1 , on dit que \mu est une probabilité sur \Omega que nous noterons désormais P

\bullet \forall B tel que P(B) \neq 0 on appelle probabilité conditionnelle, et on note P_B , la probabilité définie sur \Omega par

P_B(A)= \dfrac{ P(A\cap B)} {P(B)} \forall A \in \A

On retiendra : P_B(A)= \dfrac{P_A(B). P(A)} {P(B)} )

Si (E_i)_{1\leq i\leq n} est une partition de \Omega, (E_i\cap E_j =\emptyset et \displaystyle\bigcup_{i=1}^{n} E_i= \Omega ), on a alors pour tout évènement A :

P(A) = \displaystyle\sum_{n=1}^{n} P_{E_i}(A) \times P(E_i)

\bullet On appelle variable aléatoire toute application X d’un espace probabilisé (\Omega, \A , P) dans \R et on appelle loi de X la mesure P_X définie sur \R par : P_X(A)=P(X^{-1}(A)) ,\forall A \in \R, que l’on note généralement P(X \subset A)

Exemple1 ( cas discret)

On lance deux dés, soit X le maximum obtenu. X prend les valeurs 1 ,2, 3, 4, 5 ou 6.

Loi de X :

P_X(1) = P (X^{ - 1} (1)) =P((1;1))= \dfrac{1}{36} ( seule l’issue(1;1) correspond à un maximum de 1)

P_X(2) = P (X^{ - 1} (2)) =P((1;2)\cup (2;1) )= \dfrac{2}{36}

P_X(3) = P (X^{ - 1} (3)) =P((1;3)\cup (2;3)\cup (3;3)\cup (3;2)\cup (3;1) )= \dfrac{5}{36}

P_X(6)= 1-(P_X(1) +P_X(2) +P_X(3) +P_X(4) +P_X(5) )=\dfrac{11}{36}

 

\bullet On dit que X a une densité f_X: \R \mapsto \R{+} si pour tout A \subset \R:

P(X\subset A)=\displaystyle\int_{\R}^{} f_X(t) \mathbb{I}_A (t) dt

\mathbb{I}_A est la fonction indicatrice de A, elle vaut 1 sur A et 0 ailleurs.

Exemple2 (cas continu)

Supposons que X a pour densité la fonction \alpha x^2 sur [ 0;2]

Premièrement, on doit avoir P ( X \subset \R) = 1 donc \displaystyle\int_{\R}^{} \alpha t^2 \mathbb{I}_{[0;2]} (t) dt= 1

\displaystyle\int_{0}^{2} \alpha t^2 dt=\left[\alpha \dfrac{t^3}{3}\right]_{0}^{2}=\dfrac{8\alpha}{3}=1 , donc \alpha=\dfrac{3}{8}

Deuxièmement, calculons P ( X \subset [1;1.6])= P_X([1;1.6]).

P_X([1;1.6])= \displaystyle\int_{0}^{2} \dfrac{3}{8} t^2 \mathbb{I}_{[1;1.6]} (t) dt=\left[ \dfrac{3}{8} \dfrac{t^3}{3}\right]_{1}^{1.6}=0.387

Rendered by QuickLaTeX.com

L’aire hachurée ci-dessus « mesure » le segment [1:1.6].

\bullet Deux événements sont indépendants si et seulement si P(A\cap B)=P(A) \times P(B).

\bullet On appelle fonction de répartition la fonction définie sur \R par F(x) = P(X\leq x)

Dans le cas discret, F(x)=\displaystyle\sum_{k \leq x}\,P(X=k)\,, par exemple avec l’exemple 1:

F(3)=P_X(1)+P_X(2)+P_X(3)=\dfrac{8}{36}

Dans le cas continu,F(x)=\displaystyle\int_{-\infty}^{x}f_X (t) dt et on a alors :

F'(x)=f_X(x) ( TRES pratique, voir exemple suivant )

\bulletSi on dispose de 2 variables aléatoires, il est alors possible de définir la loi du couple (X,Y) par

P((X,Y)=(i,j))=P((X=i)\cap(Y=j))

Exemple 3 :

On lance trois fois une pièce équilibrée on note X le nombre de « face » obtenus aux deux premiers lancers et Y le nombre de « pile » obtenus aux deux derniers lancers. La loi du couple est donnée dans le tableau ci-dessous:

Exemple de calcul:

pour P((X,Y)=(1,1))=P((X=1)\cap(Y=1))=P("FPF" \cup"PFP")=\dfrac{2}{8}

\bullet La loi du couple( X,Y) permet de retrouver les lois dites marginales de X et de Y ( l’inverse n’est pas vrai ) , en effet :

P(X=i)=\displaystyle\sum_{k }\,P((X,Y)=(i,k))\, Avec l’exemple précédent, P(X=1)=\dfrac{4}{8}

\bullet Si 2 variables aléatoires sont indépendantes: P((X=i)\cap(Y=j))=P(X=i)\times P(Y=j)

Exemple 4

Si X et Y de loi \mathcal G(p) , (P(X = k) = (1 - p)^k p), indépendantes alors:

P(X + Y = n) = P (\displaystyle\bigcup_{k=0}^{n} (X = k, Y = n -k))

= \displaystyle\sum_{0}^{n} P(X = k, Y = n - k) (car évènements disjoints)

= \displaystyle\sum_{0}^{n} P(X = k) P( Y = n - k) (car X , Y indépendantes )

= \displaystyle\sum_{0}^{n} (1 - p)^k p (1 - p)^{n-k} p

=(n+1)(1 - p)^{n} p^2

Exemple 5

X et Y sont deux variables aléatoires indépendantes qui suivent toutes les deux une loi exponentielle de paramètre 1 ( voir section suivante) , déterminer la loi de U =\max (X,Y). On utilise ici la fonction de répartition.

P(U\leq x)= P((X\leq x)\cap(Y\leq x))=P(X\leq x)\times P(Y\leq x), par indépendance.

=(1-e^{-x})^2

Puis on dérive cette expression pour obtenir la densité de U: f_U(x)= 2(1-e^{-x})e^{-x}

\bulletUn petit point théorique:

On considère ici un espace de probabilité (\Omega, \A , P), et une variable aléatoire X définie sur (\Omega, \A , P), de loi de probabilité P_X.

Théorème de transfert : Soit \phi une fonction mesurable réelle définie sur (\R; \B(\R)). \phi(X) est P-intégrable si et seulement si \phi est P_X-intégrable, et l’on a :

\displaystyle\int_{\Omega}^{}\phi(X(w))dP(w) =\displaystyle\int_{\R}^{}\phi(x)\,dP_X(x)

\bullet On appelle espérance de la variable aléatoire X le nombre:

E(X)=\displaystyle\int_{\Omega}^{}X (w) dP(w) … ce qui grâce au théorème de transfert donne :

\left\{\begin{array}{cl}  \displaystyle\int_{\R}^{}x \,f_X(x) \,dx&\text{dans le cas continu}\\  \displaystyle\sum_{x\in X(\Omega)}\, x\,P(X=x)\, &\text{dans le cas discret}\\  \end{array}\right.

Remarques:

1) Soit \phi une fonction mesurable réelle définie sur (\R; \B(\R)). Alors \phi(X) est aussi une v.a.r. définie sur l’espace de probabilité (\Omega, \A , P). Par conséquent, si elle est P-intégrable, elle possède une espérance, qui d’après le théorème de transfert, est égale à:

E(\phi(X))=\displaystyle\int_{}^{} \,\phi(X) \,dP=\displaystyle\int_{\R}^{} \,\phi(x) \,f_X(x)dx \,\,\;\;\;si X a pour densité f_X

… et il est donc possible de calculer E(\phi(X)) sans connaitre la loi de \phi(X) !

2)La loi d’une variable aléatoire X à valeurs dans \R est uniquement déterminée par le calcul de E(\Phi(X)) pour toute fonction \Phi réelle continue positive bornée. Autrement dit si il existe g telle que :

E(\phi(X))=\displaystyle\int_{\R}^{} \,\phi(x) g(x)dx alors g est la densité de X.

Exemple 6:

Si X a pour densité f_X=x e^{- \frac{x^2}{2}} sur \R^+, déterminer la loi de Y=X^2.

E(f(X^2))=\displaystyle\int_{0}^{+\infty} \,f(x^2) x e^{- \frac{x^2}{2}}dx

=\displaystyle\int_{0}^{+\infty} \,f(t) \sqrt{t} e^{- \frac{t}{2}}\,\dfrac{dt}{2\sqrt{t}} \,\,\;\;\;changement de variable t=x^2

=\displaystyle\int_{0}^{+\infty} \,f(t) \,\dfrac{ e^{- \frac{t}{2}}}{2}dt

donc la loi de X^2 est \dfrac{ e^{- \frac{t}{2}}}{2} (Loi exponentielle de paramètre \dfrac{1}{2} )

\bullet Exemples de calcul d’espérance:

a) Pour une loi binomiale: p(x=k)=\binom{n}{k}p^k(1-p)^{n-k}, 0\leq k\leq n

E(X)=\displaystyle\sum_{0}^{n} k\,P(X=k)\,=\displaystyle\sum_{0}^{n} k\,\frac{n!}{k!(n - k)!}p^k(1-p)^{n-k}

=n \displaystyle\sum_{1}^{n} \frac{(n-1)!}{(k-1)!(n-1 - (k-1))!}p^k(1-p)^{n-k}

=n \displaystyle\sum_{0}^{n-1} \binom{n-1}{q}p^{q+1}(1-p)^{n-1-q} \,\,\;\;\; \,\,\;\;\; Attention au changement d’indice :k=q+1

=np \displaystyle\sum_{0}^{n-1} \binom{n-1}{q}p^{q}(1-p)^{n-1-q}

=np(p+(1-p))^{n-1}= np Rappel :(a+b)^n=\displaystyle\sum_{0}^{n} \binom{n}{k} a^k b^{n-k}

b) Pour une loi exponentielle : f_X(x)=e^{-x}\,\mathbb{I}_{[0;+\infty]}

E(X)=\displaystyle\int_{0}^{+\infty}x \,e^{-x} \,dx=\left[-x\,e^{-x}\right]_{0}^{+\infty}+\displaystyle\int_{0}^{+\infty} \,e^{-x} \,dx

=0+\left[ -\,e^{-x}\right]_{0}^{+\infty}=1

\bullet On appelle variance de la variable aléatoire X le nombre:

Var(X)=E((X-E(X))^2)= E(X^2)-(E(X))^2 \,\,\;\;\;( Deuxième formule souvent plus pratique).

\bulletPropriétés

E(aX+b)=a\,E(X)+b

Var(aX+b)=a^2\,Var(X)

Si X, Y sont des variable aléatoire indépendantes alors:

E(XY)=E(X)\times E(Y) et Var(X + Y ) = Var(X) + Var()

\bullet Deux inégalités faisant intervenir l’espérance et la variance:

a) Inégalité de Markov : Si X est définie sur \R^+, pour tout réel a > 0,

P(X \geq a) \leq \dfrac {E(X)}{a}

En effet E(X)=\displaystyle\int_{[0;+\infty[}^{}x \,f_X(x) \,dx

E(X)=\displaystyle\int_{[0;a[}^{}x \,f_X(x) \,dx \,+\,\displaystyle\int_{[a;+\infty[}^{}x \,f_X(x) \,dx

donc E(X)\geq\,\displaystyle\int_{[a;+\infty[}^{}x \,f_X(x) \,dx \geq a\,\displaystyle\int_{[a;+\infty[}^{} \,f_X(x) \,dx

et donc E(X)\geq a\,P(X \geq a)

b) Inégalité de Bienaymé-Chebychev : Si E(X^2) < +\infty, alors pour tout réel a > 0,

P(|X-E(X)| \geq a) \leq \dfrac {Var(X)}{a^2}

Il suffit d’appliquer l’inégalité de Markov à la variable aléatoire (X -E(X))^2.

Exemple 7 :

Un dé est lancé 9 000 fois. Déterminer un minorant de la probabilité de l’événement ”On a obtenu ”6” entre1400 et 1600 fois”.

Notons X le nombre de fois où on a obtenu ”6” au cours de ces 9 000 lancers. On cherche un minorant pour P(1400\leq X\leq 1600).

On sait que X suit une loi binomiale \hookrightarrow {\mathcal B}(9000,\dfrac{1}{6}), d’espérance 1500 et de variance 1250.

Comme P(|X-1500)| \geq a) \leq \dfrac {1250}{a^2} , P(|X-1500)| \leq a) \geq 1-\dfrac {1250}{a^2}

Soit P(1500-a \leq X \leq 1500+a ) \geq 1-\dfrac {1250}{a^2} , et avec a=100 :

P(1400\leq X \leq 1600 ) \geq 0.875

En comparant avec la valeur exacte, on constate que cette minoration est assez grossière .

Remarque : En utilisant l’inégalité de Bienaymé-Tchebychev, on peut déduire que si X est une variable aléatoire de carré intégrable et non constante alors plus de 88\% des valeurs observées de X se trouvent dans l’intervalle [E(X) - 3\sigma(X),E(X) + 3\sigma(X)].

Plus généralement, pour tout a > 0, P(|X - E(X)|\geq a\sigma(X)) \leq\dfrac{1}{a^2}

Rappel : \sigma(X) est la racine carrée de la variance, appelé écart-type.

\bullet On définit la covariance de deux variables aléatoires réelles X, Y par la formule:

Cov(X, Y ) = E[(X - E(X))(Y - E(Y ))] = E(XY ) - E(X)E(Y )

Deux variables aléatoires X, Y sont dites non corrélées si leur covariance est nulle (Par exemple si X, Y indépendantes X, Y sont dites non corrélées.) sinon on appelle coefficient de corrélation du couple (X,Y) le nombre :

\rho(X,Y)=\dfrac{Cov(X, Y ) }{\sqrt{Var(X)}\,\sqrt{Var(Y)}}

On a |\rho(X,Y)| \leq 1.

Et si |\rho(X,Y)| =1 alors X et Y sont liées par une relation affine.

\bullet On généralise la notion de couple de variables aléatoires à la dimension n, on parle alors du « vecteur aléatoire » X = (X_1,... ,X_n) ou plus précisément de variable aléatoire à valeurs dans \R^n.

Alors E(X_1 + .....+ X_n) = E(X_1) + .....+ E(X_n) et

Var(X_1 + ....+ X_n) =\displaystyle\sum_{i=1}^{n} Var(X_i)+\displaystyle\sum_{1\leq i \neq j \leq n}^{} Cov(X_i, X_j)

Les lois classiques

Lois discrètes

a) Loi uniforme. Soit E ensemble fini de cardinal n, X est une variable uniforme sur E si \forall x \in E, P(X = x) = \dfrac{1}{n}.

E(X)=\dfrac{n+1}{2}\;\; Var(X)=\dfrac{n^2-1}{12}

b) Loi de Bernoulli de paramètre p (p\in [0; 1]) , notée {\mathcal B}(p) : X à valeurs dans \{0; 1\} telle que P(X = 1) = p, P(X = 0) = 1 - p.

E(X)=p\;\; Var(X)=p(1-p)

c) Loi binomiale de paramètres n , p (n \in \N^*, p \in [0; 1]) , notée {\mathcal B}(n, p) est la loi de la somme de n variables indépendantes identiquement distribuées de Bernoulli de paramètre p. X prend ses valeurs dans \{0,....,n\} et:

\forall k \in \{0,....,n\} , P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}.

E(X)=np\;\; Var(X)=np(1-p)

d) Loi géométrique de paramètre p ( p \in [0; 1]), notée {\mathcal G}(p) : X à valeurs dans \N^* telle que \forall k \in \N, P(X = k) = (1 - p)^{k-1}p.

E(X)=\dfrac{1}{p}\;\; Var(X)=\dfrac{1-p}{p^2}

e) Loi de Poisson de paramètre \lambda (\lambda> 0), notée {\mathcal P}(\lambda) : X à valeurs dans N telle que \forall k \in \N, P(X = k) = \dfrac{ \lambda^k}{k!} e^{-\lambda}.

E(X)=\lambda\;\; Var(X)=\lambda

Lois continues

a) Loi uniforme sur [a, b] (a < b), notée {\mathcal U}([a, b]) : de densité x \mapsto \dfrac{1}{b-a}\mathbb{I}_{[a;b]} (x).

E(X)=\dfrac{a+b }{2}\;\; F_X(x)=\dfrac{t-a}{b-a}

b) Loi exponentielle de paramètre \lambda (\lambda> 0), notée {\mathcal E }(\lambda) : de densité x \mapsto \lambda e^{-\lambda x} \,\mathbb{I}_{[0;+\infty[} (x).

E(X)=\dfrac{1}{\lambda}\;\; F_X(x)=1-e^{-\lambda x}

c) Loi gaussienne (ou normale) de moyenne m (\in \R) et de variance \sigma^2 (\in R^+), notée {\mathcal N}(m,\sigma^2 ) : de densité x \mapsto \dfrac{1}{\sqrt{2\pi \sigma^2}} \exp(-\dfrac{(x-m)^2}{2\sigma^2})

Quelques remarques importantes :

\bullet Les lois géométriques et exponentielles ont en commun la propriété dite de « non vieillissement « :

P_{X\geq h}(X\geq t+h)=P(X\geq t)

Exemple de calcul pour la loi exponentielle:

P_{X\geq h}(X\geq t+h)=\dfrac{P((X\geq h)\cap(X\geq t+h))}{P(X\geq h)}=\dfrac{P(X\geq t+h)}{P(X\geq h)}

… et comme pour cette loi, F_X(x)=P(X\leq x)=1-e^{-\lambda x}, P(X\geq x)=e^{-\lambda x}, donc:

P_{X\geq h}(X\geq t+h)=\dfrac{e^{-\lambda (t+h)}}{e^{-\lambda h}}=e^{-\lambda t}=P(X\geq t)

\bullet Si X suit une loi {\mathcal N}(m,\sigma^2 ), alors \dfrac{X-m}{\sigma} suit une loi {\mathcal N}(0,1 ) et les calculs s’effectuent à l’aide de la fonction de répartition de celle-ci fournie en annexe.

Exemple 8

X suit une loi {\mathcal N}(3,4) (Attention 4=\sigma^2), calculer P(2.4\leq X\leq 6.5).

\dfrac{X-3}{2} suit une loi {\mathcal N}(0,1 ) et P(2.4\leq X\leq 6.5)=P(-0.3\leq \dfrac{X-3}{2} \leq 1.75)

=P( X\leq 1.75)-P(X\leq -0.3)

P( X\leq 1.75) se lit directement dans la table, à l’intersection de la ligne 1.7 et de la colonne 5, soit : 0.9599

Pour P(X\leq -0.3) on utilise la symétrie de la courbe de densité:

P(X\leq -0.3)=P(X\geq 0.3)=1-P(X\leq 0.3)=1-0.6179

Et finalement P(2.4\leq X\leq 6.5)=0.5778

 

Premières notions de statistiques

Un test d’hypothèse est un procédé d’inférence ( inférer signifie tirer une conclusion ou une conséquence à partir d’un fait ) permettant d’accepter ou rejeter, à partir de l’étude d’un ou plusieurs échantillons aléatoires, la validité d’hypothèses relatives à une ou plusieurs populations.

Les méthodes de l’inférence statistique nous permettent de déterminer, avec une probabilité donnée, si les différences constatées au niveau des échantillons peuvent être imputables au hasard ou si elles sont suffisamment importantes pour signifier que les échantillons proviennent de populations vraisemblablement différentes.

Le principe des tests d’hypothèse est de poser une hypothèse de travail et de prédire les conséquences de cette hypothèse pour la population ou l’échantillon. On compare ces prédictions avec les observations et l’on conclut en acceptant ou en rejetant l’hypothèse de travail à partir de règles de décisions objectives.

Différentes étapes doivent être suivies pour tester une hypothèse :

(1) définir l’hypothèse nulle, notée H_0, à contrôler ;

(2) choisir une statistique ( Voir plus bas) pour contrôler H_0 ;

(3) définir la distribution de la statistique sous l’hypothèse « H_0 est réalisée » ;

(4) définir le niveau de signification du test \alpha et la région critique associée ;

(5) calculer, à partir des données fournies par l’échantillon, la valeur de la statistique ;

(6) prendre une décision concernant l’hypothèse posée .

L’hypothèse nulle notée H_0 est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il n’existe pas de différence entre les paramètres comparés ou que la différence observée n’est pas significative et est due aux fluctuations d’échantillonnage. Cette hypothèse est formulée dans le but d’être rejetée.

Une statistique est une fonction des variables aléatoires représentant l’échantillon.

Connaissant la loi de probabilité suivie par la statistique S sous l’hypothèse H_0 , il est possible d’établir une valeur seuil, S_{seuil} de la statistique pour une probabilité donnée appelée le niveau de signification \alpha du test.

La région critique R_c correspond à l’ensemble des valeurs telles que : P(S\in R_c) = \alpha.

Sous l’hypothèse « H_0 est vraie » et pour un seuil de signification \alpha fixé:

– si la valeur de la statistique S_{obs} calculée appartient à la région critique alors l’hypothèse H_0 est rejetée au risque d’erreur \alpha et l’hypothèse alternative H_1 est acceptée .

Rejet erroné de H_0: On appelle risque d’erreur de première espèce la probabilité de rejeter H_0 (et d’accepter H_1 !) alors que H_0 est vraie .

Choix erroné de H_0: On appelle risque d’erreur de seconde espèce, notée \beta la probabilité de rejeter H_1 (et d’accepter H_0 ) alors que H_1 est vraie .

Rejeter H_0 avec raison: On appelle \textit{puissance} d’un test, la probabilité de rejeter H_0 et d’accepter H_1 alors que H_1 est vraie. Sa valeur est 1-\beta

Exemple 9

On s’intéresse à la probabilité p d’observer un certain phénotype sur un individu issu d’un croisement. Selon que le phénotype est déterminé par un gène ou par 2 gènes situés sur des chromosomes différents, la probabilité p d’observer ce phénotype sera p = \dfrac{3}{4} ou p = \dfrac{9}{16}.

On réalise 50 croisements indépendants, et on note X le nombre d’individus présentant le phénotype.

Notons H_0 : p = \dfrac{3}{4} « contre  » H_1 : p = \dfrac{9}{16}

On considère le rapport des vraisemblances: L(k)=\dfrac{P_{H_0}(X=k)}{P_{H_1}(X=k)}

=\dfrac{\binom{50}{k}\frac{3}{4}^k \frac{1}{4}^{50-k}}{\binom{50}{k}\frac{9}{16}^k \frac{7}{16}^{50-k}}=\dfrac{12}{9}^k \dfrac{4}{7}^{50-k}

Pour quelle valeur de k a-t-on \dfrac{P_{H_0}(X=k)}{P_{H_1}(X=k)}\geq 1 ?

L(k)\geq 1 si \ln(L(k))\geq 0 soit k\ln(\dfrac{12}{9})+(50-k)\ln(\dfrac{4}{7}) \geq 0

Soit k\geq \dfrac{50\ln(\dfrac{7}{4})}{\ln(\dfrac{4}{3})-\ln(\dfrac{4}{7})} c’est à dire 34.

La règle de décision sera donc la suivante : On accepte H_0 si le nombre de réalisations de p=\dfrac{3}{4} est supérieur à 34.

le niveau de ce test est alors P_{H_0}(X\leq 33)=0.09

La puissance de ce test est alors 1-P_{H_1}(X\geq 34)=P_{H_1}(X\leq 33)=0.9387

D’autres lois fondamentales pour les statistiques

\bullet La loi multinomiale :

On répète n fois une expérience à k issues de probabilités respectives p_1, p_2,...,p_k de façon indépendante et on note X_i le nombre de réalisations de l’issue i.

Le vecteur aléatoire (X_1,X_2,...,X_k) suit une loi multinomiale de paramètres (n,p_1, p_2,...,p_k) et on a :

P((X_1,X_2,...,X_k)=(x_1,x_2,...,x_k))=\dfrac{n !}{x_1 ! x_2 ! ... x_k !}p_1^{x_1} p_2^{x_2}...p_k^{x_k}

Chaque X_i suit une loi binomiale de paramètres n,p_i .

E(X)=(n p_1,n p_2,...,n p_k)

Exemple 9(bis):

Une expérience comporte 3 issues de probabilités respectives p_1= \dfrac{1}{2}, p_2 =\dfrac{1}{3}, p_3=\dfrac{1}{6}, calculer P((X_1,X_2,X_3)=(1,2,1)) si on réalise 4 fois cette expérience.

P((X_1,X_2,X_3)=(1,2,1))=\dfrac{4 !}{1 ! 2 ! 1!}(\dfrac{1}{2})^{1} .(\dfrac{1}{3})^{2}.(\dfrac{1}{6})^{1}=0.111

\bulletLoi du khi-deux \chi^2(k):

Si Y suit une loi du khi-deux à n degrés de liberté alors la densité de Y est alors: f_Y(x)=\dfrac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}\;x^{\frac{n}{2}-1}\;e^{-\frac{x}{2}}, pour x>0\Gamma(x) est la fonction définie par \Gamma(x)=\displaystyle\int_{0}^{+\infty}t^{x-1}_, e^{-t} \,dt

Là encore aucun calcul ne sera effectuer directement , on utilisera systématiquement les tables (voir annexe), mais attention la présentation des tables n’est pas la même d’une loi à l’autre.

E(Y)=k et var(Y)=2n

Allure des fonctions densité :

 

 

Résultat fondamental : Si X_1,X_2,...,X_k sont des variable aléatoires indépendantes qui suivent la loi normale {\mathcal N}(0,1 ) alors Y=X_1^2+X_2^2+...+X_k^2 suit une loi du khi-deux à k degrés de liberté. ( Voir la Démonstration en annexe).

 

\bullet Loi de Student \mathcal T(k) :

Si X suit une {\mathcal N}(0,1 ) et Y suit une \chi^2(k), alors la variable aléatoire T=\dfrac{X}{\sqrt{\frac{Y}{k}}}suit une loi de Student àk degrés de liberté.

La densité de T est alors: f_T(x)=\dfrac{1}{\sqrt{k \pi}}\dfrac{\Gamma(\frac{k+1}{2})}{\Gamma(\frac{k}{2})}(1+\dfrac{t^2}{k})^{-\frac{k+1}{2}}

E(T)=0 et var(Y)=\dfrac{k}{k-2}

Allure de la fonction densité :

 

Fonctions caractéristiques

Un outil indispensable pour la suite, il s’agit de la fonction caractéristique d’une variable aléatoire X:

\Phi_X(t)=E(e^{itX})=\displaystyle\int_{\R}^{}e^{itx} \,f_X(x) \,dx (attention on utilise ici les nombres complexes )

Exemples de calculs

Si X suit une loi de Poisson, P(X = k) = \dfrac{ \lambda^k}{k!} e^{-\lambda},

\Phi_X(t)=E(e^{itX})=\displaystyle\sum_{0}^{+\infty}e^{itk} \, \dfrac{ \lambda^k}{k!} e^{-\lambda}

=e^{-\lambda}\displaystyle\sum_{0}^{+\infty} \, \dfrac{( \lambda e^{it})^k}{k!}

=e^{-\lambda} e^{\lambda e^{it}} \;\;\;\;\;\;\;\;(on utilise ici \displaystyle\sum_{0}^{+\infty} \dfrac{ x^k}{k!}=e^x)

=e^{\lambda (e^{it}-1)}

\bullet Principales propriétés:

1)La fonction caractéristique d’une variable aléatoire caractérise sa loi.

2)\Phi_{aX+b}(t)=e^{ibt}\Phi_X(at)

3)Si X et Y sont des variables aléatoires indépendantes, alors pour tout réel t, \Phi_{X+Y}(t)=\Phi_X(t)\times \Phi_Y(t)

4)Lorsque t \rightarrow 0 ,\Phi_X(t)\approx \displaystyle\sum_{0}^{n}\dfrac{(it)^k}{k!}\,E(X^k)

Si X et Y sont des variables aléatoires indépendantes suivant des lois de poisson de paramètres \lambda _1 et \lambda _2,

\Phi_{X+Y}(t)=e^{\lambda_1 (e^{it}-1)}e^{\lambda_2 (e^{it}-1)} … d’après 3)

=e^{\lambda_1+\lambda_2 (e^{it}-1)}

…. et donc X+Y suit une loi de poisson de paramètre \lambda_1+\lambda_2 … d’après 1)

Si X suit une loi {\mathcal N}(0,\sigma^2 ),

\Phi_X(t)=e^{-\sigma^2 \frac{t^2}{2}} donc si X suit une loi {\mathcal N}(\mu_1,\sigma^2 ), \Phi_X(t)=e^{i\mu_1 t}e^{-\sigma^2 \frac{t^2}{2}} … d’après 2)

Si X et Y sont des variables aléatoires indépendantes suivant des lois {\mathcal N}(\mu_1,\sigma_1^2 ) et {\mathcal N}(\mu_2,\sigma_2^2 ) alors :

\Phi_{X+Y}(t)=e^{i\mu_1 t}e^{-\sigma_1^2 \frac{t^2}{2}}.e^{i\mu_2 t}e^{-\sigma_2^2 \frac{t^2}{2}} … d’après 3)

=e^{i(\mu_1+\mu_2) t}e^{-(\sigma_1^2+\sigma_2^2) \frac{t^2}{2}}

qui est la fonction caractéristique d’une {\mathcal N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2 )

\bulletUn calcul fondamental :

Soit (X_n)_{n\geq 1} une suite de variables aléatoires deux à deux indépendantes de même loi X , on suppose E(X)=0 et Var(X)=\sigma^2, on note \varphi(t) la fonction caractéristique de X.

Soit Y_n=\dfrac{(X_1+X_2+...+X_n)}{\sqrt n}

\Phi_{Y_n}(t)=E(e^{it\frac{(X_1+X_2+...+X_n)}{\sqrt n}})=(E(e^{i\frac{t}{\sqrt n}X_1}))^n=(\varphi (\dfrac{t}{\sqrt n}))^n

or d’après 4), \varphi(t)\approx 1+it\,E(X)+\dfrac{(it)^2}{2!}\,E(X^2)=1-\dfrac{t^2}{2}\sigma^2

\ln(\Phi_{Y_n}(t))=n \ln (\varphi (\dfrac{t}{\sqrt n})) et comme \dfrac{t}{\sqrt n}\rightarrow 0 :

\ln(\Phi_{Y_n}(t))\rightarrow n \ln (1-\frac{t^2}{2n}\sigma^2)=-\sigma^2 \frac{t^2}{2} \;\;\;\; (Rappel \dfrac{\ln(1+x)}{x}\rightarrow 1 en 0)

Finalement \Phi_{Y_n}(t)\rightarrow e^{-\sigma^2\frac{t^2}{2}} qui est la fonction caractéristique d’une loi {\mathcal N}(0,\sigma^2 ), ce qui démontrera le théorème central limite.

Convergence de variables aléatoires

Les différents types de convergence:

Convergence presque sûre : On dit que X_n converge presque sûrement vers X et on note X_n\xrightarrow[n\rightarrow +\infty]{p.s} X si :

\displaystyle\lim_{n\rightarrow+\infty} X_n(w)=X(w) sur un ensemble de probabilité 1…d’où l’expression presque sûre

Convergence en probabilité: On dit que X_n converge en probabilité vers X et on note X_n\xrightarrow[n\rightarrow +\infty]{proba} X si

\forall \epsilon >0 , P(\,||\,X-X_n\,|| \geq \epsilon) \xrightarrow[n\rightarrow +\infty]{} 0

Convergence en loi : On dit que X_n converge en loi vers X et on note X_n\xrightarrow[]{loi} X si :

\displaystyle\lim_{n\rightarrow+\infty} F_{X_n}(x)= F_{X}(x) \;\;\;\;…..(F est la fonction de répartition !)

ou P(a \leq Xn\leq b) \xrightarrow[n\rightarrow +\infty]{} P(a \leq X \leq b)

ou, formulation équivalente:

X_n\xrightarrow[]{loi} X si \forall \phi, une fonction continue ,bornée et positive :E(\phi(X_n)) \xrightarrow[n\rightarrow +\infty]{} E(\phi(X))

Théorème :

X_n converge en loi vers X si et seulement si pour

tout t\in \R , \Phi_{X_n}(t)\xrightarrow[n\rightarrow +\infty]{}\Phi_X(t)

\bullet Un exemple important :

On a vu que si X suit une loi de Poisson, \Phi_X(t)=e^{\lambda (e^{it}-1)}

Pour une loi de Bernoulli, \Phi_X(t)=E(e^{itX})=p\;e^{it1}+(1-p) \,e^{it0}=p\;e^{it}+(1-p) \,

Donc pour une loi Binomiale X=\displaystyle\sum_{i=1}^{n} X_i où les X_i sont des variables de Bernoulli:

\Phi_X(t)=E(e^{it(X_1+X_2+....+X_n)})=(E(e^{itX}))^n=(p\;e^{it}+(1-p))^n

donc si X_n suit une loi binomiale de paramètres n,\dfrac{\lambda}{n}, on a:

\Phi_{X_n}(t)=(\dfrac{\lambda}{n}\;e^{it}+(1-\dfrac{\lambda}{n}))^n , donc \ln(\Phi_{X_n}(t))=n \ln (\dfrac{\lambda}{n}\;e^{it}+(1-\dfrac{\lambda}{n}))

…qui tend vers -\lambda+ \lambda e^{it} lorsque n\xrightarrow[]{}+\infty et donc :

\Phi_{X_n}(t)\xrightarrow[]{} e^{\lambda( e^{it}-1)} qui est la fonction caractéristique de la loi de Poisson , ce qui démontre la convergence en loi d’une loi de Bernoulli vers une loi de Poisson .

Exemple 10:

Dans une chaîne de fabrication, 5\% des pièces sont défectueuses, on prélève une pièce, on examine si elle est défectueuse et on la replace parmi les autres. On répète 120 fois cette expérience. On désigne par X la variable aléatoire qui à chaque tirage de 120 pièces associe le nombre des pièces défectueuses, calculer P(X=5)

X suit une {\mathcal B}(120, 0.05) , avec \lambda=np=6, P(X=5)\approx e^{-6}\;\dfrac{6^5}{5!}=0.1606

Un autre exemple important de convergence

Rappel :

Si X_1, ... ,X_n suivent une loi de loi de Bernoulli de même paramètre p, indépendantes, alors S_n=\displaystyle\sum_{i=1}^{n} X_i suit

une loi binomiale de paramètres n,p

L’inégalité de Chebychev nous donne pour tout \epsilon:

P\left(\,\left|\dfrac{S_n}{n}-p\right|\,\geq \varepsilon \,\right)=P\left(\,\left|\dfrac{S_n-np}{n}\right|\,\geq \varepsilon \,\right)\,=P\left(\,\left|S_n-np\right|\,\geq n \varepsilon \,\right)\leq \dfrac{Var(S_n)}{n^2\,\varepsilon^2} (E(S_n) =np !)

Et pour une loi binomiale Var(X)=np(1-p), donc :

P\left(\,\left|S_n-np\right|\,\geq n \varepsilon \,\right)\leq \dfrac{p(1-p)}{n\,\varepsilon^2}

et donc P\left(\,\left|\dfrac{S_n}{n}-p\right|\,\geq \varepsilon \,\right)\,\underset{n\rightarrow +\infty}{\longrightarrow} 0\,.

ce qui démontre la convergence en probabilité de \dfrac{\sum_{i=1}^{n} X_i}{n} vers p

On retiendra les liens entre les différentes notions de convergence par le diagramme suivant.

Convergence presque sûre \Longrightarrow Convergence en probabilité \Longrightarrow Convergence en loi

Le résultat de l’exemple précédent se généralise à d’autres types de lois, et à des v.a.r. indépendantes deux à deux et non corrélées deux à deux.

Loi faible des grands nombres :

Soient X_1, ... ,X_n des variables aléatoires indépendantes et de même loi, si E(X_i^2)<+\inftyalors :

\dfrac{X_1+... +X_n}{n}\xrightarrow[n\rightarrow +\infty]{proba} E(X_1)

En effet on note S_n=\displaystyle\sum_{k=1}^{n}\,X_k\,, m=E(X_1) et \sigma=\sigma(X_1). Alors,

    \[\forall\, \varepsilon >0\,, \quad P\left(\,\left|\dfrac{S_n}{n}-m\right|\,\geq \varepsilon \,\right)\,\leq \dfrac{\sigma^2}{n\,\varepsilon^2}\,.\]

En particulier, P\left(\,\left|\dfrac{S_n}{n}-m\right|\,\geq \varepsilon \,\right)\,\underset{n\rightarrow +\infty}{\longrightarrow} 0\,.

On dispose même d’un résultat plus précis :

Loi forte des grands nombres :

Soient X_1, ... ,X_n des variables aléatoires indépendantes et de même loi, si E(X_i)<+\inftyalors :

\dfrac{X_1+... +X_n}{n}\xrightarrow[n\rightarrow +\infty]{p.s} E(X_1)

Le théorème central limite:

La loi des grands nombres nous dit qu’en présence d’une suite (X_n)n\in\N de variables aléatoires indépendantes et de même loi, la moyenne empirique \dfrac{S_n}{n}=\dfrac{\sum_{i=1}^{n} X_i}{n} converge vers la moyenne théorique E(X_1). Cependant, nous ne savons rien des fluctuations autour de cette moyenne théorique.

Soient X_1, ... ,X_n des variables aléatoires indépendantes et de même loi, notons m=E(X) et \sigma^2=Var(X), alors :

\dfrac {S_n-nm}{\sigma \sqrt{n}}\xrightarrow[n\rightarrow \infty]{loi}\,{\mathcal N}(0,1)

(Voir démonstration partie 4)

Exemple 11: On lance un dé non pipé 100 fois, de façon bien entendu indépendante. Quelle est la probabilité que la somme totale des points obtenus soit entre 300 et 400 ?

La somme totale est S =\displaystyle\sum_{0}^{100 } X_iX_i représente le nombre de points obtenus.

L’espérance de X_i est 3,5 et sa variance est 35/12.

Par le TCL\;\;\dfrac {S-350}{10 \sqrt{35/12}}\;\; suit approximativement une loi {\mathcal N}(0,1) donc:

P(300\leq S \leq 400)=P(\dfrac {-5}{ \sqrt{35/12}}\leq \dfrac {S-350}{10 \sqrt{35/12}}\leq \dfrac {5}{ \sqrt{35/12}})

=P(-2.93\leq {\mathcal N}(0,1) \leq 2.93)=P( {\mathcal N}(0,1) \leq 2.93)- P({\mathcal N}(0,1) \leq -2.93)

=P( {\mathcal N}(0,1) \leq 2.93)- P({\mathcal N}(0,1) \geq 2.93)=2 P( {\mathcal N}(0,1) \leq 2.93)-1=0.9966…. d’après le table

Ce théorème a son pendant vectoriel.

Soit (X_n)_{n\in \N} une suite de vecteurs aléatoires du second ordre indépendants, de même loi, d’espérance m, de matrice de variances-covariances \Sigma

Alors: \dfrac {S_n-nm}{\sigma \sqrt{n}}\xrightarrow[n\rightarrow \infty]{loi}\,{\mathcal N}(0,\Sigma)

Le gros théorème

\bullet Soitp = (p_1, . . . , p_k) une loi de probabilité sur \{1, . . . , k\} et X_1, . . . ,X_n un échantillon de loi p.

On définit les variables aléatoires (N_i(n))_{1\leq i \leq k} à valeurs dans \{0, . . . , n\} par N_i(n) = Card\{j = 1, . . . , n, X_j = i\}.

On dit que le vecteur N(n) = (N_1(n), . . . ,N_k(n)) suit la loi multinomiale de paramètre (n, p).

Lorsque n tend vers l’infini alors la variable Z_n =\displaystyle\sum_{i=1}^{k} \dfrac{(N_i(n)-np_i)^2}{np_i} converge en loi vers la loi du \chi^2 à (k-1) degrés de liberté.

\bullet Dans le cas k=2, Z_n = \dfrac{(N_1(n)-np_1)^2}{np_1}+ \dfrac{(N_2(n)-np_2)^2}{np_2}, \;\;\; or N_1(n)+N_2(n)=n et p_1+p_2 = 1 et donc \dfrac{(N_2(n)-np_2)^2}{np_2}=\dfrac{(N_1(n)-np_1)^2}{n-np_1} et

Z_n = \dfrac{(N_1(n)-np_1)^2}{n}(\dfrac{1}{p_1}+\dfrac{1}{1-p_1})=\dfrac{(N_1(n)-np_1)^2}{np_1(1-p_1)}

Rappel : N_1(n) suit une loi binomiale qui est la somme de n variables de Bernoulli d’éspérance p_1 et de variance \sigma^2=p_1(1-p_1) donc d’après le T.C.L, \dfrac{N_1(n)-np_1}{\sqrt{n}\sqrt{p_1(1-p_1)}} converge vers une {\mathcal N}(0,1 ) et donc Z_n converge vers la loi du \chi^2 à 1 degré de liberté.

Pour la démonstration, plus difficile, du cas général on remarquera que Z_n est la norme du vecteur de coordonnées \dfrac{(N_i(n)-np_i)}{\sqrt{np_i}} lequel est orthogonal au vecteur \overrightarrow {v}=(\sqrt{p_1},\sqrt{p_2},...,\sqrt{p_n}) (faire le calcul avec \displaystyle\sum_{i=1}^{k} N_i(n)=n et \displaystyle\sum_{i=1}^{k} p_i=1. et la démonstration se termine dans une base orthonormée quelconque de l’hyperplan orthogonal à \overrightarrow {v}

 

Il est alors possible de mettre en place les premiers tests statistiques :

\bullet Test d’adéquation à une loi donnée .

On dispose d’observations que l’on considère comme des réalisations indépendantes et identiquement distribuées. de loi p inconnue.

On souhaite ici construire un test qui permette de répondre à la question suivante : la loi des observations est-elle p^0 ?

En termes statistiques, on souhaite tester l’hypothèse p=p^0 \;\;\;\; (H_0)

On note \alpha le niveau du test , généralement \alpha=0.05, ce qui signifie qu’on choisit une région de rejet égale à \{Z_n \geq x_{1-\alpha} \} ou x_{1-\alpha} est le quantile d’ordre 1-\alpha de la loi \chi^2(k - 1). (P(X\geq x_{1-\alpha}) =\alpha).

La règle de décision est la suivante. On calcule Z_n grâce aux observations. Si Z_n \geq x_{1-\alpha} alors on rejette (H_0) , sinon on l’accepte .

Exemple 12

Deux cobayes (génération 0) de lignées pures dont les pelages sont gris et lisse pour le premier et blanc et rude pour le second ont donné une progéniture homogène au pelage gris et lisse. En croisant ces cobayes de la génération 1 entre eux, on a obtenu 64 descendants dont les pelages se répartissent de la manière indiquée dans le tableau suivant :

Faisons les hypothèses de modélisation suivantes (on parle de modèle mendélien) :

– les cobayes sont des animaux diploïdes

– le gène responsable de la couleur du pelage est présent sous la forme de deux allèles, l’un dominant (A) associéau gris, l’autre récessif (a) associé au blanc ;

– le gène responsable de la texture du pelage est présent sous la forme de deux allèles, l’un dominant (B) associé au lisse, l’autre récessif (b) associéau rude ;

– les gènes responsables de la couleur et la texture du pelage sont sur des chromosomes différents ;

– chaque parent donne, au hasard, à son descendant une copie d’un des deux chromosomes de chaque paire, et ce indépendamment de l’autre parent.

 

la distribution théorique des cobayes de la génération 2 si le modèle mendélien tient est (9/16, 3/16, 3/16, 1/16)

Z_n=\dfrac{(33-64.\frac{9}{16})^2}{64.\frac{9}{16}}+\dfrac{(13-64.\frac{3}{16})^2}{64.\frac{3}{16}}+\dfrac{(15-64.\frac{3}{16})^2}{64.\frac{3}{16}}+\dfrac{(3-64.\frac{1}{16})^2}{64.\frac{1}{16}}=1.33

Or pour une loi \chi^2(3) on lit dans la table fournie en annexe P(X\geq 7.81) =0.05

1.33<7.81 : Ces résultats expérimentaux sont conformes au modèle mendélien au niveau 0.05.

\bullet En pratique, il arrive que l’hypothèse ne donne pas la valeur de certains paramètres de la loi.

On est alors conduit à estimer la valeur de ces paramètres à l’aide des données observées.

On peut montrer qu’alors le théorème ci-dessus reste valable mais la variable

Z_n =\displaystyle\sum_{i=1}^{k} \dfrac{(N_i(n)-np_i)^2}{np_i} converge en loi vers la loi du \chi^2 à (k-r-1) degrés de liberté.

r est le nombre de paramètres à estimer (2 pour une loi normale,1 pour une loi de Poisson ou 0 pour une loi uniforme…)

Exemple 13

Dans une population d’invertébrés marins, la phosphatase acide présente trois allèles A^1, A^2 et A^3. Les proportions des cinq phénotypes observés sont de 25 A^1A^1, 106 A^2A^2, 113 A^1A^2, 9 A^1A^3 et 15 A^2A^3.

Cette population est-elle à l’équilibre de Hardy Weinberg ?

On commence par calculer les fréquences alléliques : (N=268)

f(A^1)=\dfrac{2\times 25+113+9}{2\times 268}=0.32=p \;\;\;\;(premier paramètre à estimer)

f(A^2)=\dfrac{2\times 106+113+15}{2\times 268}=0.63=q \;\;\;\;(deuxième paramètre à estimer)

f(A^3)=1-f(A^1)-f(A^2)=0.05=r

Sois H_0 (La population est à l’équilibre)

Les fréquences respectives des génotypes A^1A^1, A^2A^2, A^1A^2, A^1A^3 , A^2A^3 et A^3A^3 seront p^2, q^2, 2pq, 2pr, 2qr et r^2

Z_n=\dfrac{(25-27.44)^2}{27.44}+\dfrac{(106-106.37)^2}{106.37}+\dfrac{(113-108.06)^2}{108.06}+\dfrac{(9-8.58)^2}{8.58}+\dfrac{(15-16.8)^2}{16.88}+\dfrac{(0-0.67)^2}{0.67}=1.35

(Exemple de calcul np_1=268\times 0.32^2=27.44)

Or ici Z_n converge vers une loi du \chi^2 à 6-2-1=3 degrés de liberté (2 paramètres ont été estimés )

On lit sur la table P(X\geq 7.81) =0.05 et 1.35<7.81 donc on accepte H_0

Exemple 14

a)Une population de Pétrels a été échantillonnée (84 individus ont été capturés) puis caractérisée pour différents marqueurs biochimiques par électrophorèse des protéines. Pour l’un de ces caractères, trois phénotypes [S], [T] et [ST] ont été observés dans des proportions de 35 [S], 18 [T], et 27 [ST] soit un total de 80 individus. Aucun résultat n’a été obtenu pour les quatre individus restants et les expérimentateurs ont considéré qu »il s’agissait d’erreurs de manipulation.

f(A^S)=\dfrac{2\times 35+27}{2\times 80}=0.61=p \;\;\;\;(premier paramètre à estimer)

f(A^T)=1-f(A^S)=0.39

Sois H_0 (La population est à l’équilibre)

Z_n=\dfrac{(35-29.40)^2}{29.40}+\dfrac{(27-38.19)^2}{38.19}+\dfrac{(18-12.40)^2}{12.40}=6.87

Ici Z_n converge vers une loi du \chi^2 à 3-1-1=1 degré de liberté (1 paramètre a été estimé )

On lit sur la table P(X\geq 3.84) =0.05 et 6.87>3.84 donc on rejette H_0.

b) Ayant un doute sur les résultats, les expérimentateurs reprennent les données en postulant l’existence d’un troisième allèle, nul, appelé A^O . Le phénotype [O] serait silencieux c’est à dire non détecté par électrophorèse et les phénotypes [SO] = [S] et [TO] = [T].

A^S = A^T > A^0, f(A^S)=p, f(A^T)=q et f(A^O)=r

 

r^2=\dfrac{4}{84} donc r=0.22

[S]+[O]=p^2+2pr+r^2=(p+r)^2 donc p=\sqrt{[S]+[O]}-r=0.46

q=0.29

p+q+r \ne 1, du aux erreurs d’échantillonnage et à la méthode utilisée, une méthode dite de Berstein permet d’obtenir les valeurs corrigées suivantes :p=0.467, q=0.294 et r=0.239

Sois H_0 (hyphothèse triallélique+ population est à l’équilibre)

Z_n=\dfrac{(35-370.7)^2}{37.07}+\dfrac{(27-23.07)^2}{23.07}+\dfrac{(18-19.07)^2}{19.07}+\dfrac{(4-4.80)^2}{4.80}=0.98

Ici Z_n converge vers une loi du \chi^2 à 4-2-1=1 degré de liberté (2 paramètres estimés )

On lit sur la table P(X\geq 3.84) =0.05 et 0.98<3.84 donc on accepte H_0.

\bullet Test d’indépendance ou d’homogénéité

On considère ici un couple (X, Y ) de variables aléatoires, X à valeurs dans \{1, . . . , k\} et Y à valeurs dans \{1, . . . , l\}.

Si p_{ij}=P(X=i,Y=j), la loi de (Y,Y) est donnée par une matrice P = (p_{ij})_{1\leq i \leq k,1\leq j \leq l }. Le problème qui nous intéresse dans ce paragraphe est de tester l’indépendance des variables X et Y .

On calcule les effectifs marginaux : S_i =\sum_{j}^{} p_{ij} est la somme des termes sur la i-ème ligne, T_j =\sum_{i}^{} p_{ij} est la somme des termes sur la j-ième colonne.

 

On calcule les effectifs théoriques :C_{i,j}=\dfrac{S_iT_j}{n}

Sous l’hypothèse H_0, on a C_{i,j}=p_{ij}

Z_n =\displaystyle\sum_{i,j}^{} \dfrac{(p_{ij}-C_{i,j})^2}{C_{i,j}} converge en loi vers la loi du \chi^2 à (kl-(r-1+l-1)-1)=(k-1)(l-1) degrés de liberté.

En effet Le nombre de paramètres estimés est (r -1) + (s - 1) puisque la donnée des (r - 1) premiers coefficients de la loi de X donne le dernier (et idem pour Y).

Exemple 15

Un échantillon de 1000 personnes ont été interrogées sur leur opinion à propos d’une question qui sera posée à un référendum. On a demandé à ces personnes de préciser leur appartenance politique. Les résultats sont donnés par le tableau suivant:

 

On veut savoir la réponse au référendum est indépendante de l’opinion politique.

ici S_1 =495, S_2 =505, T_1 =502. T_2=345, T_3=153 .

Donc C_{1,1}=\dfrac{495\times 502}{1000}=248.49, C_{1,2}=\dfrac{495\times 345}{1000}=170.77…..

Z_n = \dfrac{210-248.49)^2}{248.49}+\dfrac{194-170.77)^2}{170.77}+....+\dfrac{62-77.265)^2}{77.265}=23.82

et Z_n converge en loi vers la loi du \chi^2 à (3-1).(2-1)=2 degrés de liberté.

On lit sur la table P(X\geq 5.99) =0.05 et 23.82>5.99 donc on rejette H_0.

Les tests du \chi^2 permettent aussi de tester l’homogénéité de plusieurs échantillons.

La mise en place pratique du test est la même que pour le test d’indépendance.