Exercices de probabilité

By Alexandre Allauzen

Certains de ces exercices sont des adaptations des exercices donnés par F. Rossi. La plupart peuvent être fait sur papier. Certains peuvent nécessiter des outils de calcul: pensez à Python.

1 Exercice d'introduction

1.1 Le problème des anniversaires (ou du conflit dans les tables de hashage)

  • De combien de personne a-t-on besoin dans cette pièce pour faire le pari "raisonnable" que 2 personnes

ont la même date d'anniversaire ?

  • Quel est le rapport avec les table de hashage et le big-data ?

1.2 Critique de film (problème de la recommandation)

Pour aller voir un film, dois-je me baser sur l'avis de mon critique préféré (ou ami facebook)

  • Notons A mon avis et B l'avis du critique sous forme de VA, par exemple A=1 si mon avis est positif, et A=0 sinon).
  • Ce critique est fiable à 95% :
    • 95% des films que j'ai aimé sont recommandés par le critique et
    • 95% des films que je n'ai pas aimés sont déconseillés par le critique
  • J'aime seulement 1% des films qui sortent

La critique de mon ami arrive, elle est positive

Quel est la probabilité que j'aime ce film ?

Pour répondre à cette question:

  • définir les variables aléatoires nécessaires
  • reprendre les phrases de l'énoncé et les traduire en probabilités.
  • Pensez à appliquer la formule de Bayes

1.3 Estimation des paramètres pour une gaussienne

Soit \(X\) une VA continue que l'on suppose suivre la loi normale. On dispose d'un ensemble de N observations \(x_{1:N}\) et nous souhaitons estimer les paramètres de la gaussienne à partir de ces données. Donner les valeurs des deux paramètres en fonction des données. Pour cela, il faut suivre les étapes suivantes:

  • écrire la vraisemblance
  • passer en log
  • dériver pour annuler et trouver les paramètres selon le max. de vraisemblance

1.4 En passant

  • Quelle est la différence entre une loi de Bernoulli et Binomiale ?
  • Qu'est-ce qu'une loi de Poisson ?
  • Dans le cours, il est question de la constante de normalisation de la distribution multinomiale. Donner sa formule exacte et expliquez la.

2 Le problèmes des urnes

2.1 En théorie

Soient deux urnes \(u_1\) et \(u_2\) contenant respectivement :

  • deux billes bleues et une bille rouge;
  • deux billes rouges et une bille bleue.

Les billes ne diffèrent entres elles que par leur couleur. On choisit une bille au hasard de la façon suivante :

  • on tire à pile ou face une urne (pièce non truquée) ;
  • si on obtient pile on choisit une bille dans l'urne \(u_1\)
  • sinon on choisit une bille dans \(u_2\)
  • on remet la bille ensuite dans son urne d'origine

On considère le couple de variables aléatoires \((U,C)\) où \(U\) désigne l'urne choisie et \(C\) la couleur de la bille. L'objectif est de prédire l'urne en connaissant la couleur de la bille obtenue.

Les questions:

  • Donner la loi (marginale) de \(U\)
  • Donner la loi (marginale) de \(C\)
  • Calculer \(P(U=u_1|C=rouge)\) et \(P(U=u_1|C=bleue)\)
  • En déduire le meilleur classifieur possible au sens de l'erreur locale définie par le tableau suivant \[ l(x,y)=\left\{\begin{array}{cc|cc} &y & u_1 & u_2\\\hline x &u_1& 0& 1\\ &u_2&1&0\end{array} \right. \]
  • Calculer le risque du classifieur optimal.

2.1.1 En pratique

On observe maintenant les tirages sous forme de réalisation des couples i.i.d. de (U,C):

U C
1 rouge
1 bleue
2 bleue
1 bleue
2 rouge
2 rouge
1 bleue
2 bleue
1 rouge
1 bleue
1 bleue
2 rouge

Ce sont les données d'apprentissage.

  • Estimer les lois marginales de \(U\) et \(C\) d'après le tableau.
  • Estimer \(P(U=u_1|C=rouge)\) et \(P(U=u_1|C=bleue)\) d'après le tableau.

3 Passage à la dimension deux

On étudie un problème de classement entre deux classes 1 et 2 pour des objets caractérisés par deux variables :

  • T la taille qui prend les valeurs S, M et L (small, medium et large) ;
  • P le poids, qui prend les valeurs 1, 2 ou 3.

3.1 Estimation complète

On observe des exemples d'objets de chaque classe selon le tableau suivant (les données d'apprentissage) :

classe T P
1 S 1
1 S 2
1 M 1
1 L 2
1 S 1
1 M 2
2 M 3
2 L 2
2 M 1
2 L 2
2 L 3
2 L 2
  • Pour effectuer la classification, quelles sont les probabilités conditionnelles nécessaires ?
  • Estimer ces probabilités à partir du tableau.
  • Quel problème rencontre-t-on ? Quel remède ?

3.2 Estimation avec indépendance conditionnelle

On fait maintenant l'hypothèse d'indépendance conditionnelle du classifieur bayesien naïf.

  • Calculer les lois empiriques de T et P dans les deux classes.

3.3 Un exemple réaliste

3.3.1 Présentation des données

On considère la base de données des votes effectués par les membres de la Chambre des représentants des EUA en 1984 sur 16 propositions importantes. Chaque individu est un membre de la Chambre décrit par 17 variables nominales. La variable Parti prend les modalités Démocrate et Républicain. Les autres variables, V1 à V16 représentent les votes et prennent les valeurs OUI, NON et NSP (pour une absence de vote). Il y a 267 représentants démocrates et 168 représentants républicains.

3.3.2 Les données

3.3.2.1 Votes des Républicain
  NON NSP OUI
V1 134 3 31
V2 73 20 75
V3 142 4 22
V4 2 3 163
V5 8 3 157
V6 17 2 149
V7 123 6 39
V8 133 11 24
V9 146 3 19
V10 73 3 92
V11 138 9 21
V12 20 13 135
V13 22 10 136
V14 3 7 158
V15 142 12 14
V16 50 22 96
3.3.2.2 Votes des Démocrates
  NON NSP OUI
V1 102 9 156
V2 119 28 120
V3 29 7 231
V4 245 8 14
V5 200 12 55
V6 135 9 123
V7 59 8 200
V8 45 4 218
V9 60 19 188
V10 139 4 124
V11 126 12 129
V12 213 18 36
V13 179 15 73
V14 167 10 90
V15 91 16 160
V16 12 82 173
  • Les tables ci-dessus représentent les votes de chaque parti aux 16 propositions. Quelles grandeurs nécessaires à la mise en oeuvre d'un classifieur bayésien naïf peuvent être évaluées grâce à cette table ?
  • Soit un représentant ayant voté selon le vecteur de réponse V suivant :
V1 V2 V3 V4 V5 V6 V7 V8
OUI NON NSP OUI NON OUI OUI OUI

et puis

V9 V10 V11 V12 V13 V14 V15 V16
NON NON OUI NON NON NON NON OUI

Donner le rapport de probabilités \[\frac{P(\text{Démocrate}\mid V)}{P(\text{Républicain}\mid V)},\] tel qu'estimé par le classifieur bayésien naïf. On rappelle qu'il y 267 représentants démocrates et 168 représentants républicains.

3.4 Introduction au cas continu

3.4.1 En théorie

On considère deux populations, les hommes H de taille moyenne 1,74m avec un écart type de 0,07m et les femmes F de taille moyenne 1,62m avec un écart type de 0,065m (chiffres INSEE 2001). La population H contient h individus et la population F, f individus. On suppose que les répartitions des tailles sont gaussiennes au sein de chaque sous-population.

On choisit aléatoirement uniformément un individu dans la population totale et on veut déterminer en fonction de sa taille uniquement de quelle sous-population il est issu : il s'agit donc de classer les individus en fonction d'une variable continue.

  • On note G la variable aléatoire indiquant le genre d'une personne choisie au hasard. Donner la loi de G
  • On note T la variable aléatoire donnant la taille d'une personne choisie au hasard. Donner la densité de T.
  • Calculer P(G=f|T=t).

3.4.2 Point de vue empirique

On observe maintenant des exemples de la population considérée, décrits par la table ci-dessous.

  Genre Taille
1 Femme 1.83
2 Femme 1.72
3 Femme 1.83
4 Femme 1.83
5 Femme 1.77
6 Femme 1.63
7 Femme 1.68
8 Femme 1.72
9 Femme 1.74
10 Femme 1.91
11 Homme 1.67
12 Homme 1.57
13 Homme 1.55
14 Homme 1.60
15 Homme 1.60
16 Homme 1.59
17 Homme 1.64
18 Homme 1.56
19 Homme 1.65
20 Homme 1.54
  • Quelles hypothèses permettent de se ramener au cas théorique ?
  • Quelles grandeurs doit-on calculer pour définir le classifieur ?

4 La file d'attente

Un poste de péage d'une autoroute possède plusieurs guichets. En période de pointe et dans la tranche horaire 7h-9h, on compte 6300 véhicules par heure.

Des compteurs, à la sortie du péage, ont montré qu'un usager met en moyenne 18 secondes pour s'acquitter du péage. On estime qu'il y a risque de saturation (création d'un bouchon) si on compte plus de 10 véhicules en attente à chaque guichet. On se place désormais dans la période considérée 7h-9h.

  • Le nombre de véhicules présents au péage à un instant donné est une variable aléatoire X. Quelle est sa loi ? Quelle est son espérance mathématique E(X) : nombre moyen de véhicules présents au péage à un instant donné ?
  • Dans le cas où il y a 5 guichets, en admettant une égale répartition des véhicules sur chaque guichet et en notant Y le nombre de véhicules se présentant à un guichet à un instant donné, justifier que Y suit sensiblement une loi de Poisson et calculer la probabilité de saturation, à savoir le nombre Prob(Y > 10).
  • On suppose le nombre g de guichets non précisé. Quelle est la valeur minimale à attribuer à g afin que la probabilité de saturation n'excède pas 0,01 ?