Table of Contents
Certains de ces exercices sont des adaptations des exercices donnés par F. Rossi. La plupart peuvent être fait sur papier. Certains peuvent nécessiter des outils de calcul: pensez à Python.
1 Exercice d'introduction
1.1 Le problème des anniversaires (ou du conflit dans les tables de hashage)
- De combien de personne a-t-on besoin dans cette pièce pour faire le pari "raisonnable" que 2 personnes
ont la même date d'anniversaire ?
- Quel est le rapport avec les table de hashage et le big-data ?
1.2 Critique de film (problème de la recommandation)
Pour aller voir un film, dois-je me baser sur l'avis de mon critique préféré (ou ami facebook)
- Notons A mon avis et B l'avis du critique sous forme de VA, par exemple A=1 si mon avis est positif, et A=0 sinon).
- Ce critique est fiable à 95% :
- 95% des films que j'ai aimé sont recommandés par le critique et
- 95% des films que je n'ai pas aimés sont déconseillés par le critique
- J'aime seulement 1% des films qui sortent
La critique de mon ami arrive, elle est positive
Quel est la probabilité que j'aime ce film ?
Pour répondre à cette question:
- définir les variables aléatoires nécessaires
- reprendre les phrases de l'énoncé et les traduire en probabilités.
- Pensez à appliquer la formule de Bayes
1.3 Estimation des paramètres pour une gaussienne
Soit \(X\) une VA continue que l'on suppose suivre la loi normale. On dispose d'un ensemble de N observations \(x_{1:N}\) et nous souhaitons estimer les paramètres de la gaussienne à partir de ces données. Donner les valeurs des deux paramètres en fonction des données. Pour cela, il faut suivre les étapes suivantes:
- écrire la vraisemblance
- passer en log
- dériver pour annuler et trouver les paramètres selon le max. de vraisemblance
1.4 En passant
- Quelle est la différence entre une loi de Bernoulli et Binomiale ?
- Qu'est-ce qu'une loi de Poisson ?
- Dans le cours, il est question de la constante de normalisation de la distribution multinomiale. Donner sa formule exacte et expliquez la.
2 Le problèmes des urnes
2.1 En théorie
Soient deux urnes \(u_1\) et \(u_2\) contenant respectivement :
- deux billes bleues et une bille rouge;
- deux billes rouges et une bille bleue.
Les billes ne diffèrent entres elles que par leur couleur. On choisit une bille au hasard de la façon suivante :
- on tire à pile ou face une urne (pièce non truquée) ;
- si on obtient pile on choisit une bille dans l'urne \(u_1\)
- sinon on choisit une bille dans \(u_2\)
- on remet la bille ensuite dans son urne d'origine
On considère le couple de variables aléatoires \((U,C)\) où \(U\) désigne l'urne choisie et \(C\) la couleur de la bille. L'objectif est de prédire l'urne en connaissant la couleur de la bille obtenue.
Les questions:
- Donner la loi (marginale) de \(U\)
- Donner la loi (marginale) de \(C\)
- Calculer \(P(U=u_1|C=rouge)\) et \(P(U=u_1|C=bleue)\)
- En déduire le meilleur classifieur possible au sens de l'erreur locale définie par le tableau suivant \[ l(x,y)=\left\{\begin{array}{cc|cc} &y & u_1 & u_2\\\hline x &u_1& 0& 1\\ &u_2&1&0\end{array} \right. \]
- Calculer le risque du classifieur optimal.
2.1.1 En pratique
On observe maintenant les tirages sous forme de réalisation des couples i.i.d. de (U,C):
U | C |
---|---|
1 | rouge |
1 | bleue |
2 | bleue |
1 | bleue |
2 | rouge |
2 | rouge |
1 | bleue |
2 | bleue |
1 | rouge |
1 | bleue |
1 | bleue |
2 | rouge |
Ce sont les données d'apprentissage.
- Estimer les lois marginales de \(U\) et \(C\) d'après le tableau.
- Estimer \(P(U=u_1|C=rouge)\) et \(P(U=u_1|C=bleue)\) d'après le tableau.
3 Passage à la dimension deux
On étudie un problème de classement entre deux classes 1 et 2 pour des objets caractérisés par deux variables :
- T la taille qui prend les valeurs S, M et L (small, medium et large) ;
- P le poids, qui prend les valeurs 1, 2 ou 3.
3.1 Estimation complète
On observe des exemples d'objets de chaque classe selon le tableau suivant (les données d'apprentissage) :
classe | T | P |
---|---|---|
1 | S | 1 |
1 | S | 2 |
1 | M | 1 |
1 | L | 2 |
1 | S | 1 |
1 | M | 2 |
2 | M | 3 |
2 | L | 2 |
2 | M | 1 |
2 | L | 2 |
2 | L | 3 |
2 | L | 2 |
- Pour effectuer la classification, quelles sont les probabilités conditionnelles nécessaires ?
- Estimer ces probabilités à partir du tableau.
- Quel problème rencontre-t-on ? Quel remède ?
3.2 Estimation avec indépendance conditionnelle
On fait maintenant l'hypothèse d'indépendance conditionnelle du classifieur bayesien naïf.
- Calculer les lois empiriques de T et P dans les deux classes.
3.3 Un exemple réaliste
3.3.1 Présentation des données
On considère la base de données des votes effectués par les membres de la Chambre des représentants des EUA en 1984 sur 16 propositions importantes. Chaque individu est un membre de la Chambre décrit par 17 variables nominales. La variable Parti prend les modalités Démocrate et Républicain. Les autres variables, V1 à V16 représentent les votes et prennent les valeurs OUI, NON et NSP (pour une absence de vote). Il y a 267 représentants démocrates et 168 représentants républicains.
3.3.2 Les données
3.3.2.1 Votes des Républicain
NON | NSP | OUI | |
---|---|---|---|
V1 | 134 | 3 | 31 |
V2 | 73 | 20 | 75 |
V3 | 142 | 4 | 22 |
V4 | 2 | 3 | 163 |
V5 | 8 | 3 | 157 |
V6 | 17 | 2 | 149 |
V7 | 123 | 6 | 39 |
V8 | 133 | 11 | 24 |
V9 | 146 | 3 | 19 |
V10 | 73 | 3 | 92 |
V11 | 138 | 9 | 21 |
V12 | 20 | 13 | 135 |
V13 | 22 | 10 | 136 |
V14 | 3 | 7 | 158 |
V15 | 142 | 12 | 14 |
V16 | 50 | 22 | 96 |
3.3.2.2 Votes des Démocrates
NON | NSP | OUI | |
---|---|---|---|
V1 | 102 | 9 | 156 |
V2 | 119 | 28 | 120 |
V3 | 29 | 7 | 231 |
V4 | 245 | 8 | 14 |
V5 | 200 | 12 | 55 |
V6 | 135 | 9 | 123 |
V7 | 59 | 8 | 200 |
V8 | 45 | 4 | 218 |
V9 | 60 | 19 | 188 |
V10 | 139 | 4 | 124 |
V11 | 126 | 12 | 129 |
V12 | 213 | 18 | 36 |
V13 | 179 | 15 | 73 |
V14 | 167 | 10 | 90 |
V15 | 91 | 16 | 160 |
V16 | 12 | 82 | 173 |
- Les tables ci-dessus représentent les votes de chaque parti aux 16 propositions. Quelles grandeurs nécessaires à la mise en oeuvre d'un classifieur bayésien naïf peuvent être évaluées grâce à cette table ?
- Soit un représentant ayant voté selon le vecteur de réponse V suivant :
V1 | V2 | V3 | V4 | V5 | V6 | V7 | V8 |
---|---|---|---|---|---|---|---|
OUI | NON | NSP | OUI | NON | OUI | OUI | OUI |
et puis
V9 | V10 | V11 | V12 | V13 | V14 | V15 | V16 |
---|---|---|---|---|---|---|---|
NON | NON | OUI | NON | NON | NON | NON | OUI |
Donner le rapport de probabilités \[\frac{P(\text{Démocrate}\mid V)}{P(\text{Républicain}\mid V)},\] tel qu'estimé par le classifieur bayésien naïf. On rappelle qu'il y 267 représentants démocrates et 168 représentants républicains.
3.4 Introduction au cas continu
3.4.1 En théorie
On considère deux populations, les hommes H de taille moyenne 1,74m avec un écart type de 0,07m et les femmes F de taille moyenne 1,62m avec un écart type de 0,065m (chiffres INSEE 2001). La population H contient h individus et la population F, f individus. On suppose que les répartitions des tailles sont gaussiennes au sein de chaque sous-population.
On choisit aléatoirement uniformément un individu dans la population totale et on veut déterminer en fonction de sa taille uniquement de quelle sous-population il est issu : il s'agit donc de classer les individus en fonction d'une variable continue.
- On note G la variable aléatoire indiquant le genre d'une personne choisie au hasard. Donner la loi de G
- On note T la variable aléatoire donnant la taille d'une personne choisie au hasard. Donner la densité de T.
- Calculer P(G=f|T=t).
3.4.2 Point de vue empirique
On observe maintenant des exemples de la population considérée, décrits par la table ci-dessous.
Genre | Taille | |
---|---|---|
1 | Femme | 1.83 |
2 | Femme | 1.72 |
3 | Femme | 1.83 |
4 | Femme | 1.83 |
5 | Femme | 1.77 |
6 | Femme | 1.63 |
7 | Femme | 1.68 |
8 | Femme | 1.72 |
9 | Femme | 1.74 |
10 | Femme | 1.91 |
11 | Homme | 1.67 |
12 | Homme | 1.57 |
13 | Homme | 1.55 |
14 | Homme | 1.60 |
15 | Homme | 1.60 |
16 | Homme | 1.59 |
17 | Homme | 1.64 |
18 | Homme | 1.56 |
19 | Homme | 1.65 |
20 | Homme | 1.54 |
- Quelles hypothèses permettent de se ramener au cas théorique ?
- Quelles grandeurs doit-on calculer pour définir le classifieur ?
4 La file d'attente
Un poste de péage d'une autoroute possède plusieurs guichets. En période de pointe et dans la tranche horaire 7h-9h, on compte 6300 véhicules par heure.
Des compteurs, à la sortie du péage, ont montré qu'un usager met en moyenne 18 secondes pour s'acquitter du péage. On estime qu'il y a risque de saturation (création d'un bouchon) si on compte plus de 10 véhicules en attente à chaque guichet. On se place désormais dans la période considérée 7h-9h.
- Le nombre de véhicules présents au péage à un instant donné est une variable aléatoire X. Quelle est sa loi ? Quelle est son espérance mathématique E(X) : nombre moyen de véhicules présents au péage à un instant donné ?
- Dans le cas où il y a 5 guichets, en admettant une égale répartition des véhicules sur chaque guichet et en notant Y le nombre de véhicules se présentant à un guichet à un instant donné, justifier que Y suit sensiblement une loi de Poisson et calculer la probabilité de saturation, à savoir le nombre Prob(Y > 10).
- On suppose le nombre g de guichets non précisé. Quelle est la valeur minimale à attribuer à g afin que la probabilité de saturation n'excède pas 0,01 ?