Soutenance de thèse d'Aurore Archimbaud, 26 janvier

26 Janvier 2018 Recherche

Aurore ARCHIMBAUD soutiendra sa thèse de doctorat en Mathématiques "Méthodes statistiques de détection d'observations atypiques pour des données en grande dimension" vendredi 26 janvier 2018, 15:00, Salle MF 323

Directeur de thèse : Anne RUIZGAZEN professeure TSE, UT1 Capitole.

Le jury sera composé de :

  • M. Jérôme SARACCO Université Bordeaux 1 Rapporteur
  • M.Klaus NORDHAUSEN – University of Technology –Co-directeur de thèse
  • Mme Julie JOSSE Ecole Polytechnique Examinateur
  • Mme Béatrice LAURENTBONNEAU - INSA Examinateur
  • M. Valentin TODOROV – Statistics Division of UNIDO Examinateur
  • M. Andrea CERIOLI Università degli studi di Parma Parma Rapporteur
  • M. François BERGERET – IPPON INNOVATION
  • Mme Carole SOUAL


Résumé :
La détection d'observations atypiques de manière non-supervisée est un enjeu crucial dans la pratique de la statistique. Dans le domaine de la détection de défauts industriels, cette tâche est d'une importance capitale pour assurer une production de haute qualité. Avec l'accroissement exponentiel du nombre de mesures effectuées sur les composants électroniques, la problématique de la grande dimension se pose lors de la recherche d'anomalies. Pour relever ce challenge, l'entreprise ippon innovation, spécialiste en statistique industrielle et détection d'anomalies, s'est associée au laboratoire de recherche TSE-R en finançant ce travail de thèse. Le premier chapitre commence par présenter le contexte du contrôle de qualité et les différentes procédures déjà mises en place, principalement dans les entreprises de semi-conducteurs pour l'automobile. Comme ces pratiques ne répondent pas aux nouvelles attentes requises par le traitement de données en grande dimension, d'autres solutions doivent être envisagées. La suite du chapitre résume l'ensemble des méthodes multivariées et non supervisées de détection d'observations atypiques existantes, en insistant tout particulièrement sur celles qui gèrent des données en grande dimension. Le chapitre 2 montre théoriquement que la très connue distance de Mahalanobis n'est pas adaptée à la détection d'anomalies si celles-ci sont contenues dans un sous-espace de petite dimension alors que le nombre de variables est grand. Dans ce contexte, la méthode Invariant Coordinate Selection (ICS) est alors introduite comme une alternative intéressante à la mise en évidence de la structure des données atypiques. Une méthodologie pour sélectionner seulement les composantes d'intérêt est proposée et ses performances sont comparées aux standards habituels sur des simulations ainsi que sur des exemples réels industriels. Cette nouvelle procédure a été mise en oeuvre dans un package R, ICSOutlier, présenté dans le chapitre 3 ainsi que dans une application R shiny (package ICSShiny qui rend son utilisation plus simple et plus attractive. Une des conséquences directes de l'augmentation du nombre de dimensions est la singularité des estimateurs de dispersion multivariés, dès que certaines variables sont colinéaires ou que leur nombre excède le nombre d'individus. Or, la définition d'ICS par Tyler et al. (2009) se base sur des estimateurs de dispersion définis positifs. Le chapitre 4 envisage différentes pistes pour adapter le critère d'ICS et investigue de manière théorique les propriétés de chacune des propositions présentées. La question de l'affine invariance de la méthode est en particulier étudiée. Enfin le dernier chapitre, se consacre à l'algorithme développé pour l'entreprise. Bien que cet algorithme soit confidentiel, le chapitre donne les idées générales et précise les challenges relevés, notamment numériques.
Mots-clés : détection d'anomalies, ICS, distance de Mahalanobis, analyse multivariée, faible taille d'échantillon, haute fiabilité,