Résumé:
L’objectif de ce projet est l’audit des algorithmes de machine learning et leur réparation.
Les nouvelles législations (RGPD et European Act) fournissent un cadre légal qui va encadrer la mise en oeuvre pratique des algorithmes. Elles fournissent un certain nombre de recommendations que doivent suivre les algorithmes. Tout particulièrement ces algorithmes ne doivent pas avoir des comportements différents pour des sous-groupes d’utilisateurs sauf si ces sous-groupes sont identifiés à l’avance et si ces différences sont justifiées. Ils doivent également afficher clairement ce pour quoi ils sont conçus et ne pas induire en erreur les utilisateurs. De nombreux travaux de recherche existent pour évaluer les biais en apprentissage ainsi qu’étudier l’explicabilité des décisions algorithmiques. En premier lieu, ces travaux sont à poursuivre afin de mieux comprendre ces problématiques, et amener des procédures permettant de certifier la présence ou l’absence de biais. En outre, la difficulté d’auditer les algorithmes vient essentiellement du fait que les mesures dépendent de la distribution de l’échantillon. Mais dans un cadre d’audit "boite noire" i.e en ne connaissant que les sorties de l’algorithme sur un jeu de données préalablement sélectionné ou choisi par l’auditeur, il faut prendre en compte la variabilité de l’algorithme par rapport aux distributions elle-memes. Notre objectif est donc dans ce projet de développer de nouvelles manières de définir, de détecter et de contrôler les effets des biais, de manière uniforme et robuste lorsque la loi des observations est partiellement connue. Notre approche est multi-disciplinaire se basant sur des statistiques robustes et du machine learning (maths et informatique) pour définir des propriétés valables pour des voisinages distributionnels, des processus gaussiens pour la construction de plans d’expérience optimaux de découverte des observations, de l’optimisation pour pouvoir construire pratiquement des algorithmes.
Abstract:
The objective of this project is to audit machine learning algorithms and make them compliant.
The new legislation (RGPD and European Act) provides a legal framework that will frame the practical implementation of algorithms. They provide a number of recommendations that algorithms must follow. In particular, these algorithms must not behave differently for sub-groups of users unless these sub-groups are identified in advance and the differences are justified. They should also clearly display what they are designed to do and not mislead users. A large body of research exists to assess bias in machine learning as well as to study the explainability of algorithmic decisions. In the first place, this work should be pursued in order to better understand these problems and to develop procedures to certify the presence or absence of bias. In addition, the difficulty of auditing algorithms comes essentially from the fact that the measurements depend on the distribution of the sample. But in a "black box" auditing framework, i.e. knowing only the outputs of the algorithm on a data set previously selected or chosen by the auditor, it is necessary to take into account the variability of the algorithm with respect to the distributions themselves. Our objective in this project is therefore to develop new ways of defining, detecting and controlling the effects of biases, in a uniform and robust way when the distribution of the observations is partially known. Our approach is multi-disciplinary, relying on robust statistics and machine learning (maths and computer science) to define valid properties for distributional neighbourhoods, Gaussian processes for the construction of optimal experimental designs for the discovery of observations, and optimisation to be able to build algorithms practically.