Alors que l’épidémie mondiale de Covid-19 suit son cours, les statisticiens rivalisent d’ingéniosité afin d’aider les décideurs et le grand public à mieux comprendre la situation. Du fameux R0, qui représente le facteur de contagion du virus, aux courbes d’évolution du nombre de cas, afin d’entrevoir la fin de l’épidémie, les statistiques sont partout. Elles pourraient aussi être d’une grande aide pour trouver un traitement.
Le chemin vers un traitement contre le Covid-19 sera long, notamment parce que le processus d’expérimentation demande du temps pour garantir l’efficacité et l’absence d’effets indésirables du produit. Le schéma courant d’expérimentation consiste à imaginer deux groupes de patients constitués par tirage au sort. Un groupe est traité et l’autre groupe est le groupe témoin. Tous les patients traités reçoivent le même traitement et l’on se donne un critère de comparaison des groupes (le taux de mortalité ou de guérison par exemple).
Cette approche est difficile à mettre en œuvre dans les cas où une réponse rapide est nécessaire. Elle nécessite des échantillons importants et pose des problèmes éthiques dans les cas d’affection grave mettant en jeu la vie des patients. Dans la pratique quand un traitement apparaît dans une situation de crise, de nombreuses données sont disponibles mais n’obéissent pas au protocole rigoureux des essais randomisés. Les patients sont hétérogènes, le traitement n’est pas appliqué de manière identique, le but est de guérir et non pas d’expérimenter. Il n’est donc pas facile de déterminer rigoureusement l’effet du traitement.
Il est pourtant possible de tirer des conclusions sans disposer d’un groupe de patients traités et d’un groupe témoin, il suffit que les données disponibles présentent suffisamment de variabilité dans l’application du traitement. On peut supposer par exemple un traitement identique mais administré à des moments différents de la maladie aux différents individus. Les patients traités tardivement serviront à estimer les effets en l’absence de traitement alors que les patients traités en début identifieront l’efficacité du traitement, éventuellement en fonction de la date du début de son utilisation. On peut aussi imaginer des doses différentes de traitement introduisant ainsi de la variabilité statistique dans l’échantillon. De plus, on dispose en général de multiples données incluant des patients traités et non traités.
On doit toutefois résoudre deux problèmes. Le premier est l’hétérogénéité des individus. Les patients sont tous différents et cette diversité se manifeste par l’observation de certaines caractéristiques comme l’âge, le sexe, l’existence d’autres pathologies. L’efficacité mesurée du traitement dépend alors de ces caractéristiques observables, c’est-à-dire qu’un traitement pourra être efficace chez les malades jeunes, mais inutile chez les patients âgés.
Avant de déterminer si un nouveau patient doit être soigné par le traitement considéré, on regardera donc dans les données son efficacité pour des malades ayant des caractéristiques observables voisines de celle du nouveau patient. Toutefois pour avoir une mesure globale de l’efficacité on calculera une efficacité moyenne en pondérant par la distribution des caractéristiques observables dans la population et non pas dans l’échantillon typiquement non représentatif.
Biais de sélection
La question la plus délicate est celle du biais de sélection. Le praticien dont l’objectif est de guérir et pas d’expérimenter, choisira le moment et la nature du traitement en fonction d’observations dont il dispose mais que n’observe pas le statisticien. Il choisira donc les patients les plus réceptifs au traitement et introduira ainsi un biais positif en faveur du traitement. C’est principalement ce biais de sélection que les essais randomisés visent à éliminer non sans difficulté.
Dans cette situation, l’effet observé du traitement mélange donc son effet réel et la procédure de choix du praticien. Le statisticien peut toutefois procéder à une analyse empirique du mode de sélection des patients traités et mettre en évidence ses déterminants observables. L’objectif est alors à partir des effets observés et de la procédure d’assignation du traitement de retrouver l’effet réel du traitement. Ce problème est bien connu et s’apparente à celui de l’élimination du bruit dans une image ou un signal sonore (on a ainsi corrigé les images du satellite Hubble malgré la déformation du miroir). Il peut être résolu, éventuellement grâce à des méthodes statistiques, aujourd’hui parfaitement maîtrisées, dans un bref délai.
On détermine par exemple à partir d’arguments médicaux et statistiques des variables observables individuelles (appelées instruments) qui permettent de prédire le choix du traitement. Ces variables sont choisies de manière à ne pas avoir d‘effet direct sur le déroulement de la maladie. On a donc une chaîne causale : les instruments déterminent le traitement qui agit sur la maladie. On observe par ailleurs l’effet indirect des instruments sur la maladie qui est une combinaison de la détermination du traitement et de son effet. Cette combinaison définie une relation entre effets indirects d’une part et sélection du traitement et efficacité d’autre part. Il suffit alors de résoudre cette équation pour trouver l‘effet du traitement.
Ces techniques statistiques peuvent accélérer grandement les avancées médicales en situation d’urgence sanitaire, et nous permettre d’évaluer l’efficacité d’un traitement malgré l’absence des fameux tests randomisés en double aveugle.
Copyright L'Opinion