Un chercheur du LJAD co-conçoit une méthode statistique aux propriétés «universelles»
- Recherche
Nous vivons dans une société de programmes. Il y en a pour le lendemain, pour tout à l’heure, pour cet été. Ces anticipations, autrefois, se confinaient à l’intimité de nos calculs mentaux. Puis des programmes informatiques ont émergé. Couplés aux modèles mathématiques et à la puissance de calcul des ordinateurs actuels, ils permettent de prédire la météo, estiment la durée d’un itinéraire, chiffrent le risque de développer une maladie. Une façon de répondre à ces nouveaux besoins de « savoir » consiste, à partir des données dont nous disposons, à trouver les « lois de hasard » qui régissent les phénomènes qui nous intéressent.
Les statisticiens utilisent pour cela des modèles mettant en compétition plusieurs lois possibles et ils cherchent à sélectionner celle qui permet d’expliquer au mieux les observations récoltées. « Les statistiques sont une ressource qu’on utilise quand on n’est pas capable de décrire un phénomène par des équations », explique Yannick Baraud, Professeur au Laboratoire Jean Alexandre Dieudonné (LJAD) et membre de l’équipe probabilités et statistiques. « Elles interviennent lorsqu’un phénomène s’avère tellement complexe, que décrire précisément toutes les équations qui le régissent deviendrait inextricable », poursuit-il.
« Si vous souhaitez prédire votre temps de trajet en voiture le matin, vous avez deux options. Dans la première, vous devez prendre en compte chaque feu de signalisation, le niveau d’embouteillage de chaque rue, les influences des paramètres les uns sur les autres… La seconde option consiste, à partir de votre expérience du temps de trajet, à essayer de décrire, à partir d’un petit nombre de paramètres, un modèle de votre temps de parcours. De cette façon, vous allez vous rapprocher de l’heure exacte de votre arrivée, avec une petite marge d’erreur », illustre le mathématicien. Voici donc une façon naturelle et très pragmatique de s’essayer aux statistiques. Une partie des travaux menés au sein de la communauté des chercheurs concerne des cas particuliers comparables à celui-ci. Quand il existe des procédures statistiques qui semblent donner de bons résultats en pratique, alors même qu’on ne connaît pas la loi de hasard, des mathématiciens peuvent par exemple chercher à comprendre sous quelles conditions et pour quel type de modèles ces procédures marchent, et aussi dans quelles circonstances elles ne marchent pas bien. Avec cette façon de faire des statistiques, on part de procédures existantes et on cherche leurs propriétés.
Mais, parfois, les scientifiques prennent le problème par l’autre bout. C’est là le domaine d’expertise de Yannick Baraud. Le chercheur du LJAD, avec Lucien Birgé, professeur à l’Université Paris 6 et Mathieu Sart, maître de conférence à l’Université Jean Monet et ancien doctorant à Nice, a publié cette année dans la prestigieuse revue Inventiones mathematicae.
« Si nous parvenons à rendre la procédure facilement implémentable,
nous aurons fait un pas important »
Dans leur article, les chercheurs s’attaquent à un problème posé dans les années 60-70. Ils sont partis des propriétés qu’ils voulaient voir satisfaites par une procédure statistique et ils ont recherché une procédure qui les aurait, quel que soit le modèle utilisé « Nous nous sommes demandés s’il était théoriquement possible de construire un estimateur mathématique doté de propriétés universelles », énonce le Professeur niçois. « Nous voulions une méthode statistique susceptible de livrer une estimation optimale, c’est-à-dire qui ne puisse être améliorée par aucune autre d’un certain point de vue, et qui soit peu sensible à une petite erreur de modélisation, autrement dit, qui soit robuste», explique le chercheur du LJAD. Une autre propriété de la procédure est qu’elle permet de sélectionner, à partir des données, un (bon) modèle parmi une collection de modèles concurrents.
En théorie, elle permet par exemple de sélectionner des variables. Décrire un phénomène complexe en prenant en compte beaucoup de variables n’est possible statistiquement que si l’on dispose d’un très grand nombre de données. « En mathématiques, on suppose en général que même les phénomènes les plus complexes sont régis par un petit nombre de variables se cachant parmi une liste potentiellement grande », précise Yannick Baraud. Pour les trouver, la technique consiste à mettre en concurrence un grand nombre de modèles, contenant chacun peu de variables. De cette façon, on parvient à identifier les paramètres les plus influents, c’est-à-dire ceux à retenir.
Après trois ans de recherche, les trois mathématiciens français ont pu soumettre leur travail à la revue Inventiones mathematicae. L’article a été accepté pour publication après deux années supplémentaires durant lesquelles les résultats ont été évalués et vérifiés. « Néanmoins, notre travail mené en recherche fondamentale est à ce jour difficile à mettre en oeuvre pour des données complexes. Cela demanderait une quantité de ressources informatiques que, pour le moment, nous ne sommes pas capables de fournir », souligne Yannick Baraud. « Il faudrait trouver comment implémenter notre méthode, c’est-à-dire déterminer les méthodes numériques permettant à un ordinateur de faire les calculs en des temps raisonnables. Si nous y parvenons, nous aurons fait un pas important » », insiste le Professeur du LJAD. Depuis peu, Yannick Baraud a soumis cette partie du problème à d’autres chercheurs de l’Université Nice Sophia Antipolis, au sein du laboratoire Lagrange. La suite de l’histoire leur appartient peut-être.
Laurie Chiara
notes :
1)Vocabulaire : Quand faut-il parler de statistiques ou de probabilités?
Y.B : « Il existe entre ces deux domaines une barrière très floue et qui ne sera pas la même en France ou aux Etats-Unis. Les deux disciplines utilisent les mêmes outils et traitent de ce qui relève de l’aléatoire. Un probabiliste va s’intéresser aux comportements des variables (par exemple aux résultats d’un jet de dés), qui seront dus à la loi de hasard régissant un modèle donné. Le statisticien observe les variables et essaye, à partir de là, de trouver la loi de hasard à l’origine des résultats observés ».
2)un modèle statistique est un ensemble (en général infini) de lois possibles.
En choisissant un modele statistique on pense que la vraie loi de hasard qui régit le
phénomène est dans le modèle ou, du moins, est proche d’une des lois du modèle .
Une procédure statistique (d’estimation) est un moyen de sélectionner une loi dans le modèle choisi à partir de ce que l’on a observé du phénomène (les données).