WP 2 : Outils de classification pour la détection de corruption dans les marchés publics
Chaque tâche de ce WP se concentre sur un type spécifique de méthode de classification. La Tâche 2.1 consiste à appliquer des outils classiques, notamment des modèles statistiques et d’apprentissage automatique, pour détecter les fraudes dans la base de données constituée durant le WP 1. La Tâche 2.2 vise à définir différentes méthodes pour extraire plusieurs types de graphes de cette base de données, et à proposer des méthodes efficaces pour effectuer une prédiction de fraude fondée sur cette information relationnelle. Enfin, le but de la Tâche 2.3 est de combiner ces deux types d’information dans une seule méthode hybride.
Pour évaluer la performance de nos classificateurs, nous adopterons une approche classique en apprentissage automatique, en exploitant la vérité terrain constituée lors du WP 1. Ces données seront divisées en trois parties. La première sera utilisée pour l’apprentissage des méthodes supervisées ; la deuxième pour l’ajustement de leurs paramètres le cas échéant ; et la troisième pour évaluer leur capacité de généralisation, i.e. d’obtenir une performance de même niveau sur de nouvelles données.
Responsable : V. Labatut (LIA)
Tâche 2.1 : Application de méthodes classiques
Cette tâche sera principalement traitée par le LBNC et le LIA, car elle consiste à appliquer à la fois des méthodes classiques d’économétrie et des outils état-de-l’art issus de l’apprentissage artificiel, à la base de données collectée lors du WP 1. Nous supposons que notre corpus sera constitué de classes déséquilibrées qui nécessiteront la mise en oeuvre de moyens adaptés.
Dans un premier temps, nous ajusterons un modèle Probit afin d’obtenir la meilleure estimation, et de permettre d’évaluer le pouvoir explicatif des attributs mis en jeu, non seulement séparément mais aussi conjointement. Nous utiliserons également la méthode LASSO pour effectuer une sélection d’attributs. Ces résultats seront utile lors de la conception des méthodes hybrides (Tâche 2.3). Nous appliquerons les modèles estimés au reste des données, pour lesquelles nous ne possédons pas de vérité terrain, réalisant ainsi une estimation de leur nature (frauduleuse ou pas). En construisant une approche en plusieurs étapes basée sur différents tests statistiques, inspirée par Imhof et al., nous identifierons un groupe de cas exhibant des traits manifestes de corruption. Nous les analyserons en détail afin d’en tirer des recommandations relatives au processus de traitement des appels d’offre, visant à diminuer le risque de corruption.
En plus des méthodes de classification utilisées traditionnellement en économie, nous comptons appliquer des méthodes état-de-l’art issues de l’apprentissage supervisé, afin d’évaluer l’amélioration qu’elles peuvent apporter en termes de précision. Nous considérerons les Séparateurs à Vaste Marge (SVM), les arbres de décision, les Perceptrons multicouche, le boosting, les forêts aléatoires, and les méthodes à base d’ensembles. L’objectif principal est ici d’améliorer la performance de la classification, donc nous nous laissons la possibilité d’utiliser des méthodes de type boîte-noire telles que les réseaux de neurones. Nous comptons également identifier les attributs les plus discriminants en appliquant des méthodes standard de sélection d’attribut, afin de recouper leurs résultats avec ceux déjà obtenus sur les approches économétriques.
Enfin, nous réaliserons également différentes analyse de robustesse visant à éprouver la qualité prédictive de nos meilleurs classificateurs. Par exemple, nous retirerons les attributs les plus informatifs afin d’étudier comment les autres se comportent, et comment une telle dégradation de l’information disponible affecte le taux de succès. Nous introduirons également des erreurs dans les données (notamment la vérité terrain) , toujours afin d’étudier comment cela affecte la performance de nos classificateurs.
- Livrables : rapports intermédiaire et final.
- Indicateurs de réussite : publications scientifiques.
- Partenaires impliqués : LIA, LBNC.
Tâche 2.2: Développement de méthodes à base de graphes
Cette tâche sera essentiellement conduite par le LIA, car elle requiert une expertise dans le partitionnement de graphe et la prédiction de lien. Le LBNC et le CRA interviendront sur les aspects juridiques et pratiques. Le·a doctorant·e accueilli·e par le LIA sera tout particulièrement impliqué·e dans cette tâche, ainsi que la suivante.
Nous commencerons par extraire différents types de graphes signés à partir des données brutes obtenues au WP 1. R. Figueiredo et V. Labatut ont réalisé un travail préliminaire qui a abouti à l’identification de deux méthodes à explorer. Premièrement, nous utiliserons les sommets pour représenter les acheteurs/fournisseurs et les arêtes pour connecter un fournisseur à un acheteur avec lequel il a remporté un contrat. Le signe de l’arête servira à représenter la nature frauduleuse (négatif) ou pas (positif) de la relation. Les cas de contrats multiples entre un acheteur et un fournisseur peuvent être modélisés via une paire de poids (positif vs. négatif). Cette méthode offre l’avantage de produire un graphe biparti, pour lesquels de nombreux outils existant existent, mais a l’inconvénient d’aboutir à une perte de l’aspect temporel des données. Deuxièmement, nous introduirons explicitement le temps dans notre modèle en utilisant un graphe signé dynamique. D’après nos travaux récents sur des données différentes, cela peut permettre d’améliorer significativement la performance de classification. Nous réaliserons une analyse descriptive de ces graphes, sur le même principe de ce qui a été décrit dans la Tâche 1.4 pour les données brutes, et avec les mêmes objectifs (mieux comprendre les données et fournir une information pertinente pour mener la Tâche 3.1). À cette fin, nous utiliserons des outils standard issus de l’analyse de réseaux complexes, en particulier les mesures de centralité et la recherche de motifs fréquents.
La seconde étape dans cette tâche consiste à explorer les définitions existantes de l’équilibre structurel (une propriété des graphes signés). Nous réaliserons le partitionnement de graphe et la prédiction de lien sur la base de ces définitions, et étudierons leur impact sur les résultats. Nous chercherons à répondre à des questions pratiques telles que : “Quel est le niveau d’équilibre de ces graphes ?”, “Peut-on identifier des clusters possédant un rôle particulier ?”, “Permettent-ils de prédire correctement la fraude ?”. En fonction des réponses à ces questions, et en se basant sur l’expertise des partenaires économistes et juriste, nous proposerons des variantes appropriées de l’équilibre structurel. Une fois les définitions les plus adaptées identifiées, nous formaliserons les problèmes de partitionnement de graphe et de prédiction de lien correspondant, et développerons des méthodes efficaces pour les résoudre, en nous basant sur les techniques maîtrisées par les membres du consortium pour ce type de problème, à savoir : la programmation en nombres entiers, et les heuristiques séquentielles et parallèles. Nous commencerons avec les versions statiques de nos graphes, avant de nous tourner vers les graphes dynamiques, qui sont plus difficiles à traiter. Nous comparerons la performance de prédiction obtenues sur les approches à base de graphe avec celles issues des méthodes plus traditionnelles mises en oeuvre lors de la Tâche 2.1.
- Livrables : rapports intermédiaire et final.
- Indicateurs de réussite : publications scientifiques.
- Partenaires impliqués : LIA, LBNC.
Tâche 2.3 : Développement de méthodes hybrides
Cette tâche sera principalement effectuée par le LIA. Les approches classiques utilisées dans la Tâche 2.1 reposent seulement sur l’exploitation de l’information individuelle présente dans nos données, tandis que celles proposées dans la Tâche 2.2 sont uniquement basée sur le traitement de l’information relationnelle modélisée par les graphes extraits. Le but de cette Tâche 2.3 est de combiner les deux types d’information, afin de déterminer comment cela affecte la détection de fraude. En d’autres termes, nous voulons considérer en même temps la partie des données qui décrit séparément chaque élément de notre système (fournisseurs et acheteurs), et la partie qui représente comment ceux-ci sont interconnectés.
À cette fin, nous prévoyons d’expérimenter trois options. Toutes sont basées sur des graphes, et intègrent de différentes façons l’information individuelle dans ce paradigme relationnel. Premièrement, on peut intégrer l’information individuelle au graphe en ajustant les poids des arêtes, une méthode précédemment utilisée dans le partitionnement de graphes non-signés. L’avantage de cette approche est qu’elle permet d’appliquer directement au graphe obtenu nos méthodes définies lors de la Tâche 2.2, mais son inconvénient est qu’elle est susceptible d’entraîner une perte d’information assez importante. Deuxièmement, il est possible d’ajouter au graphe de nouveaux types de sommets représentant les valeurs d’attributs individuels. Cette méthode a également été utilisée précédemment lors du partitionnement de graphes non-signés. Troisièmement, l’approche la plus naturelle est d’utiliser des graphes attribués, i.e. de définir des attributs au niveau des sommets, et d’adapter les méthode existantes de manière à exploiter cette information qui vient se rajouter à la seule structure du graphe. Dans les trois cas, nous développerons des méthodes en généralisant notre travail de la Tâche 2.2 et en adaptant des approches de la littérature à notre type de graphe spécifique. Comme pour la Tâche 2.2, nous nous concentrerons d’abord sur les graphes statiques, avant de nous tourner vers les graphes dynamiques. Nous comparerons aussi nos prédictions aux résultats obtenus avec les méthodes proposées aux tâches précédentes.
- Livrables : rapports intermédiaire et final, moteur de détection de fraude.
- Indicateurs de réussite : publications scientifiques.
- Partenaires impliqués : LIA, LBNC.