Organisation

Organisation

Work Package 0 : Gestion du projet

Un work package est dédié à la gestion du projet lui-même.

Work Package 1 : Collecte des données

Le premier work package (WP 1) sera principalement consacré à la constitution et à l’analyse descriptive de notre base de données, notée DB dans le reste de ce document. Elle sera construite en combinant deux sources principales : 1) le BOAMP (Open Data de la Commande Publique française), qui nous fournira une description des appels d’offres de la commande publique ; et 2) Legifrance (Open Data des décisions de justice), qui sera utilisé pour identifier les cas de corruption parmi eux. Ce recoupement entre les deux sources nous permettra de constituer notre vérité terrain. Nous utiliserons également des sources secondaires, notamment des rapports de journaux de Transparency International France (TIF, une organisation de la société civile leader dans la lutte contre la corruption, et qui soutient DeCoMaP, cf. Annexe).

Le WP 1 nous fournira une base de données unique et intégrée contenant toutes les informations pertinentes extraites des sources susmentionnées. Elle contiendra des attributs décrivant à la fois les types d’agents économiques (fournisseurs et acheteurs) ainsi que les appels d’offres. À l’intérieur de cette base de données, nous distinguons deux types distincts d’informations, que nous exploiterons ultérieurement de différentes manières. Le premier est l’information individuelle et correspond à tous les attributs décrivant un agent ou un appel d’offres indépendamment du reste du système. Le deuxième est l’information relationnelle, qui correspond aux attributs reliant les agents ou les appels d’offres (par exemple, l’identifiant du fournisseur retenu).

Work Package 2 : Outil de classification

Le deuxième work package (WP 2) traitera du déploiement de méthodes de détection de fraude automatiques existantes et du développement de nouvelles méthodes. Les deux s’appuieront sur les données obtenues dans le WP 1, en utilisant des approches supervisées et non supervisées. Parmi les méthodes existantes, on peut distinguer celles basées sur la régression déjà utilisées pour la détection de fraude dans la littérature, et les méthodes d’apprentissage automatique plus récentes qui commencent à se répandre dans le domaine de l’économie (notamment dans le problème étroitement lié de la détection de collusion dans la commande publique par D. Imhof [40, 42-44]), et qui n’ont pas encore été utilisées pour la détection de fraude. Nous prévoyons d’utiliser les méthodes basées sur la régression comme références pour évaluer les performances des autres méthodes. Les deux types de méthodes existantes se concentrent sur les informations individuelles, c’est-à-dire les caractéristiques décrivant chaque agent économique ou appel d’offres séparément.

Le principal défi sera le développement de nouvelles méthodes basées sur les graphes, capables de prendre en compte les informations relationnelles contenues dans la base de données. La première étape consiste à extraire des graphes modélisant les relations entre les fournisseurs et les acheteurs publics, et la deuxième à les analyser pour identifier les situations frauduleuses. De plus, nous prévoyons d’explorer un certain nombre de caractéristiques de réseaux complexes permettant d’intégrer autant d’informations que possible dans nos modèles, y compris les informations individuelles utilisées par les approches de classification existantes. Cela nous permettra de tirer parti des deux types d’informations simultanément pour prédire la fraude. Plus précisément, nous combinerons des graphes signés et attribués (cf. Section b2) : à notre connaissance, cela est nouveau et nécessite donc le développement de méthodes spécifiques, tant pour l’extraction que pour l’analyse.

Work Package 3: Application

Enfin, dans le troisième work package (WP 3), le consortium calibrera les outils de classification (développés dans le WP 2) en se basant sur l’ensemble de données de vérité terrain concernant les pratiques de commande publique corrompues obtenues à la fin du WP 1. En appliquant les outils développés sur les périodes pour lesquelles à la fois les données du marché et les décisions de justice sont connues, nous pourrons identifier les situations problématiques et les environnements juridiquement vulnérables (types de procédures, nature des clauses, caractéristiques des acteurs, formats de données, etc.). Une analyse juridique et économique de ces éléments permettra de formuler des recommandations en matière de politiques publiques concernant les règles de la commande publique et l’ouverture des données. La production d’un outil de visualisation de données fonctionnel destiné au grand public, ainsi que la publication de guides de bonnes pratiques, conclura le projet.

Le succès du projet repose sur son approche interdisciplinaire. Pour atteindre l’objectif des trois work packages, nous avons identifié et réuni trois domaines d’expertise : l’exploration de données (Data Mining), l’économie de la commande publique et le droit administratif. Dans la description des work packages, nous décrivons précisément les différents objectifs techniques que nous souhaitons atteindre et comment nous prévoyons de développer une synergie entre les trois domaines d’expertise pour atteindre les objectifs généraux du projet.