WP 1 : Constitution de la base de données

WP 1 : Constitution de la base de données

Le développement et la mise en oeuvre de méthodes appropriées à la résolution de notre problème nécessitent une base de données bien spécifique, à la fois suffisamment grande et contenant l’information utile pour identifier les cas frauduleux et corrompus. Une telle base n’existe pas à notre connaissance pour la France, et doit donc être construite. Pour répondre à ce besoin, notre approche consiste à combiner de types de données publiques : d’une part des données techniques décrivant les appels d’offre, et d’autre part des données juridiques correspondant aux condamnation en justice associées à certains d’entre eux. Les Tâches 1.1 et 1.2 visent à collecter et recouper ces données de la façon la plus exhaustive possible. Les Tâches 1.3 et 1.4 ont pour but de les analyser de façon descriptive, et de produire des données complémentaires et/ou de remplacement.

Responsable : F. Lombard

Tâche 1.1 : Collecte des données des marchés publics

Les marchés publics génèrent des données au cours des différentes étapes du processus de passation de contrat (planification, publication, description, attribution).

Depuis fin 2017, l’API fournie par le BOAMP (Bulletin Officiel des Annonces des Marchés Publics) permet à tout un chacun d’obtenir toutes les annonces et attributions de marchés publics. Elle nous offre la possibilité de collecter, contrat par contrat et lot par lot, de nombreux attributs (listés dans l’arrêté du 14 avril 2017), et relatifs aux caractéristiques de l’acheteur, de l’appel, (type de procédure, but du contrat, critères de sélection, durée de la période de publicité, attribution, date de notification, etc.) et des fournisseurs sélectionnés. Afin d’évaluer la difficulté de la Tâche 1.1, nous avons collecté plus de 58 400 annonces d’attribution (représentant 67 410 B.€). Nous comptons les compléter avec des données moins exhaustives mais mieux structurés, issues des (DECP – Données Essentielles de la Commande Publique)  et de la base SIRENE LD.

L’organisation de l’administration française est basée sur une structure pyramidale comprenant un grand nombre d’organes locaux, qui constituent un ensemble conséquent et hétérogène d’acheteurs publics. Le Répertoire National des Élus (RNE) du Ministère de l’intérieur nous permettra de déterminer les liens fonctionnels et techniques connectant les organes locaux, leurs acheteurs publics et les quelques 29 000 entreprises dont les gestionnaires sont aussi des élus.

Cette tâche sera principalement traitée par le LBNC, le LIA et Datactivist, car elle requiert une expertise dans la collecte, la structuration et l’analyse des données. Bien qu’il s’agisse de la plus grande base de données sur la corruption dans les marchés publics en France, il ne s’agit cependant pas de ce qu’on appelle des Big Data, et nous la traiterons via des outils traditionnel.

  • Livrables : rapports finaux, base de données d’annonces de marchés publics.
  • Indicateurs de réussite : publication scientifiques.
  • Partenaires impliqués : LIA, LBNC, Datactivist.

Tâche 1.2 : Collecte des données juridiques

Comme déjà mentionné, un cas de fraude peut être jugé de façon pénale ou administrative. De ce fait, la collecte de données juridiques va inclure des sources multiples, notamment Legifrance (données ouvertes juridiques), qui contient des décisions de justices décrites textuellement, en langage naturel, et qui plus est en termes légaux. Une fois ces données collectées, il sera nécessaire d’effectuer un travail d’identification, afin d’associer un jugement donné à une annonce de marché public spécifique. Même si ces données juridiques sont partiellement anonymisées, les noms de l’organe public et de l’entreprise concernés, ainsi que la date, restent accessibles. Cela nous permettra de récupérer des données brutes, que nous complèterons via des sources secondaires (en particulier la presse), exploitées avec l’aide de Transparency International France. Outre son utilité relativement au WP 2, cette collecte de données est intéressante en elle-même. Elle permettra de réaliser les premières études exhaustives sur la fraude et la corruption dans les marchés publics français, dans les domaines du droit et de l’économie. Datactivist adaptera et affinera des systèmes de TALN (traitement automatique du langage naturel) afin qu’il puisse traiter les données primaires (juridiques) et secondaires (presse). Ce traitement permettra une analyse plus rapide et plus poussée des documents collectés. À la fin de cette tâche, nous organiserons un symposium afin de réunir des spécialistes du droit des marchés publics, dans le but de partager leur analyse des décisions de justices relatives à ce domaine. Cette tâche sera principalement réalisée par le CRA, Datactivist et le LBNC.

  • Livrables : base de données de fraudes dans les marchés publics.
  • Indicateurs de réussite : publications scientifiques.
  • Partenaires impliqués : LBNC, CRA, Datactivist.

Tâche 1.3 : Sondage d’opinions expertes et données alternatives

Pour contrôler les risques liés au projet,  un sondage sera mené auprès d’experts (magistrats, auditeurs des chambres des comptes régionales…) dans le but de collecter leur opinion à propos d’un échantillon de cas potentiellement délictueux. La comparaison entre cette opinion experte et les données permettra d’améliorer notre vérité terrain. Cela permettra aussi d’augmenter la quantité de cas intermédiaires (pas formellement jugés délictueux mais très suspects) si la Tâche 1.2 n’est pas menée à bien de façon satisfaisante. La Tâche 1.3 sera réalisée principalement par le LBNC et, plus secondairement,par le CRA and Datactivist. En même temps, pour limiter les risques relatifs aux données et fournir un contexte de comparaison, nous collecterons des corpus alternatifs. En effet, même si la méthode proposée dans le cadre de DeCoMaP est nouvelle, des travaux proches ont déjà été menés sur des données comparables mais issues d’autres pays. D’un point de vue informatique, cela nous fournira, au début du projet, des données prêtes à l’emploi, permettant de tester nos hypothèses méthodologiques sans attendre les résultats de la Tâche 1.2. D’un point de vue juridique et économique, cela nous donnera la possibilité de comparer les pratiques entre pays sujets aux mêmes contraintes légales (membres de l’UE) ou à des lois différentes. À la fin de cette tâche, un atelier international sera organisé afin de réunir des chercheurs travaillant sur ces problèmes et/ou données. Il nous permettra de discuter des mérites relatifs de nos méthodes relatives. Ceci sera utile, par la suite, pour la Tâche 2.3. La Tâche 1.2 impliquera tous les partenaires du consortium.

  • Livrables : rapport de l’atelier.
  • Indicateurs de succès : publications scientifiques.
  • Partenaires impliqués : LIA, LBNC, CRA, Datactivist.

Tâche 1.4 : Analyse descriptive et données manquantes

Le premier objectif de cette tâche est d’effectuer une analyse descriptive de la base de données constituée lors des Tâches 1.1 et 1.2 (et/ou en utilisant les données alternatives de la Tâche 1.3). Nous  mènerons deux types d’analyse économétriques. Tout d’abord, nous considèrerons les déterminants des achats connectés localement et/ou politiquement (ceci peut être considéré comme des indices indirects de fraude). De plus, sur la base de la théorie de la corruption, nous utiliserons les descripteurs les plus répandus pour prédire la corruption afin de tester si les sous-groupes divergent statistiquement en termes de niveau de corruption, et si les sous-groupes avec de nombreux cas frauduleux indiquent clairement un problème sous-jacent. Ces résultats nous permettrons de faire des recommandations en ce qui concerne les politiques visant à diminuer le risque de corruption. En particulier, en structurant nos données selon le standard de l’Open Contracting Data, nous pourrons utiliser les red flags levés par cet organisme pour identifier la fraude dans les données collectées. Ceci nous fournira un benchmark utile pour tout le reste du projet. Nous effectuerons également une analyse de clusters (classification non-supervisée) afin d’estimer plusieurs typologies pour ce qui concerne les acheteurs, fournisseurs, et annonces. En utilisant des méthodes interprétables telles que les arbres de décision, nous identifierons les profils caractéristiques des clusters obtenus. Ces typologies seront utilies pour 1) mieux comprendre notre base de données ; 2) fournir une variable d’entrée supplémentaire aux méthodes de classification utilisées dans les Tâches 2.1 et 2.1 ; et 3) faciliter et améliorer l’interprétation des résultats issus de la détection de fraude durant le WP 3. Nous exploiterons également notre vérité-terrain pour croiser ces clusters et étudier comment les cas frauduleux y sont distribués (sont-ils concentrés dans certains clusters ?).

Le deuxième objectif sera d’analyser les cas de données manquantes, en recherchant des motifs caractéristiques de données dont l’absence peut être accidententelle comme intentionnelle, et en recoupant différentes sources de données similaires (par exemple, BOAMP, DECP et SIRENE LD). Les outils de classifications développé lors du WP 2 seront mis à contribution pour exploiter ce type de motifs.

Le troisième objectif est de développer un modèle théorique combinant théorie des enchères, droit et économie (en évaluant les bénéfices en termes de déviation d’attribution de contrat vs. risques légaux associés). En comparant les résultats théoriques obtenus à la Tâche 1.2, cela rendra possible d’identifier le risque de sous-représentation de certains types de fraude dans les cas jugés (en faisant l’hypothèse que certaines pratiques ne sont pas poursuivies légalement).

  • Livrables : rapports partiel et final.
  • Indicateurs de réussite : publications scientifiques.
  • Partenaires impliqués : CRA, LBNC, Datactivist.