PREDICT THE PARLIAMENT – prédiction des résultats des élections législatives

par Mohamed AL ANI, Davy BENSOUSSAN, Alexandre BREHELIN, Bertrand de VERICOURT, Raphaël VIGNES

Dans la continuité du projet “Predict The President”, qui nous a amené à proposer une modélisation du premier tour de l’élection présidentielle, nous nous sommes penchés cette fois-ci sur les élections législatives. Le sujet d’étude est particulièrement difficile, mais nous avons tenu à aller au bout de l’exercice en proposant une prévision des résultats à une maille très fine.

Nous modélisons ainsi le scrutin pour l’ensemble des 577 circonscriptions en utilisant des méthodes mathématiques d’apprentissage automatique (machine learning) et en nous basant sur de l’Open Data, c’est-à-dire des données ouvertes et accessibles au grand public.

Il va de soi que nous ne pouvons pas prédire correctement tous les futurs députés: il ne suffit pas d’écrire des formules mathématiques ou des lignes de code informatique pour pouvoir retranscrire fidèlement la réalité du terrain, mais nous espérons arriver à capter les tendances de cette élection qui s’annonce passionnante à bien des égards.

Une nouvelle donne politique

Le contexte actuel est propice à la recherche de nouvelles façons d’analyser la politique en France : l’élection du président Macron a bousculé le paysage politique en cassant le clivage traditionnel gauche-droite. Cette nouvelle donne permettra-t-elle au président d’obtenir la majorité absolue à 289 sièges ?

Les sondages anticipent également un score élevé des candidats Front National, compte tenu de la présence de Mme Le Pen au second tour de la présidentielle et de l’affaiblissement anticipé du “front républicain”. Le cas du Parti Socialiste risque aussi d’être riche en enseignements avec une déroute annoncée suite à la fuite de son électorat vers la République En Marche ou vers le parti de la France Insoumise. Ce dernier a des chances d’avoir un nombre historiquement élevé de députés si l’on se fie aux résultats de l’élection présidentielle. L’alliance des Républicains et de l’UDI a quant à elle de bonnes chances de représenter la première force d’opposition à l’Assemblée.

Qui est capable de dire ce qui va se passer aux soirs du 11 et 18 juin ? Personne ! Mais cela ne nous empêche pas de nous prêter au jeu des prévisions.

36 919 candidats depuis 1997

Pour cela, nous avons dans un premier temps compilé toute une variété de données que l’on peut trouver librement et gratuitement sur internet.

Le site du ministère de l’intérieur met à disposition les historiques de vote. Nous avons ainsi récupéré les données de vote des quatre élections législatives précédentes (1997, 2002, 2007, 2012), la liste des candidats qui se présentent cette année, ainsi que les données des élections présidentielles depuis 2002. Cela représente au total 36 919 candidatures pour lesquelles nous disposons du nombre de voix obtenues.

Cette “matière première” nous a permis de constituer des variables plus élaborées pour les candidats : appartient-il à la majorité présidentielle, s’agit-il d’un député sortant, le score de son groupe politique à la présidentielle qui précède l’élection législative, a-t-il déjà accédé à un second tour par le passé ou encore la force des candidats concurrents dans sa circonscription.

Outre les données politiques, nous avons récupéré sur le site de l’INSEE des données sociales et économiques à la granularité du département : les taux de chômage, des données sur la population active (répartition par niveau d’études et par type d’emploi), les revenus des ménages, etc.

En agrégeant ces données, nous constituons un profil historique pour chacun des candidats.

Un mélange de modèles

En premier lieu, nous cherchons à estimer le score de tous les candidats, ce qui nous permet de déterminer les qualifiés pour le second tour, en repérant notamment d’éventuelles triangulaires et majorités absolues. Ce n’est qu’ensuite, à partir de ces prévisions, que nous simulons le second tour pour prédire le vainqueur de la circonscription. Notons toutefois que nous passons directement au second tour pour les circonscriptions des Français de l’étranger puisque le premier tour a déjà eu lieu.

Les techniques de modélisation que nous utilisons sont de l’ordre de l’apprentissage supervisé, cette catégorie d’algorithmes qui nécessitent qu’on les nourrisse de données d’exemple pour en déduire des liens de cause à effet ou des corrélations pour pouvoir reproduire ces liens sur des données nouvelles.

Pour coder nos algorithmes, les adapter et optimiser leurs paramètres, nous les testons en nous plaçant à la veille des élections législatives de 2012 et regardons alors la pertinence des résultats prédits par rapport aux résultats réels. Nous obtenons ainsi une précision de 80% sur les sièges que nous prédisons à l’Assemblée sur 2012. Nous faisons ensuite apprendre notre algorithme sur l’ensemble des données disponibles afin d’effectuer la prédiction finale.

Pour le premier tour, notre choix s’est porté sur une combinaison de 3 modèles mathématiques du Machine Learning. Trois modèles, pour que les forces des uns compensent les faiblesses des autres.

Une France kaléidoscopique

La carte ci-dessous présente le candidat arrivé en tête du 1er tour selon notre algorithme, dans chacune des 577 circonscriptions.

Les circonscriptions potentiellement disputées via une triangulaire ou gagnées au premier tour sont mises en évidence par un contour blanc. Notons que notre algorithme prévoit un seul cas de qualification dès le premier tour, celle de Thierry Solère, dans la 9ème circonscription des Hauts-de-Seine.

Nous avons également représenté ci-dessous le nombre de candidats maintenus au second tour, classés par force politique. La longueur de la barre représente la proportion des candidats arrivant à se maintenir au second tour. Le dégradé de couleur indique si les candidats sont arrivés en tête, deuxièmes ou troisièmes pour les cas des triangulaires.

Par exemple, selon notre algorithme le FN arriverait à maintenir 115 candidats au second tour, ce qui représente 20% des candidats initialement investis, et dont une bonne partie arrive en deuxième position lors du premier tour.

Les grands gagnants du premier tour semblent être le Modem et la République en Marche qui qualifient la majeure partie de leurs candidats pour le second tour. L’alliance Les Républicains – UDI s’en sort relativement bien, à l’instar du Parti Socialiste dont les résultats ne sont pas aussi catastrophiques qu’annoncé. Le Front National aurait pu espérer mieux, surtout en termes de candidats arrivant en tête. Au rang des déceptions, la France Insoumise ne capitalise pas pleinement sur le score encourageant de M. Mélenchon à la présidentielle, et Debout La France ne parvient à placer qu’un seul candidat au second tour : M. Dupont-Aignan lui-même.

Un vote régionalisé

Changeons de perspective pour repérer les disparités régionales. La série de cartes qui suit fait un focus sur les candidats qualifiés pour le second tour, pour un parti (ou une alliance) donnée.

France Insoumise

Alliance EELV – Radicaux de Gauche – PS

Alliance MoDem – République en Marche

Alliance UDI – LR

Front National


La prévision du second tour

Pour le second tour, nous avons établi un algorithme qui attribue à chaque candidat une probabilité d’être élu, en tenant compte de plusieurs facteurs tels que la configuration du scrutin (duel ou triangulaire), des partis en présence ou encore des potentiels reports de voix par rapport au premier tour. Sur la carte ci-dessous nous représentons les couleurs des candidats qui ont le plus de chances de remporter leur circonscription, compte tenu de notre prédiction initiale.

En projetant ces résultats sur l’hémicycle de l’Assemblée, voici ce que nous obtenons :

 

Parti Sièges prédits Parti Siège prédits
La République En Marche 278 Ecologistes 5
Les Républicains 106 Front National 5
Parti Socialiste 64 Les Radicaux de Gauche 3
Mouvement Démocrate 45 Parti Communiste 3
La France Insoumise 33 Divers Droite 2
Union des Démocrates Indépendants 17 Divers 1
Divers gauche 14 Régionalistes 1


La République En Marche, en tête, rassemblerait 278 places à l’Assemblée et disposerait de la majorité grâce à son alliance avec le MoDem (45 sièges), suivie de loin par les Républicains et le Parti Socialiste. Notons également le faible nombre de sièges du Front National.

Limites du modèle

Comme nous l’avons rappelé au début de l’article, le machine learning ne relève pas de la magie. Le terme “prédiction” ici ne renvoie pas à ce qui va se passer, mais à ce qui pourrait se passer selon un modèle construit à partir des données historiques. L’algorithme cherche à comprendre la dynamique d’un système.  En se fondant sur l’historique des votes, ses prévisions transposent la tendance passée dans le contexte actuel. Mais il s’agit bien d’une limite, car si des changements profonds dans les comportements surviennent cette année, il ne sera pas en mesure de s’y adapter.

Par ailleurs, l’abstention est une difficulté supplémentaire pour le modèle. Son poids influe sur les élections, notamment sur le nombre de triangulaires. Pour qu’il y ait trois qualifiés au second tour dans une circonscription, ceux-ci doivent en effet récolter plus de 12,5% des voix des inscrits sur les listes électorales (et non des votants). Une forte abstention limite donc les possibilités de triangulaire. Pour effectuer notre simulation, nous avons fait le choix de supposer que l’abstention de 2017 serait égale à celle de 2012.

Focus sur les circonscriptions “chaudes”

  • Jean-Luc Mélenchon investi dans la 4e circonscription de Marseille est dans un territoire qui lui est favorable : il y a réalisé son meilleur score à la présidentielle. Il l’emporterait selon notre algorithme face à Patrick Menucci au second tour.
  • Marine Le Pen se présente dans la 11e circonscription du Pas-de-Calais. Profitera-elle de son second tour à la présidentielle sur une terre acquise à sa cause ? Elle perd de peu selon notre modèle (48 % des voix contre 52 % au second tour face à Philippe Kemel, candidat PS).
  • Gilbert Collard, lui, serait réélu dans la 2e circonscription du Gard.
  • Benoit Hamon, dans la 11e circonscription des Yvelines contribuera-il à la déroute annoncée du PS ? Non, d’après notre algorithme, il l’emporte de peu face au candidat de la République En Marche.
  • Manuel Valls en campagne dans la 1ere circonscription de l’Essonne, transfuge du PS non investi par la République En Marche pourra-t-il bénéficier de son ralliement à la majorité ? Nous prévoyons une victoire d’une courte tête face à la candidate de la France Insoumise Farida Amrani.
  • Axelle Lemaire dans la 3e circonscription des Français de l’étranger en mauvaise posture au premier tour est donnée très largement perdante au deuxième face au candidat de la République En Marche Alexandre Holroyd.
  • Le ministre de la cohésion des territoires Richard Ferrand, dans la tourmente suite aux révélations du Canard Enchaîné, parviendrait tout de même à remporter la 6ème circonscription du Finistère
  • Bruno Le Maire, le ministre de l’économie joue son mandat dans la 1ère circonscription de l’Eure : une défaite le forcerait à démissionner du gouvernement. Nous pronostiquons une large victoire face à la candidate du Front National Fabienne Delacour.
  • Myriam El Khomri, investie par le PS dans la 18e circonscription de Paris pourra-t-elle accéder à l’Assemblée malgré l’absence de candidat REM investi ? Notre modèle ne la voit pas se qualifier pour le second tour.
  • Cédric Villani, le candidat de la République En Marche sur le plateau de Saclay résoudra-t-il l’équation de la victoire à l’élection ? Il est donné gagnant par notre algorithme.
  • Nathalie Kosciusko-morizet, qui reprend le fief de François Fillon, est concurrencée par le candidat REM Gilles Le Gendre. Notre modèle lui donne cependant une victoire assez large au second tour.
  • Thierry Solère dans la circonscription des Hauts-de-Seine serait potentiellement élu dès le premier tour en bénéficiant d’une majorité absolue.
  • Christophe Castaner le Secrétaire d’état chargé des relations avec le parlement met son mandat en jeu dans la 2e circonscription des Alpes de Haute Provence. Nous lui prédisons une victoire au second tour.

En conclusion, nous prévoyons bien la majorité absolue pour En Marche et le Modem, mais avec un nombre de siège moindre que ce qui est annoncé par les sondages. Les républicains deviendraient la première force d’opposition et le Parti Socialiste serait le grand perdant de l’élection. En outre, le Front National ne parviendrait pas à constituer un groupe parlementaire, a contrario de la France Insoumise.

Réponse définitive les 11 et 18 juin prochains !

Leave a Reply

Your email address will not be published. Required fields are marked *