PREDICT THE PRESIDENT – Quand le Big Data rencontre sondages et réseaux sociaux

par Mohamed Al Ani, Alexandre Brehelin

Entre Emmanuel Macron qui ne se revendique ni de droite ni de gauche ni du centre, la montée en flèche des extrêmes de Marine Le Pen et Jean-Luc Mélenchon et le Parti Socialiste de Benoît Hamon au plus bas dans les sondages, les élections présidentielles de 2017 sont un réel casse-tête.

Casse-tête que nous avons tenté de résoudre en modélisant les élections mathématiquement en vue d’en prédire le résultat.

Evidemment, qui dit prédiction pense à sondage d’opinion. Les sondages, qui ont longtemps régné en maître du domaine, ont plusieurs fois montré leurs faiblesses. Ceux-ci avaient notamment donné Hillary Clinton largement vainqueur contre Donald Trump. Beaucoup ont remis en cause les sondages, expliquant que cet outil était dépassé et qu’aujourd’hui les outils mathématiques et statistiques du Big Data ainsi que la démocratisation du partage de l’opinion grâce aux réseaux sociaux laissent bien moins de place à l’erreur.

Faut-il complètement oublier les sondages ? à cette question, nous répondons non. Les sondages montrent certes des incertitudes et des marges d’erreur mais ils décrivent tout de même une tendance, et détiennent une information qui n’est pas à négliger.

Que se passerait-il si nous combinions Big Data d’internet, données socio-démographiques et économiques, et sondages pour tenter de prédire le prochain président français ?
C’est l’idée que nous avons cherché à approfondir.

Chercher une évolution historique des votes

La question à se poser est la suivante : Qu’est ce qui peut influencer un vote ? Au delà de l’aspect personnel de chaque citoyen que nous ne pouvons pas décrire, nous tentons de décrire une tendance de vote plus globale, à la granularité départementale. Regardons une carte des votes pour François Hollande au second tour de la présidentielle de 2012 :

Nous remarquons une certaine scission de la France. L’Est semble beaucoup moins à gauche que le Sud-Ouest. La Bretagne quant à elle semble partisane de la gauche, au contraire de la Corse. On observe ainsi un vote territorial.

Nous pouvons aussi observer les votes parisiens en fonction du temps :

Presque toujours à droite, le département parisien semble allergique à l’extrême droite, qui perd en popularité au cours du temps.

En plus d’un vote territorial, il semble y avoir un vote dépendant du temps. Le problème à résoudre est le suivant : par quelles variables sont dictées les votes temporels et territoriaux ?

Passons de l’analyse à la modélisation

L’Open Data est aujourd’hui une mine d’or. Les données du Web, de l’INSEE et de data.gouv ont une valeur certaine pour notre étude. Ce sont les données que nous avons utilisées pour notre prédiction.

L’objectif est alors de déterminer le résultat du premier tour par département, grâce à des données temporelles et départementales. Le modèle que nous présentons repose sur plusieurs hypothèses, à savoir :

  • l’hypothèse que les électeurs peuvent être regroupés en 4 catégories distinctes :
  • Les électeurs du bloc de Gauche (gauche et extrême gauche qu’on regroupe pour des raisons de performance de modèle)
  • Les électeurs du bloc du Centre
  • Les électeurs du bloc de la Droite
  • Les électeurs du bloc de l’Extrême Droite
  • L’hypothèse qu’Emmanuel Macron est situé dans le bloc de Gauche.
  • L’hypothèse que le vote départemental peut être expliqué par des données sociales, démographiques et économiques.
  • L’hypothèse que la géographie des départements ainsi que les votes des élections passés dans les départements ont une influence sur les votes de 2017. On regroupe les départements en plusieurs catégories : les partisans des blocs qui votent à chaque élection pour un bloc en particulier, les départements dissidents qui votent à l’opposé de la tendance nationale, le bloc du président de département et la persistance de celui-ci.

Cette année, contrairement à toutes les élections précédentes, il n’y a pas de candidat du centre. Ou du moins, aucun candidat qui a les mêmes caractéristiques que les candidats historiques du centre. Nous modélisons alors un vote du centre, en imaginant le cas de figure où François Bayrou ou un autre candidat du centre se présenterait. Les voix prédites pour le centre seront par la suite distribuées entre les candidats.

À partir de ces données, nous utilisons des modèles de Machine Learning et d’économétrie qui nous permettent de déterminer un taux de vote pour chacun des blocs.

Voici le résultat de l’algorithme :

23.5% pour l’extrême droite de Marine Le Pen, 40.1% pour le bloc de Gauche, 26% pour la Droite et 10.4% pour le Centre hypothétique.
En testant cet algorithme sur 2012, nous avons trouvé une marge d’erreur moyenne de +/- 2.5% pour chacun des blocs.

Notre modèle permet donc d’estimer le réservoir de vote pour les grands blocs électoraux français, en omettant la personnalité du candidat. Par ailleurs, ceux-ci n’apportent pas un éclairage sur les résultats potentiels, et doivent prendre en compte l’aspect personnifié du vote. Pour cela nous devons départager les blocs entre les candidats de chacun d’entre eux.

Nous utiliserons trois sources de données pour départager ces blocs (les sondages, Twitter et Google).

Certain instituts de sondage (Ifop, Ipsos, Elabe) expliquent les intentions de vote en demandant aux sondés pour qui ils avaient voté en 2012. Pour partager les voix qui seraient allées au Centre, nous utilisons une agrégation de ces sondages et la distribuons aux candidats. Pour exemple, Macron récupère ainsi 46% des voix du Centre, Fillon en récupère 20% alors que Le Pen n’en récupère que 6%.

Départager en utilisant les sondages

Pour départager chacun des candidats dans les blocs, nous pouvons utiliser les intentions de votes données par les sondage. Pour cela, nous agrégeons le résultats des sondages des 3 derniers jours (voir le sondage des sondages du Point.fr : www.lepoint.fr/presidentielle) et nous obtenons la prédiction suivante :

Marine Le Pen, en tête avec 24.13% des voix l’emporterait avec presque deux points d’avance sur le deuxième meilleur. En dessous, nous observons un duel serré entre François Fillon et Emmanuel Macron. Jean-Luc Mélenchon et Benoît Hamon perdent quant à eux quelques points comparé aux sondages.

Notre modèle ayant été construit à la granularité départementale, on peut faire le même travail dans chaque département. Ainsi, on peut estimer le gagnant potentiel dans chacun des départements de la France Métropolitaine.

A noter : Nos cartes prédisent Fillon vainqueur d’un département avec un bleu clair, Marine Le Pen avec un bleu foncé, et la dernière couleur, le rose, prédit la victoire du bloc de gauche.

Il est important de remarquer au travers de cette prédiction que Marine Le Pen est la candidate remportant le plus de département. Le bloc de gauche semble quant à lui remporter davantage de départements que François Fillon.

Ces départements roses pourraient être remportés par Jean-Luc Mélenchon, Emmanuel Macron ou Benoît Hamon. On peut estimer en moyenne la probabilité de gain d’un département à gauche : 44% pour Emmanuel Macron, 16% pour Benoît Hamon, et 36% pour Jean-Luc Mélenchon.

Twitter, le réseau social de l’opinion politique ?

Selon un sondage Harris Interactive, 73% des utilisateurs de Twitter déclarent avoir un intérêt pour la politique, contre 63% des internautes (source). Entre les candidats eux-même, les médias, les personnalités ou les simples férus de politique, Twitter est devenu le repère principal du partage de l’opinion politique.

L’idée ici, est de pondérer nos blocs en mesurant les opinions politiques positives des utilisateurs uniques d’un échantillon. Nos camarades qui travaillent aussi sur ce projet Predict The President ont alors procédé à une collecte de tweets du 10 au 15 avril 2017 (dont 26000 tweets purement positifs et ne mentionnant que le candidat concerné) sur lesquels ils ont appliqué l’algorithme mesurant le sentiment (Méthode de Sentiment Analysis, voir l’article : http://hashtagmonde.com/2017/04/12/pour-qui-vote-le-peuple-twitter/).

En mesurant le nombre de tweets positifs pour chacun des candidats, nous parvenons à la répartition suivante :

François Fillon, très populaire sur le réseau social est à presque égalité avec la candidate du Front National. La polémique #PénélopeGate n’aurait pas eu raison de lui sur Twitter. Emmanuel Macron est lui presque 4 points derrière. Le réseau social laisse cependant très peu de place aux “petits candidats”, ceux-ci récoltent très peu de sentiments positifs. Cela ne veut pas dire que les tweets les mentionnant sont tous négatifs : ils peuvent aussi être neutres.

Regardons la carte des prédictions :

 

Les fiefs de gauche se situent toujours à l’Ouest, mais sont par ailleurs nettement moins nombreux. On observe notamment un gain plus important de départements de la part de François Fillon, avec des victoires dans des départements précédemment remportés par la gauche. Il est important de remarquer que les départements victorieux de Marine Le Pen restent assez stable, ce qui renforce l’idée d’une base électorale forte et déterminée.

Avec les données Twitter, les probabilités de gain des départements de gauche sont de 40% pour Emmanuel Macron, de 17% pour Benoît Hamon, ou encore de 39% pour Jean-Luc Mélenchon.

Les recherches Google, un reflet du vote français ?

Doit-on parler de good buzz et de bad buzz ou simplement de buzz ? L’un des rares indicateurs à avoir prédit la victoire de Donald Trump était bien Google. Le nombres de recherches sur le moteur de recherche était bien supérieur à celui de Hillary Clinton. Et c’est le cas pour plusieurs autres élections (voir ici : https://www.contrepoints.org/2016/08/17/252984-google-peut-il-predire-le-resultat-des-presidentielles-de-2017 et cette étude réalisée par nos collègues : http://www.lepoint.fr/presidentielle/primaire-de-la-gauche-et-le-vainqueur-designe-par-twitter-et-google-est-29-01-2017-2100895_3121.php#xtor=CS2-239 )

Ces exemples semblent montrer que plus il y a de recherches Google pour un candidat, plus cela favorise la victoire de celui-ci. Et si nous pondérions nos blocs par le nombre de recherches Google pour chacun des candidats ?

C’est ce que nous avons tenté ! En pondérant avec le nombre de recherches Google pour chacun des candidats sur la période du 10 au 15 avril, nous trouvons les prédictions :

Marine Le Pen, toujours en tête est cette fois-ci presque rattrapée par Jean-Luc Mélenchon qui semble faire le buzz sur Google.

Nous constatons aussi que ce modèle laisse beaucoup plus de place aux “petits candidats”. Notamment François Asselineau et Philippe Poutou qui gagnent des points par rapport aux autres modèles.

Le plus étonnant ici est Benoît Hamon qui n’est qu’à 1.77%. Le candidat du parti socialiste serait très peu “populaire” sur Google…

Comme pour les cartes précédentes, on observe une scission entre l’est et l’ouest. On note également, encore une fois, la stabilité des départements remportés par l’extrême droite.

Avec les données Google, les probabilités de gain sont de 33% pour emmanuel Macron, de 3% pour Benoît Hamon, ou encore de 64% pour Jean-Luc Mélenchon.

Cette différences entre la carte issue de Google, et celle issue de Twitter, marque également la différences de stratégie digitale et de présence sur les réseaux entre la droite et la gauche.

L’analyse de ces trois cartes permet de dégager des départements dont le résultat semble acté et des départements dont le basculement à gauche ou à droite n’est pas joué. Les départements du sud-est de la France semblent définitivement acquis au Front National, alors que les départements de la Vallée de la Loire et du Centre semblent hésiter entre le bloc de gauche et François Fillon.

Et si nous combinions les 3 approches ?

Notre prédiction finale est celle qui combine Google, Twitter et les sondages d’opinion. Voici les résultats :

Notre prédiction finale, toujours selon les hypothèses de modélisation que nous avons formulées, donne un duel entre Marine Le Pen et François Fillon au second tour.

Mais rien n’est encore joué : Emmanuel Macron ne reste qu’à 1 point et demi de son rival de droite.

Avec les trois approches combinées, les probabilités de gain sont de 38% pour Emmanuel Macron, de 12% pour Benoît Hamon, ou de 44% pour Jean-Luc Mélenchon.

Machine Learning, réseaux sociaux et Open Data, la bonne solution pour prédire des élections ?

        Quelques précautions…

L’algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises. D’autres variables entrent certainement en compte dans les choix de vote des citoyens.

Sur Twitter, un tweet dégageant un sentiment positif ne signifie pas systématiquement une intention de vote mais une quantité assez grande de tweets peut nous permettre d’être assez confiant sur le sentiment moyen par candidat dégagé par le réseau social.

        …Mais des résultats qui semblent cohérents

Les cartes des départements montrent une certaine cohérence comparé aux résultats de 2012, notamment la scission Est/Ouest que nous avions pointé.

Les trois approches de pondération que nous avons expliquées dégagent certes des erreurs, mais nous espérons les compenser entre elles en appliquant la moyenne dans notre prédiction finale.

Les résultats semblent cependant assez loin de ceux donnés par les sondages qui donnent Emmanuel Macron grand vainqueur. On peut alors se demander : un duel Le Pen – Fillon au second tour ? Wait and see

L’équipe PREDICT THE PRESIDENT

One Comment Add yours

  1. Lucile says:

    Serait-ce possible maintenant de faire une analyse à postériori ? En l’occurence, qu’est-ce qui n’a pas marché ? En tout état de cause, les estimations produites n’ont pas grand chose à voir avec la réalité, quels ont donc été les facteurs d’erreur ?
    Merci du partage de l’analyse que vous n’avez sans doute pas manqué de faire

Leave a Reply to Lucile Cancel reply

Your email address will not be published. Required fields are marked *