PREDICT THE PRESIDENT – le Big Data reste dans la course

Les cinq étudiants du projet “Predict The President” reviennent sur leur méthode après les résultats du premier tour des présidentielles 2017. Leur modèle réalisé dans le cadre de la formation du Mastère Spécialisé Big Data de Télécom ParisTech a tourné pour la 1ere fois en conditions réelles à cette occasion. Ils exposent les limites et pistes d’amélioration de leur modèle ainsi que les atouts de leur démarche.

par Bertrand de Véricourt

Le 18 avril 2017, LePoint.fr publiait notre prédiction du 1er tour des élections présidentielles valable au 15 avril, dans le cadre d’un projet étudiant : nous souhaitions en effet explorer la piste des Big Data pour expérimenter de nouveaux angles méthodologiques par rapport aux estimations traditionnelles. Nous avons ainsi élaboré une modélisation du paysage électoral français en intégrant des données socio-démographiques sur plusieurs années au niveau départemental afin d’estimer les réservoirs de voix des grandes familles politiques ;  nous avons ensuite ajusté les scores en croisant des données issues d’internet et les intentions de vote mesurées par les différents instituts de sondage dans le but de capter les tendances en temps réel sur les candidats. Les données du web incluaient le volume des recherches sur Google et le sentiment exprimé dans les tweets.

Cette méthode, expérimentale, avait pour vocation d’étudier les apports des différentes méthodes en les combinant.

Une 1ère estimation a été produite pour le 15 avril, et une seconde pour le 21 avril.

Le résultat du 1er tour des élections est désormais connu et nous pouvons dresser un bilan de notre modèle. Les tendances exprimées par ce modèle “big data” ne se sont pas révélées exactes mais ont apporté toutefois une réelle tendance ….

Prédiction fournie intégrant les données jusqu’au 15/04/2017

Prédiction intégrant les données jusqu’au 21/04/2017

L’algorithme que nous avons développé a présenté des faiblesses – son résultat au 15 avril n’ayant pas su prédire le second tour E. Macron / M. Le Pen – mais il a montré des qualités encourageantes pour l’avenir.

Outre le fait que notre score pour B. Hamon soit plus proche de la réalité que celui donné par les sondages, la mise à jour de l’algorithme a donné des résultats intéressants.
Ainsi, les tendances qu’il exprime sur la dernière semaine avant le vote sont confirmées par l’urne : une nouvelle estimation effectuée au plus proche de la date du 1er tour intégrait des données plus fraîches, allant jusqu’au 21 avril au soir, et suggérait un duel E. Macron / M. Le Pen au deuxième tour.

NB : nous avions également fait une estimation donnant cette tendance le vendredi matin en prenant les données allant jusqu’au jeudi soir; elles devraient être diffusées sur Canal+ samedi 29/04.

Voyons maintenant les critiques à faire sur la méthode, et les pistes de réflexion.

Les résultats du 1er tour

L’approche par bloc politique est-elle validée?

D’abord, l’approche économétrique qui donne une première estimation des grands blocs politiques souffre du fait que les couleurs politiques des candidats sont difficiles à classer dans l’historique des résultats.

Toutefois, E. Macron, que nous avions classé au centre gauche (i.e. dans le bloc de gauche mais avec 46% des voix du bloc du centre), obtient un résultat électoral finalement très proche de l’estimation que nous avons réalisée le vendredi 21.

En revanche, notre estimation sur le score de M. Le Pen s’est avérée de moindre pertinence ; elle reposait presque uniquement sur l’historique du vote pour cette “dynastie” de candidats. Notre modèle, comptant un seul candidat pour le bloc d’extrême droite traditionnelle, a peiné à prendre en compte les variations dans les sondages, recherches Google et sentiment Twitter du vote FN.

Ici, les pistes de réflexion amènent à considérer à l’avenir un modèle plus complexe permettant les transferts de voix d’un bloc à l’autre.

Les sondages

La modélisation par bloc politique reflétait suffisamment la réalité pour ne pas diminuer la pertinence des sondages . De même, le croisement avec les données Google et Twitter rend encore compte ou presque de l’ordre réel des candidats après scrutin.

Sentiment Twitter

Les tweets anti-F. Fillon étaient très nombreux et ont en réaction généré beaucoup de tweets positifs, ce qui a certainement surévalué les points pour ce candidat dans notre modèle. Il y a possiblement ici un biais lié aux utilisateurs (voir notre article sur le peuple Twitter) mais aussi au contexte qu’il faudrait considérer.

Notre approche des données de Twitter doit également être améliorée sur l’estimation du vote mélenchoniste notamment, passé de plus de 18% à moins de 16% entre le début et la fin de la semaine de vote.

L’influence de Twitter sur les scores de notre modèle de prédiction est donc la partie qui va demander le plus d’attention, que ce soit sur le choix de l’indicateur, les réactions aux annonces, la détection de robots ou de militants trop actifs ainsi que sur le poids relatif de cette approche dans le résultat final.

Volume Google

Twitter est sensible à l’opinion, ce qui est intéressant mais n’est pas l’intention de vote… et le volume de recherches Google concerne plus de personnes mais est, pour le coup, insensible à l’opinion. Il ne trie pas les questions selon les sujets, et sera donc lié à l’actualité autant qu’à un questionnement de fond : “Pourquoi vais-je voter pour lui/elle ?”

Les petits candidats en profitent donc et sont surestimés, tout comme les extrêmes.

Parmi les pistes de travail sur le sujet, nous réfléchissons à une étude des séries temporelles : plutôt que de prendre les volumes, on regarderait surtout le comportement des courbes de ces volumes.

Conclusion

Notre approche expérimentale a pour objectif d’être simple et donc interprétable. Notre modèle, hybride, permet de comparer les impacts de chacune de ses composantes.

Le résultat sans  être optimal du point de vue prédictif, est toutefois assez intéressant : nos chiffres finaux sur E. Macron et B. Hamon notamment sont précis : malgré la très grande proximité des scores, il y a peu d’inversions dans l’ordre des candidats; nous avions toutefois une plus grande fiabilité et  un écart de prédiction absolu plus faible que la semaine d’avant.

Pour y arriver, il existe de multiples pistes : un meilleur paramétrage des blocs politiques incluant peut-être le transfert entre blocs, l’amélioration de la détection de robots, l’optimisation de l’algorithme d’analyse de sentiments, l’ajustement du poids de Twitter, le lissage des volumes Google, l’usage de nouveaux indicateurs…

Comme nous avons pu le voir, les sondages d’intention de vote se sont avérés être d’une excellente qualité pour ce scrutin. Toutefois, sur d’autres scrutins comme les primaires, les élections US, le big data peut enrichir la vision donnée par les sondages.

Quel éclairage peut apporter le big data pour le second tour ?

Ce qui nous importe maintenant, c’est de continuer notre projet et d’améliorer nos algorithmes.

Notre modèle expérimental doit s’appuyer sur un historique de données assez conséquent pour être pertinent, alors qu’il n’y a historiquement qu’une seule configuration où le Front National a été au second tour, en 2002.

Il nous sera en revanche possible d’étudier en temps réel les dynamiques en oeuvre sur les réseaux sociaux, dont les tendances s’étaient montrées révélatrices sur la Primaire de la Gauche.

La prise en compte des données issues du web ou de l’open data est déjà envisagée par certains instituts de sondage traditionnels, et nous espérons que cette jeune discipline, passés les premières applications expérimentales, trouvera sa place parmi les autres outils reconnus aujourd’hui.

Leave a Reply

Your email address will not be published. Required fields are marked *