Bertrand de Véricourt – HashtagMonde

PREDICT THE PARLIAMENT – analyse des résultats

Bertrand de Véricourt — Wed, 21 Jun 2017 09:09:26 +0000

par Mohamed AL ANI, Davy BENSOUSSAN, Alexandre BREHELIN, Bertrand de VERICOURT, Raphaël VIGNES

L’équipe d’étudiants du Mastère Spécialisé Big Data de Télécom ParisTech évalue sa prédiction sur les législatives, dont le résultat au deuxième tour s’est avéré proche de leurs projections.

Rappel du modèle

Notre modèle consiste en une simulation complète du scrutin sur les deux tours, à l’aide de données historiques de vote et de données socio-économiques (revenus, chômage, etc.).

Ces données nous permettent de modéliser le premier tour, circonscription par circonscription, afin d’obtenir une estimation des voix obtenues pour tous les candidats en lice. Nous appliquons ensuite les diverses règles électorales pour déterminer les qualifiés pour le second tour, les triangulaires et les élus du premier tour.

La projection du nombre de sièges à l’Assemblée est effectuée par un autre algorithme qui analyse quant à lui l’historique des seconds tours d’élections législatives depuis 2002 et propose une estimation à partir de la simulation du premier tour.

Lien vers l’article original

L’apport de notre démarche

Le mode de scrutin particulier des élections législatives représente un défi pour les instituts de sondage traditionnels car il est compliqué de constituer des échantillons de population représentatifs de toutes les circonscriptions du territoire, mais aussi parce qu’il est difficile, à partir d’une estimation du nombre de voix obtenues par les candidats au 1er tour, d’en déduire une projection du nombre de sièges pour chaque parti. Enfin, la multiplicité des partis et l’émergence de nouvelles forces politiques complique un peu plus la tâche.

L’intérêt de notre modélisation réside dans le fait qu’elle est intégrale : nous pouvons proposer une estimation dans chacune des 577 circonscriptions. Bien sûr, les prédictions de l’algorithme ne sont pas justes partout, mais ce maillage fin améliore la précision lorsque l’on agrège les données au niveau national.

Comparaison du modèle et des sondages avec les résultats finaux

Comparons nos résultats avec les prévisions des différents instituts :

1ère ligne : les résultats finaux

2ème ligne : nos prédictions

Lignes suivantes : estimations des sondages

En orange, les cas où le résultat de l’élection est en dehors de la fourchette proposée par les instituts. On remarque la grande volatilité des estimations entre les instituts (particulièrement sur REM).

En terme d’écart total en nombre de sièges, notre algorithme est meilleur que chacune des trois études Ipsos, mais est battu par les études réalisées par les autres instituts au mois de mai.

Notons enfin que les estimations faites par les instituts pendant l’entre-deux tours ont toutes été largement erronées (voir ci-dessus) prédisant notamment une majorité écrasante pour l’alliance REM-MODEM autour de 450 sièges.

Comparaison du modèle avec les résultats finaux, parti par parti

En rentrant dans le détail de notre prédiction, nous remarquons que les erreurs de notre modèle sont regroupées sur quelques partis (le PS en tête), tandis que pour le reste nous sommes assez proches de la réalité.

L’Assemblée prédite vs l’Assemblée réelle

Pour rappel, voici notre projection sur l’Assemblée, mise en regard de l’Assemblée siégeant maintenant au Palais Bourbon :

Une conclusion

Comme nous le rappelons régulièrement, l’idée n’est pas vraiment d’opposer les méthodologies, mais de mettre en perspective les apports de chacune.

L’historique des données socio-économiques et électorales, et donc le modèle que nous avons utilisé, peuvent aider à donner une projection des résultats législatifs à la maille de la circonscription. Le modèle apprend les ressorts historiques du scrutin, et tâche de le simuler à l’aide de données plus fraîches. Son talon d’achille tient donc à ce qu’il n’apprend que sur le passé proche, et ne saurait être pertinent dans le cas d’une situation de rupture très nette de la mécanique ou des habitudes électorales.

Les sondages, quant à eux, ont l’avantage de sentir les tendances. De plus, leur méthodologie s’applique très bien sur une élection nationale telle que la Présidentielle – et notamment sur la dernière. Mais cette réactivité peut être aussi un facteur négatif inattendu, comme nous l’avons vu sur les enquêtes réalisées entre les deux tours.

Il serait maintenant intéressant de travailler sur d’autres élections, en l’adaptant aux particularismes du scrutin concerné voire aux dynamiques électorales d’autres pays.

PREDICT THE PARLIAMENT – prédiction des résultats des élections législatives

Bertrand de Véricourt — Thu, 08 Jun 2017 15:23:34 +0000

par Mohamed AL ANI, Davy BENSOUSSAN, Alexandre BREHELIN, Bertrand de VERICOURT, Raphaël VIGNES

Dans la continuité du projet “Predict The President”, qui nous a amené à proposer une modélisation du premier tour de l’élection présidentielle, nous nous sommes penchés cette fois-ci sur les élections législatives. Le sujet d’étude est particulièrement difficile, mais nous avons tenu à aller au bout de l’exercice en proposant une prévision des résultats à une maille très fine.

Nous modélisons ainsi le scrutin pour l’ensemble des 577 circonscriptions en utilisant des méthodes mathématiques d’apprentissage automatique (machine learning) et en nous basant sur de l’Open Data, c’est-à-dire des données ouvertes et accessibles au grand public.

Il va de soi que nous ne pouvons pas prédire correctement tous les futurs députés: il ne suffit pas d’écrire des formules mathématiques ou des lignes de code informatique pour pouvoir retranscrire fidèlement la réalité du terrain, mais nous espérons arriver à capter les tendances de cette élection qui s’annonce passionnante à bien des égards.

Une nouvelle donne politique

Le contexte actuel est propice à la recherche de nouvelles façons d’analyser la politique en France : l’élection du président Macron a bousculé le paysage politique en cassant le clivage traditionnel gauche-droite. Cette nouvelle donne permettra-t-elle au président d’obtenir la majorité absolue à 289 sièges ?

Les sondages anticipent également un score élevé des candidats Front National, compte tenu de la présence de Mme Le Pen au second tour de la présidentielle et de l’affaiblissement anticipé du “front républicain”. Le cas du Parti Socialiste risque aussi d’être riche en enseignements avec une déroute annoncée suite à la fuite de son électorat vers la République En Marche ou vers le parti de la France Insoumise. Ce dernier a des chances d’avoir un nombre historiquement élevé de députés si l’on se fie aux résultats de l’élection présidentielle. L’alliance des Républicains et de l’UDI a quant à elle de bonnes chances de représenter la première force d’opposition à l’Assemblée.

Qui est capable de dire ce qui va se passer aux soirs du 11 et 18 juin ? Personne ! Mais cela ne nous empêche pas de nous prêter au jeu des prévisions.

36 919 candidats depuis 1997

Pour cela, nous avons dans un premier temps compilé toute une variété de données que l’on peut trouver librement et gratuitement sur internet.

Le site du ministère de l’intérieur met à disposition les historiques de vote. Nous avons ainsi récupéré les données de vote des quatre élections législatives précédentes (1997, 2002, 2007, 2012), la liste des candidats qui se présentent cette année, ainsi que les données des élections présidentielles depuis 2002. Cela représente au total 36 919 candidatures pour lesquelles nous disposons du nombre de voix obtenues.

Cette “matière première” nous a permis de constituer des variables plus élaborées pour les candidats : appartient-il à la majorité présidentielle, s’agit-il d’un député sortant, le score de son groupe politique à la présidentielle qui précède l’élection législative, a-t-il déjà accédé à un second tour par le passé ou encore la force des candidats concurrents dans sa circonscription.

Outre les données politiques, nous avons récupéré sur le site de l’INSEE des données sociales et économiques à la granularité du département : les taux de chômage, des données sur la population active (répartition par niveau d’études et par type d’emploi), les revenus des ménages, etc.

En agrégeant ces données, nous constituons un profil historique pour chacun des candidats.

Un mélange de modèles

En premier lieu, nous cherchons à estimer le score de tous les candidats, ce qui nous permet de déterminer les qualifiés pour le second tour, en repérant notamment d’éventuelles triangulaires et majorités absolues. Ce n’est qu’ensuite, à partir de ces prévisions, que nous simulons le second tour pour prédire le vainqueur de la circonscription. Notons toutefois que nous passons directement au second tour pour les circonscriptions des Français de l’étranger puisque le premier tour a déjà eu lieu.

Les techniques de modélisation que nous utilisons sont de l’ordre de l’apprentissage supervisé, cette catégorie d’algorithmes qui nécessitent qu’on les nourrisse de données d’exemple pour en déduire des liens de cause à effet ou des corrélations pour pouvoir reproduire ces liens sur des données nouvelles.

Pour coder nos algorithmes, les adapter et optimiser leurs paramètres, nous les testons en nous plaçant à la veille des élections législatives de 2012 et regardons alors la pertinence des résultats prédits par rapport aux résultats réels. Nous obtenons ainsi une précision de 80% sur les sièges que nous prédisons à l’Assemblée sur 2012. Nous faisons ensuite apprendre notre algorithme sur l’ensemble des données disponibles afin d’effectuer la prédiction finale.

Pour le premier tour, notre choix s’est porté sur une combinaison de 3 modèles mathématiques du Machine Learning. Trois modèles, pour que les forces des uns compensent les faiblesses des autres.

Une France kaléidoscopique

La carte ci-dessous présente le candidat arrivé en tête du 1er tour selon notre algorithme, dans chacune des 577 circonscriptions.

Les circonscriptions potentiellement disputées via une triangulaire ou gagnées au premier tour sont mises en évidence par un contour blanc. Notons que notre algorithme prévoit un seul cas de qualification dès le premier tour, celle de Thierry Solère, dans la 9ème circonscription des Hauts-de-Seine.

Nous avons également représenté ci-dessous le nombre de candidats maintenus au second tour, classés par force politique. La longueur de la barre représente la proportion des candidats arrivant à se maintenir au second tour. Le dégradé de couleur indique si les candidats sont arrivés en tête, deuxièmes ou troisièmes pour les cas des triangulaires.

Par exemple, selon notre algorithme le FN arriverait à maintenir 115 candidats au second tour, ce qui représente 20% des candidats initialement investis, et dont une bonne partie arrive en deuxième position lors du premier tour.

Les grands gagnants du premier tour semblent être le Modem et la République en Marche qui qualifient la majeure partie de leurs candidats pour le second tour. L’alliance Les Républicains – UDI s’en sort relativement bien, à l’instar du Parti Socialiste dont les résultats ne sont pas aussi catastrophiques qu’annoncé. Le Front National aurait pu espérer mieux, surtout en termes de candidats arrivant en tête. Au rang des déceptions, la France Insoumise ne capitalise pas pleinement sur le score encourageant de M. Mélenchon à la présidentielle, et Debout La France ne parvient à placer qu’un seul candidat au second tour : M. Dupont-Aignan lui-même.

Un vote régionalisé

Changeons de perspective pour repérer les disparités régionales. La série de cartes qui suit fait un focus sur les candidats qualifiés pour le second tour, pour un parti (ou une alliance) donnée.

France Insoumise

Alliance EELV – Radicaux de Gauche – PS

Alliance MoDem – République en Marche

Alliance UDI – LR

Front National

La prévision du second tour

Pour le second tour, nous avons établi un algorithme qui attribue à chaque candidat une probabilité d’être élu, en tenant compte de plusieurs facteurs tels que la configuration du scrutin (duel ou triangulaire), des partis en présence ou encore des potentiels reports de voix par rapport au premier tour. Sur la carte ci-dessous nous représentons les couleurs des candidats qui ont le plus de chances de remporter leur circonscription, compte tenu de notre prédiction initiale.

En projetant ces résultats sur l’hémicycle de l’Assemblée, voici ce que nous obtenons :

Parti	Sièges prédits	Parti	Siège prédits
La République En Marche	278	Ecologistes	5
Les Républicains	106	Front National	5
Parti Socialiste	64	Les Radicaux de Gauche	3
Mouvement Démocrate	45	Parti Communiste	3
La France Insoumise	33	Divers Droite	2
Union des Démocrates Indépendants	17	Divers	1
Divers gauche	14	Régionalistes	1

La République En Marche, en tête, rassemblerait 278 places à l’Assemblée et disposerait de la majorité grâce à son alliance avec le MoDem (45 sièges), suivie de loin par les Républicains et le Parti Socialiste. Notons également le faible nombre de sièges du Front National.

Limites du modèle

Comme nous l’avons rappelé au début de l’article, le machine learning ne relève pas de la magie. Le terme “prédiction” ici ne renvoie pas à ce qui va se passer, mais à ce qui pourrait se passer selon un modèle construit à partir des données historiques. L’algorithme cherche à comprendre la dynamique d’un système. En se fondant sur l’historique des votes, ses prévisions transposent la tendance passée dans le contexte actuel. Mais il s’agit bien d’une limite, car si des changements profonds dans les comportements surviennent cette année, il ne sera pas en mesure de s’y adapter.

Par ailleurs, l’abstention est une difficulté supplémentaire pour le modèle. Son poids influe sur les élections, notamment sur le nombre de triangulaires. Pour qu’il y ait trois qualifiés au second tour dans une circonscription, ceux-ci doivent en effet récolter plus de 12,5% des voix des inscrits sur les listes électorales (et non des votants). Une forte abstention limite donc les possibilités de triangulaire. Pour effectuer notre simulation, nous avons fait le choix de supposer que l’abstention de 2017 serait égale à celle de 2012.

Focus sur les circonscriptions “chaudes”

Jean-Luc Mélenchon investi dans la 4e circonscription de Marseille est dans un territoire qui lui est favorable : il y a réalisé son meilleur score à la présidentielle. Il l’emporterait selon notre algorithme face à Patrick Menucci au second tour.
Marine Le Pen se présente dans la 11e circonscription du Pas-de-Calais. Profitera-elle de son second tour à la présidentielle sur une terre acquise à sa cause ? Elle perd de peu selon notre modèle (48 % des voix contre 52 % au second tour face à Philippe Kemel, candidat PS).
Gilbert Collard, lui, serait réélu dans la 2e circonscription du Gard.
Benoit Hamon, dans la 11e circonscription des Yvelines contribuera-il à la déroute annoncée du PS ? Non, d’après notre algorithme, il l’emporte de peu face au candidat de la République En Marche.
Manuel Valls en campagne dans la 1ere circonscription de l’Essonne, transfuge du PS non investi par la République En Marche pourra-t-il bénéficier de son ralliement à la majorité ? Nous prévoyons une victoire d’une courte tête face à la candidate de la France Insoumise Farida Amrani.
Axelle Lemaire dans la 3e circonscription des Français de l’étranger en mauvaise posture au premier tour est donnée très largement perdante au deuxième face au candidat de la République En Marche Alexandre Holroyd.
Le ministre de la cohésion des territoires Richard Ferrand, dans la tourmente suite aux révélations du Canard Enchaîné, parviendrait tout de même à remporter la 6ème circonscription du Finistère
Bruno Le Maire, le ministre de l’économie joue son mandat dans la 1ère circonscription de l’Eure : une défaite le forcerait à démissionner du gouvernement. Nous pronostiquons une large victoire face à la candidate du Front National Fabienne Delacour.
Myriam El Khomri, investie par le PS dans la 18e circonscription de Paris pourra-t-elle accéder à l’Assemblée malgré l’absence de candidat REM investi ? Notre modèle ne la voit pas se qualifier pour le second tour.
Cédric Villani, le candidat de la République En Marche sur le plateau de Saclay résoudra-t-il l’équation de la victoire à l’élection ? Il est donné gagnant par notre algorithme.
Nathalie Kosciusko-morizet, qui reprend le fief de François Fillon, est concurrencée par le candidat REM Gilles Le Gendre. Notre modèle lui donne cependant une victoire assez large au second tour.
Thierry Solère dans la circonscription des Hauts-de-Seine serait potentiellement élu dès le premier tour en bénéficiant d’une majorité absolue.
Christophe Castaner le Secrétaire d’état chargé des relations avec le parlement met son mandat en jeu dans la 2e circonscription des Alpes de Haute Provence. Nous lui prédisons une victoire au second tour.

En conclusion, nous prévoyons bien la majorité absolue pour En Marche et le Modem, mais avec un nombre de siège moindre que ce qui est annoncé par les sondages. Les républicains deviendraient la première force d’opposition et le Parti Socialiste serait le grand perdant de l’élection. En outre, le Front National ne parviendrait pas à constituer un groupe parlementaire, a contrario de la France Insoumise.

Réponse définitive les 11 et 18 juin prochains !

PREDICT THE PRESIDENT – le Big Data reste dans la course

Bertrand de Véricourt — Thu, 27 Apr 2017 09:29:27 +0000

Les cinq étudiants du projet “Predict The President” reviennent sur leur méthode après les résultats du premier tour des présidentielles 2017. Leur modèle réalisé dans le cadre de la formation du Mastère Spécialisé Big Data de Télécom ParisTech a tourné pour la 1ere fois en conditions réelles à cette occasion. Ils exposent les limites et pistes d’amélioration de leur modèle ainsi que les atouts de leur démarche.

par Bertrand de Véricourt

Le 18 avril 2017, LePoint.fr publiait notre prédiction du 1er tour des élections présidentielles valable au 15 avril, dans le cadre d’un projet étudiant : nous souhaitions en effet explorer la piste des Big Data pour expérimenter de nouveaux angles méthodologiques par rapport aux estimations traditionnelles. Nous avons ainsi élaboré une modélisation du paysage électoral français en intégrant des données socio-démographiques sur plusieurs années au niveau départemental afin d’estimer les réservoirs de voix des grandes familles politiques ; nous avons ensuite ajusté les scores en croisant des données issues d’internet et les intentions de vote mesurées par les différents instituts de sondage dans le but de capter les tendances en temps réel sur les candidats. Les données du web incluaient le volume des recherches sur Google et le sentiment exprimé dans les tweets.

Cette méthode, expérimentale, avait pour vocation d’étudier les apports des différentes méthodes en les combinant.

Une 1ère estimation a été produite pour le 15 avril, et une seconde pour le 21 avril.

Le résultat du 1er tour des élections est désormais connu et nous pouvons dresser un bilan de notre modèle. Les tendances exprimées par ce modèle “big data” ne se sont pas révélées exactes mais ont apporté toutefois une réelle tendance ….

Prédiction fournie intégrant les données jusqu’au 15/04/2017

Prédiction intégrant les données jusqu’au 21/04/2017

L’algorithme que nous avons développé a présenté des faiblesses – son résultat au 15 avril n’ayant pas su prédire le second tour E. Macron / M. Le Pen – mais il a montré des qualités encourageantes pour l’avenir.

Outre le fait que notre score pour B. Hamon soit plus proche de la réalité que celui donné par les sondages, la mise à jour de l’algorithme a donné des résultats intéressants.
Ainsi, les tendances qu’il exprime sur la dernière semaine avant le vote sont confirmées par l’urne : une nouvelle estimation effectuée au plus proche de la date du 1er tour intégrait des données plus fraîches, allant jusqu’au 21 avril au soir, et suggérait un duel E. Macron / M. Le Pen au deuxième tour.

NB : nous avions également fait une estimation donnant cette tendance le vendredi matin en prenant les données allant jusqu’au jeudi soir; elles devraient être diffusées sur Canal+ samedi 29/04.

Voyons maintenant les critiques à faire sur la méthode, et les pistes de réflexion.

Les résultats du 1er tour

L’approche par bloc politique est-elle validée?

D’abord, l’approche économétrique qui donne une première estimation des grands blocs politiques souffre du fait que les couleurs politiques des candidats sont difficiles à classer dans l’historique des résultats.

Toutefois, E. Macron, que nous avions classé au centre gauche (i.e. dans le bloc de gauche mais avec 46% des voix du bloc du centre), obtient un résultat électoral finalement très proche de l’estimation que nous avons réalisée le vendredi 21.

En revanche, notre estimation sur le score de M. Le Pen s’est avérée de moindre pertinence ; elle reposait presque uniquement sur l’historique du vote pour cette “dynastie” de candidats. Notre modèle, comptant un seul candidat pour le bloc d’extrême droite traditionnelle, a peiné à prendre en compte les variations dans les sondages, recherches Google et sentiment Twitter du vote FN.

Ici, les pistes de réflexion amènent à considérer à l’avenir un modèle plus complexe permettant les transferts de voix d’un bloc à l’autre.

Les sondages

La modélisation par bloc politique reflétait suffisamment la réalité pour ne pas diminuer la pertinence des sondages . De même, le croisement avec les données Google et Twitter rend encore compte ou presque de l’ordre réel des candidats après scrutin.

Sentiment Twitter

Les tweets anti-F. Fillon étaient très nombreux et ont en réaction généré beaucoup de tweets positifs, ce qui a certainement surévalué les points pour ce candidat dans notre modèle. Il y a possiblement ici un biais lié aux utilisateurs (voir notre article sur le peuple Twitter) mais aussi au contexte qu’il faudrait considérer.

Notre approche des données de Twitter doit également être améliorée sur l’estimation du vote mélenchoniste notamment, passé de plus de 18% à moins de 16% entre le début et la fin de la semaine de vote.

L’influence de Twitter sur les scores de notre modèle de prédiction est donc la partie qui va demander le plus d’attention, que ce soit sur le choix de l’indicateur, les réactions aux annonces, la détection de robots ou de militants trop actifs ainsi que sur le poids relatif de cette approche dans le résultat final.

Volume Google

Twitter est sensible à l’opinion, ce qui est intéressant mais n’est pas l’intention de vote… et le volume de recherches Google concerne plus de personnes mais est, pour le coup, insensible à l’opinion. Il ne trie pas les questions selon les sujets, et sera donc lié à l’actualité autant qu’à un questionnement de fond : “Pourquoi vais-je voter pour lui/elle ?”

Les petits candidats en profitent donc et sont surestimés, tout comme les extrêmes.

Parmi les pistes de travail sur le sujet, nous réfléchissons à une étude des séries temporelles : plutôt que de prendre les volumes, on regarderait surtout le comportement des courbes de ces volumes.

Conclusion

Notre approche expérimentale a pour objectif d’être simple et donc interprétable. Notre modèle, hybride, permet de comparer les impacts de chacune de ses composantes.

Le résultat sans être optimal du point de vue prédictif, est toutefois assez intéressant : nos chiffres finaux sur E. Macron et B. Hamon notamment sont précis : malgré la très grande proximité des scores, il y a peu d’inversions dans l’ordre des candidats; nous avions toutefois une plus grande fiabilité et un écart de prédiction absolu plus faible que la semaine d’avant.

Pour y arriver, il existe de multiples pistes : un meilleur paramétrage des blocs politiques incluant peut-être le transfert entre blocs, l’amélioration de la détection de robots, l’optimisation de l’algorithme d’analyse de sentiments, l’ajustement du poids de Twitter, le lissage des volumes Google, l’usage de nouveaux indicateurs…

Comme nous avons pu le voir, les sondages d’intention de vote se sont avérés être d’une excellente qualité pour ce scrutin. Toutefois, sur d’autres scrutins comme les primaires, les élections US, le big data peut enrichir la vision donnée par les sondages.

Quel éclairage peut apporter le big data pour le second tour ?

Ce qui nous importe maintenant, c’est de continuer notre projet et d’améliorer nos algorithmes.

Notre modèle expérimental doit s’appuyer sur un historique de données assez conséquent pour être pertinent, alors qu’il n’y a historiquement qu’une seule configuration où le Front National a été au second tour, en 2002.

Il nous sera en revanche possible d’étudier en temps réel les dynamiques en oeuvre sur les réseaux sociaux, dont les tendances s’étaient montrées révélatrices sur la Primaire de la Gauche.

La prise en compte des données issues du web ou de l’open data est déjà envisagée par certains instituts de sondage traditionnels, et nous espérons que cette jeune discipline, passés les premières applications expérimentales, trouvera sa place parmi les autres outils reconnus aujourd’hui.

PREDICT THE PRESIDENT – Quand le Big Data rencontre sondages et réseaux sociaux

Bertrand de Véricourt — Tue, 18 Apr 2017 07:11:39 +0000

par Mohamed Al Ani, Alexandre Brehelin

Entre Emmanuel Macron qui ne se revendique ni de droite ni de gauche ni du centre, la montée en flèche des extrêmes de Marine Le Pen et Jean-Luc Mélenchon et le Parti Socialiste de Benoît Hamon au plus bas dans les sondages, les élections présidentielles de 2017 sont un réel casse-tête.

Casse-tête que nous avons tenté de résoudre en modélisant les élections mathématiquement en vue d’en prédire le résultat.

Evidemment, qui dit prédiction pense à sondage d’opinion. Les sondages, qui ont longtemps régné en maître du domaine, ont plusieurs fois montré leurs faiblesses. Ceux-ci avaient notamment donné Hillary Clinton largement vainqueur contre Donald Trump. Beaucoup ont remis en cause les sondages, expliquant que cet outil était dépassé et qu’aujourd’hui les outils mathématiques et statistiques du Big Data ainsi que la démocratisation du partage de l’opinion grâce aux réseaux sociaux laissent bien moins de place à l’erreur.

Faut-il complètement oublier les sondages ? à cette question, nous répondons non. Les sondages montrent certes des incertitudes et des marges d’erreur mais ils décrivent tout de même une tendance, et détiennent une information qui n’est pas à négliger.

Que se passerait-il si nous combinions Big Data d’internet, données socio-démographiques et économiques, et sondages pour tenter de prédire le prochain président français ?
C’est l’idée que nous avons cherché à approfondir.

Chercher une évolution historique des votes

La question à se poser est la suivante : Qu’est ce qui peut influencer un vote ? Au delà de l’aspect personnel de chaque citoyen que nous ne pouvons pas décrire, nous tentons de décrire une tendance de vote plus globale, à la granularité départementale. Regardons une carte des votes pour François Hollande au second tour de la présidentielle de 2012 :

Nous remarquons une certaine scission de la France. L’Est semble beaucoup moins à gauche que le Sud-Ouest. La Bretagne quant à elle semble partisane de la gauche, au contraire de la Corse. On observe ainsi un vote territorial.

Nous pouvons aussi observer les votes parisiens en fonction du temps :

Presque toujours à droite, le département parisien semble allergique à l’extrême droite, qui perd en popularité au cours du temps.

En plus d’un vote territorial, il semble y avoir un vote dépendant du temps. Le problème à résoudre est le suivant : par quelles variables sont dictées les votes temporels et territoriaux ?

Passons de l’analyse à la modélisation

L’Open Data est aujourd’hui une mine d’or. Les données du Web, de l’INSEE et de data.gouv ont une valeur certaine pour notre étude. Ce sont les données que nous avons utilisées pour notre prédiction.

L’objectif est alors de déterminer le résultat du premier tour par département, grâce à des données temporelles et départementales. Le modèle que nous présentons repose sur plusieurs hypothèses, à savoir :

l’hypothèse que les électeurs peuvent être regroupés en 4 catégories distinctes :

Les électeurs du bloc de Gauche (gauche et extrême gauche qu’on regroupe pour des raisons de performance de modèle)
Les électeurs du bloc du Centre
Les électeurs du bloc de la Droite
Les électeurs du bloc de l’Extrême Droite

L’hypothèse qu’Emmanuel Macron est situé dans le bloc de Gauche.
L’hypothèse que le vote départemental peut être expliqué par des données sociales, démographiques et économiques.
L’hypothèse que la géographie des départements ainsi que les votes des élections passés dans les départements ont une influence sur les votes de 2017. On regroupe les départements en plusieurs catégories : les partisans des blocs qui votent à chaque élection pour un bloc en particulier, les départements dissidents qui votent à l’opposé de la tendance nationale, le bloc du président de département et la persistance de celui-ci.

Cette année, contrairement à toutes les élections précédentes, il n’y a pas de candidat du centre. Ou du moins, aucun candidat qui a les mêmes caractéristiques que les candidats historiques du centre. Nous modélisons alors un vote du centre, en imaginant le cas de figure où François Bayrou ou un autre candidat du centre se présenterait. Les voix prédites pour le centre seront par la suite distribuées entre les candidats.

À partir de ces données, nous utilisons des modèles de Machine Learning et d’économétrie qui nous permettent de déterminer un taux de vote pour chacun des blocs.

Voici le résultat de l’algorithme :

23.5% pour l’extrême droite de Marine Le Pen, 40.1% pour le bloc de Gauche, 26% pour la Droite et 10.4% pour le Centre hypothétique.
En testant cet algorithme sur 2012, nous avons trouvé une marge d’erreur moyenne de +/- 2.5% pour chacun des blocs.

Notre modèle permet donc d’estimer le réservoir de vote pour les grands blocs électoraux français, en omettant la personnalité du candidat. Par ailleurs, ceux-ci n’apportent pas un éclairage sur les résultats potentiels, et doivent prendre en compte l’aspect personnifié du vote. Pour cela nous devons départager les blocs entre les candidats de chacun d’entre eux.

Nous utiliserons trois sources de données pour départager ces blocs (les sondages, Twitter et Google).

Certain instituts de sondage (Ifop, Ipsos, Elabe) expliquent les intentions de vote en demandant aux sondés pour qui ils avaient voté en 2012. Pour partager les voix qui seraient allées au Centre, nous utilisons une agrégation de ces sondages et la distribuons aux candidats. Pour exemple, Macron récupère ainsi 46% des voix du Centre, Fillon en récupère 20% alors que Le Pen n’en récupère que 6%.

Départager en utilisant les sondages

Pour départager chacun des candidats dans les blocs, nous pouvons utiliser les intentions de votes données par les sondage. Pour cela, nous agrégeons le résultats des sondages des 3 derniers jours (voir le sondage des sondages du Point.fr : www.lepoint.fr/presidentielle) et nous obtenons la prédiction suivante :

Marine Le Pen, en tête avec 24.13% des voix l’emporterait avec presque deux points d’avance sur le deuxième meilleur. En dessous, nous observons un duel serré entre François Fillon et Emmanuel Macron. Jean-Luc Mélenchon et Benoît Hamon perdent quant à eux quelques points comparé aux sondages.

Notre modèle ayant été construit à la granularité départementale, on peut faire le même travail dans chaque département. Ainsi, on peut estimer le gagnant potentiel dans chacun des départements de la France Métropolitaine.

A noter : Nos cartes prédisent Fillon vainqueur d’un département avec un bleu clair, Marine Le Pen avec un bleu foncé, et la dernière couleur, le rose, prédit la victoire du bloc de gauche.

Il est important de remarquer au travers de cette prédiction que Marine Le Pen est la candidate remportant le plus de département. Le bloc de gauche semble quant à lui remporter davantage de départements que François Fillon.

Ces départements roses pourraient être remportés par Jean-Luc Mélenchon, Emmanuel Macron ou Benoît Hamon. On peut estimer en moyenne la probabilité de gain d’un département à gauche : 44% pour Emmanuel Macron, 16% pour Benoît Hamon, et 36% pour Jean-Luc Mélenchon.

Twitter, le réseau social de l’opinion politique ?

Selon un sondage Harris Interactive, 73% des utilisateurs de Twitter déclarent avoir un intérêt pour la politique, contre 63% des internautes (source). Entre les candidats eux-même, les médias, les personnalités ou les simples férus de politique, Twitter est devenu le repère principal du partage de l’opinion politique.

L’idée ici, est de pondérer nos blocs en mesurant les opinions politiques positives des utilisateurs uniques d’un échantillon. Nos camarades qui travaillent aussi sur ce projet Predict The President ont alors procédé à une collecte de tweets du 10 au 15 avril 2017 (dont 26000 tweets purement positifs et ne mentionnant que le candidat concerné) sur lesquels ils ont appliqué l’algorithme mesurant le sentiment (Méthode de Sentiment Analysis, voir l’article : http://hashtagmonde.com/2017/04/12/pour-qui-vote-le-peuple-twitter/).

En mesurant le nombre de tweets positifs pour chacun des candidats, nous parvenons à la répartition suivante :

François Fillon, très populaire sur le réseau social est à presque égalité avec la candidate du Front National. La polémique #PénélopeGate n’aurait pas eu raison de lui sur Twitter. Emmanuel Macron est lui presque 4 points derrière. Le réseau social laisse cependant très peu de place aux “petits candidats”, ceux-ci récoltent très peu de sentiments positifs. Cela ne veut pas dire que les tweets les mentionnant sont tous négatifs : ils peuvent aussi être neutres.

Regardons la carte des prédictions :

Les fiefs de gauche se situent toujours à l’Ouest, mais sont par ailleurs nettement moins nombreux. On observe notamment un gain plus important de départements de la part de François Fillon, avec des victoires dans des départements précédemment remportés par la gauche. Il est important de remarquer que les départements victorieux de Marine Le Pen restent assez stable, ce qui renforce l’idée d’une base électorale forte et déterminée.

Avec les données Twitter, les probabilités de gain des départements de gauche sont de 40% pour Emmanuel Macron, de 17% pour Benoît Hamon, ou encore de 39% pour Jean-Luc Mélenchon.

Les recherches Google, un reflet du vote français ?

Doit-on parler de good buzz et de bad buzz ou simplement de buzz ? L’un des rares indicateurs à avoir prédit la victoire de Donald Trump était bien Google. Le nombres de recherches sur le moteur de recherche était bien supérieur à celui de Hillary Clinton. Et c’est le cas pour plusieurs autres élections (voir ici : https://www.contrepoints.org/2016/08/17/252984-google-peut-il-predire-le-resultat-des-presidentielles-de-2017 et cette étude réalisée par nos collègues : http://www.lepoint.fr/presidentielle/primaire-de-la-gauche-et-le-vainqueur-designe-par-twitter-et-google-est-29-01-2017-2100895_3121.php#xtor=CS2-239 )

Ces exemples semblent montrer que plus il y a de recherches Google pour un candidat, plus cela favorise la victoire de celui-ci. Et si nous pondérions nos blocs par le nombre de recherches Google pour chacun des candidats ?

C’est ce que nous avons tenté ! En pondérant avec le nombre de recherches Google pour chacun des candidats sur la période du 10 au 15 avril, nous trouvons les prédictions :

Marine Le Pen, toujours en tête est cette fois-ci presque rattrapée par Jean-Luc Mélenchon qui semble faire le buzz sur Google.

Nous constatons aussi que ce modèle laisse beaucoup plus de place aux “petits candidats”. Notamment François Asselineau et Philippe Poutou qui gagnent des points par rapport aux autres modèles.

Le plus étonnant ici est Benoît Hamon qui n’est qu’à 1.77%. Le candidat du parti socialiste serait très peu “populaire” sur Google…

Comme pour les cartes précédentes, on observe une scission entre l’est et l’ouest. On note également, encore une fois, la stabilité des départements remportés par l’extrême droite.

Avec les données Google, les probabilités de gain sont de 33% pour emmanuel Macron, de 3% pour Benoît Hamon, ou encore de 64% pour Jean-Luc Mélenchon.

Cette différences entre la carte issue de Google, et celle issue de Twitter, marque également la différences de stratégie digitale et de présence sur les réseaux entre la droite et la gauche.

L’analyse de ces trois cartes permet de dégager des départements dont le résultat semble acté et des départements dont le basculement à gauche ou à droite n’est pas joué. Les départements du sud-est de la France semblent définitivement acquis au Front National, alors que les départements de la Vallée de la Loire et du Centre semblent hésiter entre le bloc de gauche et François Fillon.

Et si nous combinions les 3 approches ?

Notre prédiction finale est celle qui combine Google, Twitter et les sondages d’opinion. Voici les résultats :

Notre prédiction finale, toujours selon les hypothèses de modélisation que nous avons formulées, donne un duel entre Marine Le Pen et François Fillon au second tour.

Mais rien n’est encore joué : Emmanuel Macron ne reste qu’à 1 point et demi de son rival de droite.

Avec les trois approches combinées, les probabilités de gain sont de 38% pour Emmanuel Macron, de 12% pour Benoît Hamon, ou de 44% pour Jean-Luc Mélenchon.

Machine Learning, réseaux sociaux et Open Data, la bonne solution pour prédire des élections ?

Quelques précautions…

L’algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises. D’autres variables entrent certainement en compte dans les choix de vote des citoyens.

Sur Twitter, un tweet dégageant un sentiment positif ne signifie pas systématiquement une intention de vote mais une quantité assez grande de tweets peut nous permettre d’être assez confiant sur le sentiment moyen par candidat dégagé par le réseau social.

…Mais des résultats qui semblent cohérents

Les cartes des départements montrent une certaine cohérence comparé aux résultats de 2012, notamment la scission Est/Ouest que nous avions pointé.

Les trois approches de pondération que nous avons expliquées dégagent certes des erreurs, mais nous espérons les compenser entre elles en appliquant la moyenne dans notre prédiction finale.

Les résultats semblent cependant assez loin de ceux donnés par les sondages qui donnent Emmanuel Macron grand vainqueur. On peut alors se demander : un duel Le Pen – Fillon au second tour ? Wait and see…

L’équipe PREDICT THE PRESIDENT

PREDICT THE PRESIDENT – Pour qui vote le peuple Twitter ?

Bertrand de Véricourt — Wed, 12 Apr 2017 08:01:30 +0000

par Davy Benssoussan, Bertrand de Véricourt, Raphaël Vignes

Les instituts de sondages dessinent leurs tendances d’intention de vote à l’aide de panels de 1000 à 3000 individus représentatifs de 45 millions d’électeurs français, dont entre 15 et 30% ne devraient néanmoins pas voter. Malgré la caution scientifique de la loi des grands nombres, les opinions payantes de ce “peuple des sondés” présentent, comme toute statistique, un biais que les opinions gratuites véhiculées par les 100 000 tweets quotidiens sur les candidats que nous communique le “peuple Twitter” peut aider à contrebalancer. Mais ce n’est pas aussi simple…

1/ Les résultats des sondages, “critique” de leur méthodologie

Des atouts réels…

un outil puissant :

Les sondages sont un outil très puissant pour dessiner des tendances et estimer un vote. Si l’on se réfère à Arthur Muller, du cabinet de stratégie politique LMP : “[en analysant l’historique des sondages des élections présidentielles passées], à quelques semaines du vote, la marge d’erreur [par rapport au résultat] est de 2-3 points” (écouter à 9’30 : source).

qui répond à une question précise :

Ils ont l’avantage assez évident, dans notre cas d’étude en tout cas, de donner une réponse définie à une question précise : “Pour qui allez-vous voter?”.

et distingue opinion et intention de vote :

il existe des sondages d’opinion et des sondages d’intention de vote, séparant ce qu’on pense d’un candidat, de ce qu’on pense de ce que ferait ce candidat s’il était élu.

Des expériences alternatives aident à mieux percevoir les subtilités du scrutin uninominal (“je vote pour un seul candidat”) que nous employons : ainsi le “vote par approbation” (“je vote pour tous ceux que j’approuve”) se rapproche d’un vote par opinion, et atténue l’effet du vote utile : dans une expérience de 2012, Bayrou arrivait alors devant Sarkozy (source).

… mais des défauts réels aussi

des renversements de position inopinés :

Néanmoins… les élections de 1995 et 2002 ont montré qu’au sein des présumées “marges d’erreurs” peuvent se jouer des inversions de position qui changent radicalement la donne.

En 1995 : 2 jours avant le scrutin, Chirac devance Jospin de 3,5 % dans les sondages. L’écart est finalement de 2,5… mais dans l’autre sens!

En 2002 : 3 jours avant le scrutin, Jospin avait en moyenne 4,5 % de plus que Le Pen selon les instituts. Finalement, ce dernier le devance de moins d’1 % en ce désormais fameux 21 avril.

(Source : Le Monde du 30/03/2017)

un fondement scientifique relatif :

Autre point à la charge des sondages français : pour des questions pratiques, ceux-ci s’appuient sur des méthodes proches de celle des quota, qui n’est pas validée par la théorie statistique. IPSOS l’explique d’ailleurs très bien sur son site web. Une des conséquences de cette méthode moins coûteuse, et qui permet de remplacer un individu de panel par un autre aux mêmes caractéristiques sociodémographiques est que la marge d’erreur est elle aussi à prendre avec des pincettes.

des méthodes opaques pour un type d’élection inédit :

Nul parmi les instituts ne prétend que les résultats bruts des sondés peuvent donner une bonne estimation. Il faut retraiter les données pour anticiper le vote extrême non assumé par exemple : c’est un “redressement d’échantillon”.

De ce que l’on sait des redressements, encore opaques, c’est qu’ils se font d’abord à partir des votes aux élections antérieures. Or justement, l’élection présidentielle de 2017 présente une situation inédite par rapport à ces dernières années, ce que les votes antérieurs auront du mal à restituer.

des informations périodiques :

Face à la hausse de la volatilité de l’opinion due à notre époque d’hypercommunication, il est intéressant d’avoir un instrument de mesure en continu.

Mais les sondages ne reflètent pas l’évolution de l’opinion au cours du week-end (le vote ayant lieu un dimanche), ils ne reflètent pas davantage les réactions en temps réel suite à un débat, à une émission ou à une annonce. De plus, ils sont légalement obligés de ne pas divulguer de chiffre le samedi précédant le vote.

Dans cette liste non exhaustive des problématiques entrevues, celles de l’échantillonnage (la méthode des quota) et de la périodicité de l’information pourraient d’ici quelques années trouver des solutions vraiment efficaces et pérennes à l’aide du Big Data.

Le nombre de recherches Google montre – en direct –
l’impact de Mélenchon sur le débat du 20 mars.
Cet impact, encore de l’ordre du buzz, réussira ensuite
à se transformer en intentions de vote.

" data-medium-file="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?fit=300%2C240" data-large-file="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?fit=802%2C642" class="wp-image-696 size-full" src="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?resize=802%2C642" alt="" srcset="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?w=802 802w, https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?resize=300%2C240 300w, https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?resize=768%2C615 768w, https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/trend24h.jpg?resize=375%2C300 375w" sizes="(max-width: 802px) 100vw, 802px" data-recalc-dims="1" />

Le nombre de recherches Google montre – en direct – l’impact de Mélenchon sur le débat du 20 mars. Cet impact, encore de l’ordre du buzz, réussira ensuite à se transformer en intentions de vote.

Cela ressemble à un credo usé jusqu’à la moelle, mais c’est un fait qu’il est bon de rappeler : le nombre de données croît, et même accélère. Selon IBM en 2016, “90% des données dans le monde ont été créées au cours des deux dernières années seulement”.

Et en particulier sur Internet, où les réseaux sociaux captent voire diffusent les données que nous lui confions. L’un d’eux a l’avantage et le défaut d’être majoritairement public : Twitter.

D’autres critiques vulgarisées sur les sondages : http://www.francetvinfo.fr/elections/sondages/election-presidentielle-dix-raisons-qui-expliquent-pourquoi-les-sondages-peuvent-seplanter_2102031.html

2/ Qui est le peuple Twitter ?

Twitter, réseau social ayant la particularité de faire de chacun de nous un média public qui partage des Unes et des liens plutôt que de longs textes argumentés, représente aujourd’hui 300 millions de personnes dans le monde, par ce qu’elles expriment, partagent, ou même, dans une moindre mesure, par l’intérêt qu’elles portent aux tweets qui passent.

Si les 1000 personnes formant le “peuple des sondés” peuvent ne pas être représentatif de la population Française en âge et en niveau d’études notamment, il est certain que le peuple Twitter ne l’est pas non plus, du moins pas aujourd’hui – mais il représente beaucoup de monde.

Qui sont ces gens dont nous cherchons l’opinion, quels sont ces individus en réseau ?

Panorama de Twitter en France

500 000 twitteurs politiques en 2 mois

Les Américains représentent 67 millions des utilisateurs actifs (twitteurs ou simples lecteurs), soit presque le quart des utilisateurs, mais quasiment 20% de la population des USA si l’on considère un utilisateur comme un citoyen distinct (source) – hypothèse à vérifier par ailleurs.

Regardons du côté de la France : Twitter y fait venir à lui près de 15 millions de visiteurs uniques (source), donc pas forcément des utilisateurs actifs, ne tweetant pas forcément, et pas forcément sur la politique… Mais sur les tweets politiques que nous avons récoltés entre février et mars, nous avons bien comptabilisé 500 000 auteurs, un nombre assez considérable.

Le peuple Twitter en France, quelle sociologie?

Selon des données communiquées par Twitter en 2015 :

Âge : les 16-24 ans sont majoritaires et représentent 33% des utilisateurs. Les 35-44 ans sont eux aussi bien présents et sont 25% des utilisateurs.
Sexe : 55% d’hommes, 45% de femmes.
Situation maritale : 40% des utilisateurs français sont célibataires, 25% sont mariés.
Études : au niveau des diplômes, 36% des utilisateurs sont allés à l’école jusqu’à 18 ans, 19% ont un BTS ou Bac Pro et 29% un diplôme universitaire.

Twitter, la nouvelle Assemblée Nationale?

L’essor du tweet politique

En 2015, les sujets les plus abordés sur la version française étaient la musique, le cinéma, les sciences et technologies (source).

Mais en 2016, les élections américaines firent l’objet du deuxième hashtag le plus utilisé sur Twitter ( “#Election2016”, source), allant à l’encontre de l’image d’un réseau de divertissement creux ou d’un lieu de partage des férus de techno qu’il a pu avoir auparavant.

Cette intuition, confortée par l’importance de l’usage de Twitter dans l’élection américaine, la création par Twitter d’un compte dédié à la politique française (@TwitterPolFR), ainsi que par la forte présence des politiques français, est confirmée par nos données : nous avons récolté 7 millions de tweets mentionnant les candidats sur 2 mois, soit plus de 115 000 tweets/jour en moyenne !

3/ Pour qui vote le peuple Twitter ? (sentiment analysis)

Nous avons procédé à deux analyses : une sur le mois de mars (du 6 mars au 6 avril), et une autre sur 48h (du 8 au 11 avril à midi) qui rend compte de la volatilité des sentiments sur Twitter.

MARS 2017

Voici donc les 3 premiers candidats (cf Méthodologie) pour lesquels voterait le peuple Twitter en mars si ses tweets avaient la force d’un bulletin. Les résultats sont agrégés sur la période du 6 mars au 6 avril :

1er : François Fillon, avec 12 216 points

2ème : Emmanuel Macron, avec 11 491 points

3ème : Marine Le Pen, avec 5 168 points

Et voici l’évolution de ce vote :

Evolution du score des 3 premiers candidats sur Twitter en mars 2017

Notez bien ici que les valeurs en ordonnée correspondent au nombre de mentions considérées * le ratio de tweets positifs ou neutres sur le total.

Des tweets récoltés nous avons ôté ici ceux contenant plusieurs mentions de candidats, ce qui peut concerner 50% des tweets d’une journée.

A noter!

Si l’on ne considérait que le ratio des tweets mentionnant un candidat, et non le nombre de fois où celui-ci est mentionné en tout, nous trouverions ceci :

Sentiment des twitteurs, sans prise en compte du volume de tweets

" data-medium-file="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?fit=300%2C289" data-large-file="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?fit=365%2C352" class="wp-image-698 size-full" src="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?resize=365%2C352" alt="" srcset="https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?w=365 365w, https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?resize=300%2C289 300w, https://i1.wp.com/hashtagmonde.com/wp-content/uploads/2017/04/pourcentage_sentiment_twitter_sans_titre.png?resize=311%2C300 311w" sizes="(max-width: 365px) 100vw, 365px" data-recalc-dims="1" />

Sentiment des twitteurs, sans prise en compte du volume de tweets

On y remarque l’omniprésence de la critique négative sur Twitter, et les très bons scores du vote extrême : les colonnes représentent en effet les sentiments positifs + neutres, le fait de “faire le buzz” étant un argument favorable dans notre méthode de notation.

SUR 48H, DU DIMANCHE 8 AU MARDI 11 AVRIL 2017 A MIDI

Pour voir la percée de J-L Mélenchon et tester l’impact d’un vote sur une période resserrée, nous avons ressorti les urnes. Voici le classement de tous les candidats sur 48h, avec des données plus fraîches :

Outre la nouvelle position de Mélenchon, on remarque le score important de Dupont-Aignan : il effectue d’ailleurs une remontée spectaculaire entre les deux tranches de 24h en passant de la 6e à la 3e place en doublant son score (le nombre de tweets favorables ou neutres passe de 2 500 à 5 000).

4/ Conclusion

Il existe de nombreux indicateurs de popularité sur les réseaux sociaux, et notamment sur Twitter : le nombre de nouveaux followers divisé par le nombre total de followers, le nombre de retweets, de “j’aime”, leur évolution, atténuer l’effet des plus gros volumes de tweets neutres en les passant au logarithme… Il faudra faire des calculs plus savants pour restituer la complexité du vote des gens et combiner nos données avec celles des sondages pour y parvenir.

Malgré leurs défauts, ceux-ci ont déjà fait preuve de grandes qualités : l’objectif du “Big Data” sera donc d’améliorer leur valeur prédictive soit en modifiant leur valeur (“10% pour tel candidat”), soit en les contextualisant (“tel candidat a 10% dans les sondages, mais un poids numérique de 12%”).

Dans cet article, nous avons présenté une méthode simple à comprendre et donc interprétable, qui n’exprime qu’un “vote du peuple Twitter”. C’est le reflet d’une réalité en ligne qui est comme un miroir déformant des sondages. Elle y ressemble, mais change parfois les rapports de force parmi des candidats de même gabarit.

Mais l’objectif final de nos travaux est en réalité d’aller plus loin, et d’expérimenter l’alliance entre les contraires : les sondages, les données socio-économiques et les données d’Internet. Cette méthode, et ses résultats expérimentaux, nous vous les présenterons dans le prochain article.

5/ Méthodologie

Nous avons pris le parti d’utiliser les données de Twitter car le volume de données accessible est considérable et les cinq principaux candidats (d’après les sondages) y sont significativement mentionnés. Nous disposons bien des données de recherche Google Trends, qui couvrent une plus large population, mais, déjà agrégées et normalisées, elles ne nous permettent pas de faire de traitements poussés.

Nous récoltons uniquement les tweets mentionnant les noms des candidats, ce qui peut se faire de diverses façons : “lepen”, “lepen ou encore “mlp” correspondra ainsi à Marine Le Pen, son père intervenant largement moins sur Twitter. Si le tweet ne contient que le terme “#franceinsoumise” par exemple, nous ne le captons pas – c’est un choix qui simplifie notre collecte.

Des tweets récoltés nous avons ôté ici ceux contenant plusieurs mentions de candidats, ce qui peut concerner 50% des tweets d’une journée.

A noter que nous ne filtrons pas les éventuels bots, qui, s’ils existent, ne tweetent pas à haute fréquence.

Nous n’affichons pas le score final Twitter des autres candidats, à cause d’un doute sur le nombre de tweets de J-L Mélenchon. Mais après vérification sur une autre base de données, nous avons constaté qu’il avait effectivement beaucoup moins de tweets que Marine Le Pen en mars (plus d’un tiers de mois), et le pourcentage de sentiments entre ces deux candidats est du même ordre (70%) : il reçoit donc moins de suffrages sur le réseau. Nous ôtons donc tous ceux qui se trouvent au-dessous des 3 premiers, et avons révisé la liste de mots-clés de collecte de tweets pour ce candidat avec succès.

PREDICT THE PRESIDENT – analysis and predictions over the French presidential campaign

Bertrand de Véricourt — Tue, 21 Mar 2017 18:34:03 +0000

by Bertrand de Véricourt

Here’s what happened last year : in one of the poorly heated rooms made for practice lessons of Télécom-ParisTech, 4 guys and I decided to work on the prediction of our future president.

The five of us (+ you, dear reader) in the Fairyland of young & innocent Big Data princesses

OK, it looks crazy. But we realized that somebody in the USA had had great results with mainly polls : Nate Silver had predicted Obama’s victory in 2008 (he was right for 49 states out of 50) and 2012 (he was right for… all states).

But then, badaboum. A few weeks after our decision, the guy who could not possibly win by 71.4% as for N. Silver, well, he actually won! And that was no fake news : Trump seemed to have jeopardized our project indirectly.

But of course we knew there’s no magic in here, and the best we can do is get results, polls, socioeconomic data from previous elections… but also collect data from Google, Twitter, Facebook, to improve what the first data say!

These data concern much more people than polls. They have their disadvantages (e.g. the dominant social class on the French Twitter is “CSP+” (“privileged socioeconomic category”, and people don’t answer to forms made especially for us), but they have their strengthes (data come at any time, from loads of sources, and give other informations).

So you understand now, why we went on with the project that we call : Predict The President.

Please find underneath another quick and formal presentation. Don’t hesitate to tell us whether it is clear or not, as it is used to compete in the Datajournalism Awards 2017. Thanks!

Project description

Our project aims at bringing data insights on the 2017 presidential campaign in France.

It is divided into 3 axes :

get insights over the campaign through internet, social networks especially
gather socio-economical and polls data to analyze the campaign
Make predictions with data science

This is a combo project, combining server architecture, scraping, industrialization, dataviz, data science and storytelling skills. We nearly did everything from scratch.

What makes this project innovative? What was its impact?

This project is innovative because it mixes data science, datavisualisation and journalism in the same spot.

But, mostly, I see it innovative as it mixes social networks data, polls and socio-economical data to make a prediction.

We try not to repeat the experience of Nate Silver, who played with polls mostly, and extend the wideness of our voters “sensors”.

For the primary of the left wing in January 2017, Twitter and Google data curbs were an interesting way to check out trends – that were verified, indeed.

This was reported in two articles from the magazine Le Point with whom we’ve been in contact.

More articles are to come in April and May, with more density in both the journalistic and data scientific aspects.

In the meanwhile, we work on different dataviz gathering daily refresh data for the dashboard of the campaign. Some are already available here : lepoint.fr/presidentielle.

Members of the project

Mohamed Al Ani : Linkedin
Davy Benssoussan : Linkedin
Alexandre Brehelin : Linkedin
Bertrand de Véricourt : Linkedin
Raphaël Vignes : Linkedin

LA POLYNÉSIE – insularité et isolement à l’épreuve des représentations

Bertrand de Véricourt — Fri, 17 Feb 2017 16:23:07 +0000

par Edouard de Bélizal

C’est à peine si les îles polynésiennes perturbent l’immensité bleue du Pacifique Sud sur les globes virtuels que le voyageur peut consulter avant de partir. S’envoler vers la Polynésie, c’est s’apprêter à joindre une destination à peine visible sur la carte du monde, mais qui malgré tout appartient à une grappe d’archipels grande comme l’Europe occidentale. À plusieurs heures d’avion de la Nouvelle-Zélande ou d’Hawaii, la Polynésie déploie son essaim d’îles bien loin du reste du monde, aux antipodes géographiques des cités européennes et de sa métropole française. Rien ne saurait être géographiquement plus distant que ce bout du monde tropical, à qui son éloignement et son isolement font cumuler les représentations fantasmées.

Celles-ci ont été analysées en détail par le géographe Jean-François Staszak, qui s’est attaché à déconstruire les images véhiculées par l’exotisme européo-centré dans plusieurs publications. Il ne s’agit donc pas ici de reprendre ce qui a déjà été dit ailleurs, en mieux informé et en plus riche ; ce texte, rédigé dans l’avion du retour, s’attache plus à faire partager une expérience de terrain, qui dépasse la seule consommation touristique de l’espace insulaire polynésien.

Accéder aux images, vivre la carte postale : dépasser les fantasmes

La mission de terrain débute, comme pour n’importe quel voyage un peu lointain, par l’inévitable excitation de la découverte d’une nouvelle destination, surtout si celle-ci est autant chargée d’images et de représentations a priori. Le voyageur, même s’il ne sait pas trop où il va exactement sur la carte quand il embarque pour Tahiti, s’imagine assez bien à quoi ressemblera sa destination. Le bleu profond du ciel et de la mer, le turquoise diaphane du lagon, le blanc immaculé des plages, les infinies nuances de vert des montagnes intérieures des îles ; des garçons et des filles à la peau cuivrée, aux splendides cheveux noirs, avec, posées sur l’oreille, des fleurs multicolores et aux extravagantes corolles : le visiteur s’envole en sachant assez exactement quels délices l’attendent à l’arrivée. La compagnie polynésienne entretient du reste savamment cette vision grâce aux documentaires et publicités proposés dans l’avion qui vantent l’incomparable beauté des îles.

Le vol est long : traversant les fuseaux horaires, l’avion remonte le temps en rattrapant le soleil, avant de se laisser distancer, et atterrit dans la nuit à Papeete. De cette ville au nom chargé d’exotisme, le premier aperçu aérien est insignifiant, comme peut l’être l’arrivée nocturne dans n’importe quel aéroport. Le voyageur habitué aux tropiques, à peine sorti de l’avion ressentira cette si particulière atmosphère toujours moite et épaisse, cette odeur doucement visqueuse qui imprègne la molle brise du soir. C’est après une improbable et longue nuit de somnolences aux rêves légers que commence l’expérience polynésienne, lorsque le voyageur s’apprête à rejoindre le paradis de vacances qu’il s’est offert. On retrouve donc ses anonymes compagnons de voyage à l’aéroport, là même où la veille au soir, sous la soudaine pluie battante, on les avait laissés à leur taxi. Ils se rendent à Bora-Bora, à Moorea ou dans les Marquises, retrouver enfin les infinies nuances de bleu, de blanc et de vert que Papeete ne peut leur offrir. Staszak a déjà ironisé sur la déception primordiale du touriste égaré à Papeete, lancé dans la recherche vaine d’une plage de cocotiers et n’arrivant que sur une grève de sable noir et vaseux à côté d’une zone industrielle sans attraits. C’est encore ailleurs que le voyageur doit se rendre dans sa quête de l’île paradisiaque, même s’il sait qu’il touche au but : le marché de Papeete et ses poissons multicolores, les paréos bariolés et les effluves délicats mais tenaces de la vanille mûre renforcent son expérience synesthésique de l’exotisme. Après la moiteur et les senteurs, arrivera la vue des plages attendues, point d’orgue et achèvement du dépaysement recherché.

Espace isolé, territoire en sursis

Les atolls des Tuamotu sont une destination de choix pour les amateurs de plongée, ou pour les couples nouvellement mariés (qui du même coup découvriront la plongée), mais on y reste habituellement quelques jours seulement. La vingtaine de touristes qui montent dans ce petit avion ne devrait pas rester plus d’une semaine à Rangiroa, plus grand atoll de Polynésie. En observant par le hublot Tahiti qui défile et finalement s’éloigne, remplacée par l’océan infini, je me rappelle que je vais y rester un mois. Un mois sur un anneau de corail de quelques centaines de mètres de largeur. À l’origine, les atolls étaient des îles qui, une fois éteint le volcan qui en nourrissait le relief, ont commencé lentement à sombrer, s’enfonçant sous leur propre poids en même temps qu’elles étaient rongées par les pluies et les tempêtes. Leur ceinture de corail se maintient toutefois une fois l’île définitivement passée sous l’eau pendant quelques siècles, avant de disparaître à son tour.

On imagine donc, lorsque l’on survole l’immense lagon de Rangiroa, qu’entre cet anneau rempli d’eau existaient autrefois des montagnes et des forêts désormais ennoyées, une île aujourd’hui disparue dont l’ultime témoignage est ce mince récif corallien. Et effectivement, tout est petit sur un atoll, même sur le second plus grand atoll du monde. À peine atterri, on contemple à sa gauche l’océan qui s’écrase en fracas d’écume sur les récifs, et à sa droite l’étendue placide des eaux du lagon, vertes sous le soleil et bleu marine sous la pluie. Les distances ne sont pas non plus énormes, surtout lorsque le village n’est construit que sur une infime partie de l’anneau, séparée des autres par de profondes passes de plusieurs centaines de mètres de large et de profondeur. Me voilà face au lagon, sur un motu (îlot qui compose une ceinture corallienne), au milieu du Pacifique. La fragile connexion internet ne fait pas long feu, et une fois tombée la nuit la sensation d’isolement, comme l’obscurité, soudain s’abat. Accablé de soleil pendant la journée, il est, la nuit, ratissé par d’énergiques bourrasques qui agitent la surface du lagon : aux rafales s’ajoutent le flot des vagues qui viennent mourir aux pieds du bungalow bâti au bord du lagon, et le grondement lourd comme un incessant tonnerre des rouleaux qui attaquent le récif du côté de l’océan. On prend alors la mesure de l’étroitesse bien vulnérable d’une bande de terre si petite face à la force sans merci des vents et de la mer.

La mission de terrain à laquelle je prends part cherche justement à caractériser cette vulnérabilité dans un contexte où aujourd’hui les atolls du Pacifique sont de plus en plus exposés aux aléas hydroclimatiques. Avec leur altitude qui dépasse rarement la dizaine de mètres, ils sont particulièrement fragiles face à un océan dont le niveau des eaux remonte sensiblement. Les houles grignotent de plus en plus les plages, et ainsi réduisent inexorablement les motus habités. En plus d’être isolés, les atolls, qui sont par nature des terres en sursis, voient leur disparition accélérée d’autant. Les tempêtes provoquent désormais des submersions marines qui envahissent les rues du village, salinisent les lentilles d’eau douce, et font chaque année planer le risque d’inondations dommageables.

L’envers du décor : le rythme indolent de l’isolement

Je recroise quelques-uns des touristes avec lesquels j’étais arrivé à Rangiroa quelques jours après, alors que j’allais à l’aéroport pour tirer de l’argent au seul distributeur de l’atoll. Arborant les colliers de coquillages distribués en guise d’au-revoir, les voilà maintenant bronzés et prêts à rejoindre une autre partie de l’archipel. De Rangiroa, ils retiendront la richesse incroyable des abords sous-marins du récif, les excursions dans les parties les plus reculées de l’atoll (mais en fait les plus fréquentées par les circuits touristiques), les sauts prodigieux des dauphins de la passe, et les soirées au bar de l’hôtel égayées de temps à autre par des tamourés pittoresques. Leur pratique spatiale de Rangiroa est donc fondée sur une mobilité artificielle, construite pour eux, qui transforme entièrement le rapport à l’espace et au temps. Leur séjour ne doit comporter aucun temps mort, et chaque jour une activité nouvelle leur donnait l’illusion factice d’un kaléidoscope de paysages qui se recompose à l’envi.

J’avais, au contraire, commencé à expérimenter le début de l’ennui et de l’isolement. Encore fasciné par les dauphins que je voyais parfois bondir au loin, encore émerveillé par la beauté splendide des couleurs que je voyais, je commençais malgré tout à ressentir le quotidien pesant d’un rythme auquel je n’étais pas habitué. Mon dépaysement initial, celui que j’avais construit d’après les images mentales que j’avais et que je me plaisais à retrouver, se décomposait peu à peu, et était remplacé par un dépaysement nouveau, inattendu et moins agréable : celui d’un lieu isolé où lentement s’écoulent les heures. Mes recherches me tenaient occupé la journée, mais c’est le soir que je prenais la mesure de cette lenteur un peu morne une fois le dîner achevé, vers 19 heures. Contrairement aux touristes, je ne vivais pas l’atoll au gré des compositions successives d’excursions ; je n’avais pas encore eu le temps de plonger, ni de circuler bien loin. Mon espace était restreint au motu sur lequel le village était construit, et qui n’était pas bien grand. Je sentais ainsi s’effriter le vernis d’un exotisme de façade, celui de la carte postale, sans tout de suite réaliser que naissait alors la véritable expérience polynésienne : celle de l’insularité exacerbée. Les longues soirées, noires, venteuses, agrémentées par le sinistre aboiement des meutes de chiens errants, sont une autre manière, différente mais peut-être plus réaliste, d’être dépaysé. Même en changeant d’atoll au milieu du séjour, pour quelques enquêtes complémentaires avant de retourner sur Rangiroa, ce sentiment d’enfermement au milieu de l’océan ne disparaissait pas.

C’est notamment sur l’atoll voisin de Tikehau, plus petit que Rangiroa, que se prenait la mesure de l’isolement. La pension de famille ne proposant pas de repas de midi, nous nous sommes sentis bien démunis, avec mes deux collègues, lorsqu’il a fallu trouver quoi faire ce dimanche pluvieux. Le petit restaurant que nous fréquentions habituellement était fermé ce jour-là, et c’est donc sous une pluie de plus en plus forte que nous avons marché les trois cents mètres de route vers l’aéroport. Au milieu des touristes qui partaient vivre ailleurs de nouvelles aventures après avoir consommé ce que l’atoll leur offrait, nous avons, sans rien dire, commandé des paninis de mauvaise qualité, au fromage sans saveur et au jambon d’un rose vif aussi suspect que fluorescent. L’après-midi s’est écoulé avec lenteur, et une fois l’avion parti, nous sommes restés, seuls, dans un aéroport qui allait fermer ses portes. La connexion avec les autres îles était terminée pour la journée.

Ce sentiment d’enfermement est frustrant sur le moment, mais il est largement tempéré par les multiples travaux que supposent une mission de terrain : acquisition des données, tri, traitement, rédaction de comptes-rendus aident à tromper l’ennui. Mais on ne peut s’empêcher de penser à tous ces jeunes qui quittent leur atoll pour rejoindre Tahiti ou d’autres endroits hors de cet isolement de plus en plus mal accepté dans un monde aussi connecté qu’aujourd’hui. Certains, cependant, n’ont pas cette possibilité, et après avoir raté leur scolarité s’en reviennent échouer sur leur atoll, naufragés d’un système dans lequel ils n’ont pas su trouver une place. Désœuvrés, ils refusent la dure vie de leurs parents : la pêche, la récolte des cocos, sont des activités éreintantes dont ils ne veulent pas faire leur quotidien. Le tourisme, prometteur, n’est pas encore suffisamment porteur pour embaucher tout le monde ; et des diplômes, du reste, sont exigés. Mais quels moyens ont-ils, puisqu’ils ne peuvent partir ? Certains se marient, et sous le poids des responsabilités familiales vont alors, bon gré mal gré, pêcher et récolter ; d’autres sombrent dans l’attente improbable d’aides sociales, et se réconfortent tristement dans l’alcool. Le paradis des uns est l’enfer des autres : la beauté des îles, accueillante pour les touristes, est un piège sans issue pour des jeunes qui peinent à s’extraire du chômage.

La richesse du lagon et la solidarité communautaire évitent cependant des situations de dramatique misère matérielle. Avoir de quoi se nourrir et de quoi s’abriter est relativement aisé pour les enfants du pays. Mais il faut compter, là encore, avec le rythme de l’isolement. La pauvreté des sols et la faible taille de l’atoll réduit à presque rien les cultures fruitières ou l’élevage. Il faut donc attendre l’arrivée du cargo, tous les mercredis, pour achalander les magasins et renouveler son stock. Le poisson, grillé ou servi avec une sauce à la vanille, est un mets de base dont on peut vite se lasser, surtout quand on ne réside pas dans un grand hôtel de luxe aux buffets débordants de plats européens et polynésiens. Il faut donc apprendre à respecter le rythme des approvisionnements hebdomadaires, et à accepter les ruptures de stock, qui sont d’inévitables aléas de la vie insulaire, surtout au milieu du Pacifique. (Et la situation, du reste, est plutôt satisfaisante, car le cargo vient chaque semaine. Dans les îles Australes, au sud de la Polynésie, existent des îles qui ne sont visitées qu’une fois par mois.) La population s’en accommode très bien, et, grâce à la pêche, ne dépérit jamais. Grâce aux snacks aussi, et à toute cette nourriture grasse et sucrée qui se conserve aisément et dont raffolent les enfants. Chips, gâteaux, sucreries sont consommés en grandes quantités, et sont responsables de la fin d’un mythe fondateur de la Polynésie, celui de la vahiné. Sorti des hôtels où le personnel est sélectionné et entretenu, on ne croise pas autant de vahinés sensuelles que l’on pourrait naïvement espérer. Trop et mal nourris, les femmes comme les hommes sont, pour beaucoup, en surpoids. Ce taux d’obésité inquiétant doit beaucoup à la mauvaise alimentation, en dépit des nourritures traditionnelles plutôt saines comme les produits de la mer. On demeure donc loin des tableaux de Gauguin aux femmes sensuelles : l’isolement, l’éloignement, participent d’un engouement problématique pour les aliments gras et sucrés.

Retrouver Tahiti

Au début peut-être un peu déçu par Tahiti, le voyageur qui a passé du temps dans les atolls se réjouit, finalement, de retrouver cette grande ville, et en accepte même sans broncher les sables noirs et la zone industrielle.

Papeete a des allures de charmante bourgade de province, un bord de mer agréable et joliment aménagé en jardins fleuris, parsemés de kiosques et de petites mares. Le dépaysement reprend, sur un autre mode : celui du travestissement tropical de la France. On retrouve, du reste, cette impression dans d’autres îles françaises des DROM-COM. La plage Jacques Chirac, l’avenue Charles-de-Gaulle, la surprenante rue Jeanne d’Arc, « héroïne française » qui a donné son nom à un lieu dont elle ne soupçonnait pas l’existence, produisent une odonymie familière dans un lieu qui ne l’est pas. On se sent donc plongé dans un curieux mélange, produisant un exotisme dépaysant et intéressant parce qu’inabouti. Les panneaux indicateurs, sur le même format qu’en France, semblent jurer avec le fond du paysage qui présente les sommets déchiquetés du vieux volcan tahitien ; les girouettes, elles, ploient sous le poids des frégates. Un ami polynésien m’avait confié que Papeete, où il réside, lui rappelait les villes indonésiennes. Je n’ai jamais compris quel lien pouvait unir cette tropicalité urbaine maîtrisée et domestiquée, colonisée si on veut, de Tahiti, avec ces monstres tentaculaires et pourrissants que sont les villes d’Asie du Sud-Est. Le bâti ne se ressemble pas, le trafic, dans un cas régulé, est anarchique dans l’autre, et la rue ne s’y pratique pas de la même manière. Les espaces de la circulation dévolue aux piétons et aux véhicules sont nettement définis à Papeete : des trottoirs et des chaussées sont aménagés. Dans les villes indonésiennes, la démarcation est fluctuante, et la rue est un territoire paradoxal où les voitures et motos règnent en maîtresses impitoyables et nombreuses, mais où, également, s’agglutinent le soir, collés aux immeubles, les restaurants informels. On ne trouve pas ce style d’urbanité à Papeete, où la vie nocturne prend d’autres formes, qui sont en réalité polynésiennes et coloniales dans leurs pratiques et leurs héritages, mais en aucun cas asiatiques.

La présence de la montagne et d’îles pleines, à la différence des atolls qui ne sont que les auréoles coralliennes restantes d’îles aujourd’hui disparues, permet de rompre la monotonie et l’impression d’isolement. La possibilité de circuler à l’intérieur, l’existence même de cet intérieur, est un gage d’activité rassurant, au même titre que les sommets, la matérialité de la terre, ou la présence de vie animale autre qu’aquatique. Mes derniers jours, passés à Tahiti, ont été une cascade de petites excursions offertes par mes amis de Papeete, rompant radicalement avec la sensation de mol ennui que parfois, à longueur de temps, on pouvait ressentir dans ces atolls plats et un peu monotones. Les plantations de vanille et d’ananas à perte de vue de Moorea, les rivières de Tahiti, les oiseaux dans la forêt, ont été la concrétisation de cette Polynésie sauvage, fleurie et splendide que l’on ne fait qu’effleurer, que l’on sait exister, mais que l’on relègue au second plan, puisqu’on est au départ obnubilé par les plages, sans se douter de l’ennui qu’elles peuvent produire.

Le temps s’est accéléré soudainement, à Tahiti, en fin de séjour, après un mois dans les atolls. Très beaux souvenirs, belles images, impression de vacances. Mais c’est après tout bien normal : j’ai vu Tahiti comme un touriste, alors que j’avais vécu les atolls comme un de leurs habitants, partageant leur rythme, si différent du mien, et arpentant leur territoire si fragile.

TOURISM IS COMING – l’impact de Game of Thrones sur les économies locales

Bertrand de Véricourt — Tue, 24 May 2016 08:47:54 +0000

Par Tony Hauck avec HashtagMonde & Le Point Pop

Carte des sites de tournage et de l’évolution du tourisme régionalVoir en plein écran
Connaissez-vous le set-jetting ? C’est le mode de tourisme qui monte en ce XXIe siècle télévore. Il consiste à choisir vos vacances en fonction de… vos films préférés ! Selon une étude de Tourism Competitive Intelligence, en 2012, 40 millions de touristes ont sélectionné leur destination de villégiature parce qu’un tournage avait eu lieu à cet endroit. Un des derniers exemples en date est celui de la petite île de Skellig Michael, au sud-ouest de l’Irlande, qui explose tous ses records de fréquentation depuis la sortie du dernier Star Wars (et pour cause : on la découvre sous tous les angles lors de la scène finale !).

Difficile de mesurer avec précision l’impact du set-jetting (ainsi surnommé parce que « set », dans le jargon anglophone, signifie « décor »). Mais les chiffres liés à la fréquentation des anciens lieux de tournage parlent pour eux. Un an après la sortie de Braveheart, la fréquentation du Wallace Monument a explosé de 300 %. Il faut sauver le Soldat Ryan a dopé la fréquentation du cimetière américain de Colleville-sur-Mer, dans le Calvados, de 40 %. Et puis, bien sûr, il y a la Nouvelle-Zélande qui, une fois transformée en Terre du Milieu par Le Seigneur des Anneaux, est passée de 1,5 millions à 2,4 millions de visiteurs entre 2000 et 2006.

Jusqu’ici, le set-jetting était surtout lié au cinéma, la plupart des séries télé se contentant d’espaces confinés ou de décors réalisés en studio. Mais avec son budget multimillionnaire et ses paysages fantastiques, Game of Thrones fut l’une des séries qui a changé la donne. L’équipe d’HBO a multiplié les tournages in situ, si bien qu’il est facile aujourd’hui de visiter Dorne (Séville), Winterfell (Castle Ward en Irlande) ou encore Yunkai (Aït-ben-Haddou au Maroc).

Jamais encore une série n’aura eu un tel impact sur le tourisme à l’échelle de plusieurs pays européens. Comme vous pourrez le constater sur notre carte, qui référence l’ensemble des lieux de tournage de la série, presque toutes les régions qui ont accueilli une scène de Game of Thrones ont enregistré par la suite une hausse de fréquentation. Au cours de notre enquête, nous avons par ailleurs dénombré plus d’une soixantaine de tours spécialisés dans les circuits Game of Thrones.

L’Irlande du Nord, dont une majorité des scènes de la série ont été tournées sur son sol, est l’exemple le plus frappant de la puissance de Game of Thrones. Selon le Times, les producteurs de la série ont dépensé plus de 140 millions d’euros en Irlande du Nord et ont créé plus de 900 emplois à temps plein au cours des six dernières années. Le district d’Antrim et Newtownabbey a vu sa fréquentation exploser de plus 300 % entre 2011 et 2014, une des plus fortes augmentations enregistrées dans l’ensemble du Royaume-Uni. Des dizaines de tours sont organisés chaque jour, alliant découverte des sites de tournage et activités inspirées par la série. Il vous est, par exemple, possible d’apprendre à tirer à l’arc au château de Ward comme le jeune Bran Stark à Winterfell, ou de marcher sur les traces de Theon Greyjoy à Ballintoy Harbour.

Non loin de là, en Islande, le tourisme griffé GoT prospère aussi. La fréquentation de l’île s’est envolée de plus de 100 % entre 2010 et 2014. Une dizaine de tours opérateurs organisent des randonnées pour les touristes friands de paysages désolés au nord du mur, contrées des sauvageons et autres marcheurs blancs. On ne saurait que trop vous conseiller d’entrer dans la grotte Grjótagjá, ayant abrité les batifolages de Jon et Ygrit (au grand dam des touristes, l’instant câlin au cœur de ces sources thermales n’est pas inclus dans le tour).

**¡ Muchas gracias Juego de tronos !**

Game of Thrones a par ailleurs su redonner un coup de fouet à des économies en berne. En Andalousie, la petite ville d’Osuna (18 000 habitants), d’ordinaire calme et désertée aux heures creuses de l’après-midi, a vu débarquer 86 000 personnes venues de toute l’Espagne pour tenter de figurer dans la série. La série a insufflé un nouveau dynamisme à cette région violemment touchée par la crise de 2008 et où le taux de chômage culmine à 35 %. Depuis, on peut y déguster des tapas Jon Snow (poulet au curry) ou Arya (salade de jeunes pousses sur une crème de carottes au beurre, accompagnée de pruneaux et de fruits secs).

Cependant, Osuna n’est pas la seule à avoir bénéficié de l’effet GoT. L’an dernier, le gouvernement espagnol a voté une loi proposant une déduction de 15 % des coûts de production audiovisuelle si ceux-ci dépassent le million d’euros. La réaction de HBO ne s’est pas faite attendre : une grande partie de la saison 6 a été tournée sur la péninsule ibérique. Cette dernière mise sur une augmentation du nombre de visiteurs au cours des prochains mois et des tours opérateurs sont déjà à l’œuvre pour organiser des circuits incluant tous les sites de tournage de la saison en cours de diffusion.

Autre pays pour qui Game of Thrones a été une véritable aubaine : la Croatie. Son impact est d’autant plus important que le tourisme compte pour 20 % du PIB national. Après des années de perturbations liées à la guerre civile yougoslave, les recettes affluent de nouveau. Et la série y est pour beaucoup ! Le maire de Dubrovnik a avoué que la moitié des 10 % de croissance annuelle du secteur du tourisme étaient directement liés à Game of Thrones (Bloomberg). La fréquentation touristique de la région de Dubrovnik-Neretva a bondi de presque 42 % entre 2010 et 2014, soit 10 % par an !

Tous les chemins mènent à la Croatie

Comme l’indique l’Office National Croate du Tourisme, avec l’ouverture de nouveaux vols comme Nantes-Dubrovnik, Marseille-Dubrovnik, Bordeaux-Split ou Toulouse-Split : « les fans de Game of Thrones ont le choix pour se rendre sur les lieux de tournage de leur série favorite». Une fois à Dubrovnik, vous pourrez monter sur les remparts de Port-Réal afin de retracer les batailles les plus sanglantes de la série, puis partir en direction de la région de Split, où ont été tournés les péripéties de Daenerys et de ses acolytes ailés.

Reste à savoir ce qu’il adviendra lorsque la série adaptée des romans de George R.R. Martin fera ses adieux. Dans l’espoir de maintenir cet effet set-jetting le plus longtemps possible, les autorités locales de nombreuses régions tentent désormais de conserver les décors après la fin du tournage, à l’image de Hobbitebourg en Nouvelle-Zélande. En Irlande du Nord, le célèbre Mur protégé par la Garde de nuit pourrait ainsi devenir une attraction touristique à part entière. Un futur lieu de pèlerinage pour tous les fans ?

Méthodologie

La démarche :

Cherchant le lien de cause à effet entre le tournage de la série sur un site et le tourisme sur ce même site, nous avons réuni les indices suivants :

le set-jetting est un vrai phénomène (voir l’étude de Tourism Competitive Intelligence)
Il y a de très nombreuses corrélations entre la diffusion de GoT et le développement du tourisme sur les sites (voir diagrammes de variation du tourisme sur la première carte).
Les sites s’emparent du phénomène et l’amplifient: des tours opérateurs dans tous les pays cités développent des tours sur le thème de Game Of Thrones. Nous en avons dénombré plus de 60.

Les données :

Les données du tourisme dépendent de la définition du touriste (vacancier, voyageur d’affaire, autre) et de leur méthode d’acquisition (nombre de nuitées dans les hôtels, sondages, visiteurs de lieux touristiques).

Nous avons donc plutôt tâché de restituer une tendance :

– En Irlande du Nord, les chiffres recueillis recensent la variation de la fréquentation pour un ensemble d’attractions touristiques (choisies par le site de statistiques officiel).

– Pour l’Andalousie, nous avons utilisé les chiffres sur le nombre de voyageurs recensés dans les établissements hôteliers.

– Concernant Malte, nous avons estimé le nombre de touristes en prenant le nombre de touristes entrants total auquel on soustrait le pourcentage de voyageurs business des années antérieures (ce pourcentage n’était pas disponible pour les années considérées).

– Pour le Maroc, nous avons additionné le cumul des arrivées dans les établissements hôteliers pour chacune des régions entre Janvier et Décembre de 2010 à 2014.