PREDICT THE PRESIDENT – Pour qui vote le peuple Twitter ?

 

par Davy Benssoussan, Bertrand de Véricourt, Raphaël Vignes

Les instituts de sondages dessinent leurs tendances d’intention de vote à l’aide de panels de 1000 à 3000 individus représentatifs de 45 millions d’électeurs français, dont entre 15 et 30% ne devraient néanmoins pas voter. Malgré la caution scientifique de la loi des grands nombres, les opinions payantes de ce “peuple des sondés” présentent, comme toute statistique, un biais que les opinions gratuites véhiculées par les 100 000 tweets quotidiens sur les candidats que nous communique le “peuple Twitter” peut aider à contrebalancer. Mais ce n’est pas aussi simple…

1/ Les résultats des sondages, “critique” de leur méthodologie

Des atouts réels…

un outil puissant :

Les sondages sont un outil très puissant pour dessiner des tendances et estimer un vote. Si l’on se réfère à Arthur Muller, du cabinet de stratégie politique LMP : “[en analysant l’historique des sondages des élections présidentielles passées], à quelques semaines du vote, la marge d’erreur [par rapport au résultat] est de 2-3 points” (écouter à 9’30 : source).

qui répond à une question précise :

Ils ont l’avantage assez évident, dans notre cas d’étude en tout cas, de donner une réponse définie à une question précise : “Pour qui allez-vous voter?”.

et distingue opinion et intention de vote :

il existe des sondages d’opinion et des sondages d’intention de vote, séparant ce qu’on pense d’un candidat, de ce qu’on pense de ce que ferait ce candidat s’il était élu.

Des expériences alternatives aident à mieux percevoir les subtilités du scrutin uninominal (“je vote pour un seul candidat”) que nous employons : ainsi le “vote par approbation” (“je vote pour tous ceux que j’approuve”) se rapproche d’un vote par opinion, et atténue l’effet du vote utile : dans une expérience de 2012, Bayrou arrivait alors devant Sarkozy (source).

… mais des défauts réels aussi

des renversements de position inopinés :

Néanmoins… les élections de 1995 et 2002 ont montré qu’au sein des présumées “marges d’erreurs” peuvent se jouer des inversions de position qui changent radicalement la donne.

En 1995 : 2 jours avant le scrutin, Chirac devance Jospin de 3,5 % dans les sondages.  L’écart est finalement de 2,5… mais dans l’autre sens!

En 2002 : 3 jours avant le scrutin, Jospin avait en moyenne 4,5 % de plus que Le Pen selon les instituts. Finalement, ce dernier le devance de moins d’1 % en ce désormais fameux 21 avril.

(Source : Le Monde du 30/03/2017)

un fondement scientifique relatif :

Autre point à la charge des sondages français : pour des questions pratiques, ceux-ci s’appuient sur des méthodes proches de celle des quota, qui n’est pas validée par la théorie statistique. IPSOS l’explique d’ailleurs très bien sur son site web. Une des conséquences de cette méthode moins coûteuse, et qui permet de remplacer un individu de panel par un autre aux mêmes caractéristiques sociodémographiques est que la marge d’erreur est elle aussi à prendre avec des pincettes.

des méthodes opaques pour un type d’élection inédit :

Nul parmi les instituts ne prétend que les résultats bruts des sondés peuvent donner une bonne estimation. Il faut retraiter les données pour anticiper le vote extrême non assumé par exemple : c’est un “redressement d’échantillon”.

De ce que l’on sait des redressements, encore opaques, c’est qu’ils se font d’abord à partir des votes aux élections antérieures. Or justement, l’élection présidentielle de 2017 présente une situation inédite par rapport à ces dernières années, ce que les votes antérieurs auront du mal à restituer.

des informations périodiques :

Face à la hausse de la volatilité de l’opinion due à notre époque d’hypercommunication, il est intéressant d’avoir un instrument de mesure en continu.

Mais les sondages ne reflètent pas l’évolution de l’opinion au cours du week-end (le vote ayant lieu un dimanche), ils ne reflètent pas davantage les réactions en temps réel suite à un débat, à une émission ou à une annonce. De plus, ils sont légalement obligés de ne pas divulguer de chiffre le samedi précédant le vote.

          Dans cette liste non exhaustive des problématiques entrevues, celles de l’échantillonnage (la méthode des quota) et de la périodicité de l’information pourraient d’ici quelques années trouver des solutions vraiment efficaces et pérennes à l’aide du Big Data.

Le nombre de recherches Google montre – en direct – l’impact de Mélenchon sur le débat du 20 mars. Cet impact, encore de l’ordre du buzz, réussira ensuite à se transformer en intentions de vote.

Cela ressemble à un credo usé jusqu’à la moelle, mais c’est un fait qu’il est bon de rappeler : le nombre de données croît, et même accélère. Selon IBM en 2016, “90% des données dans le monde ont été créées au cours des deux dernières années seulement”.

Et en particulier sur Internet, où les réseaux sociaux captent voire diffusent les données que nous lui confions. L’un d’eux a l’avantage et le défaut d’être majoritairement public : Twitter.

D’autres critiques vulgarisées sur les sondages : http://www.francetvinfo.fr/elections/sondages/election-presidentielle-dix-raisons-qui-expliquent-pourquoi-les-sondages-peuvent-seplanter_2102031.html

2/ Qui est le peuple Twitter ?

          Twitter, réseau social ayant la particularité de faire de chacun de nous un média public qui partage des Unes et des liens plutôt que de longs textes argumentés, représente aujourd’hui 300 millions de personnes dans le monde, par ce qu’elles expriment, partagent, ou même, dans une moindre mesure, par l’intérêt qu’elles portent aux tweets qui passent.

Si les 1000 personnes formant le “peuple des sondés” peuvent ne pas être représentatif de la population Française en âge et en niveau d’études notamment, il est certain que le peuple Twitter ne l’est pas non plus, du moins pas aujourd’hui – mais il représente beaucoup de monde.

Qui sont ces gens dont nous cherchons l’opinion, quels sont ces individus en réseau ?

Panorama de Twitter en France

500 000 twitteurs politiques en 2 mois

Les Américains représentent 67 millions des utilisateurs actifs (twitteurs ou simples lecteurs), soit presque le quart des utilisateurs, mais quasiment 20% de la population des USA si l’on considère un utilisateur comme un citoyen distinct (source) – hypothèse à vérifier par ailleurs.

Regardons du côté de la France : Twitter y fait venir à lui près de 15 millions de visiteurs uniques (source), donc pas forcément des utilisateurs actifs, ne tweetant pas forcément, et pas forcément sur la politique… Mais sur les tweets politiques que nous avons récoltés entre février et mars, nous avons bien comptabilisé 500 000 auteurs, un nombre assez considérable.

Le peuple Twitter en France, quelle sociologie?

Selon des données communiquées par Twitter en 2015 :

  • Âge : les 16-24 ans sont majoritaires et représentent 33% des utilisateurs. Les 35-44 ans sont eux aussi bien présents et sont 25% des utilisateurs.
  • Sexe : 55% d’hommes, 45% de femmes.
  • Situation maritale : 40% des utilisateurs français sont célibataires, 25% sont mariés.
  • Études : au niveau des diplômes, 36% des utilisateurs sont allés à l’école jusqu’à 18 ans, 19% ont un BTS ou Bac Pro et 29% un diplôme universitaire.

Twitter, la nouvelle Assemblée Nationale?

L’essor du tweet politique

En 2015, les sujets les plus abordés sur la version française étaient la musique, le cinéma, les sciences et technologies (source).

Mais en 2016, les élections américaines firent l’objet du deuxième hashtag le plus utilisé sur Twitter ( “#Election2016”, source), allant à l’encontre de l’image d’un réseau de divertissement creux ou d’un lieu de partage des férus de techno qu’il a pu avoir auparavant.

Cette intuition, confortée par l’importance de l’usage de Twitter dans l’élection américaine, la création par Twitter d’un compte dédié à la politique française (@TwitterPolFR), ainsi que par la forte présence des politiques français, est confirmée par nos données : nous avons récolté 7 millions de tweets mentionnant les candidats sur 2 mois, soit plus de 115 000 tweets/jour en moyenne !

3/ Pour qui vote le peuple Twitter ? (sentiment analysis)

Nous avons procédé à deux analyses : une sur le mois de mars (du 6 mars au 6 avril), et une autre sur 48h (du 8 au 11 avril à midi) qui rend compte de la volatilité des sentiments sur Twitter.

MARS 2017

Voici donc les 3 premiers candidats (cf Méthodologie) pour lesquels voterait le peuple Twitter en mars si ses tweets avaient la force d’un bulletin. Les résultats sont agrégés sur la période du 6 mars au 6 avril :

1er : François Fillon, avec 12 216 points

François Fillon

2ème : Emmanuel Macron, avec 11 491 points

Emmanuel Macron

3ème : Marine Le Pen, avec 5 168 points

Marine Le Pen

Et voici l’évolution de ce vote :

Evolution du score des 3 premiers candidats sur Twitter en mars 2017

Notez bien ici que les valeurs en ordonnée correspondent au nombre de mentions considérées * le ratio de tweets positifs ou neutres sur le total.

Des tweets récoltés nous avons ôté ici ceux contenant plusieurs mentions de candidats, ce qui peut concerner 50% des tweets d’une journée.

A noter!

Si l’on ne considérait que le ratio des tweets mentionnant un candidat, et non le nombre de fois où celui-ci est mentionné en tout, nous trouverions ceci :

Sentiment des twitteurs, sans prise en compte du volume de tweets

On y remarque l’omniprésence de la critique négative sur Twitter, et les très bons scores du vote extrême : les colonnes représentent en effet les sentiments positifs + neutres, le fait de “faire le buzz” étant un argument favorable dans notre méthode de notation.

SUR 48H, DU DIMANCHE 8 AU MARDI 11 AVRIL 2017 A MIDI

Pour voir la percée de J-L Mélenchon et tester l’impact d’un vote sur une période resserrée, nous avons ressorti les urnes. Voici le classement de tous les candidats sur 48h, avec des données plus fraîches :

 

Outre la nouvelle position de Mélenchon, on remarque le score important de Dupont-Aignan : il effectue d’ailleurs une remontée spectaculaire entre les deux tranches de 24h en passant de la 6e à la 3e place en doublant son score (le nombre de tweets favorables ou neutres passe de 2 500 à 5 000).

4/ Conclusion

          Il existe de nombreux indicateurs de popularité sur les réseaux sociaux, et notamment sur Twitter : le nombre de nouveaux followers divisé par le nombre total de followers, le nombre de retweets, de “j’aime”, leur évolution, atténuer l’effet des plus gros volumes de tweets neutres en les passant au logarithme… Il faudra faire des calculs plus savants pour restituer la complexité du vote des gens et combiner nos données avec celles des sondages pour y parvenir.

Malgré leurs défauts, ceux-ci ont déjà fait preuve de grandes qualités : l’objectif du “Big Data” sera donc d’améliorer leur valeur prédictive soit en modifiant leur valeur (“10% pour tel candidat”), soit en les contextualisant (“tel candidat a 10% dans les sondages, mais un poids numérique de 12%”).

Dans cet article, nous avons présenté une méthode simple à comprendre et donc interprétable, qui n’exprime qu’un “vote du peuple Twitter”. C’est le reflet d’une réalité en ligne qui est comme un miroir déformant des sondages. Elle y ressemble, mais change parfois les rapports de force parmi des candidats de même gabarit.

Mais l’objectif final de nos travaux est en réalité d’aller plus loin, et d’expérimenter l’alliance entre les contraires : les sondages, les données socio-économiques et les données d’Internet. Cette méthode, et ses résultats expérimentaux, nous vous les présenterons dans le prochain article.

5/ Méthodologie

          Nous avons pris le parti d’utiliser les données de Twitter car le volume de données accessible est considérable et les cinq  principaux candidats (d’après les sondages) y sont significativement mentionnés. Nous disposons bien des données de recherche Google Trends, qui couvrent une plus large population, mais, déjà agrégées et normalisées, elles ne nous permettent pas de faire de traitements poussés.

Nous récoltons uniquement les tweets mentionnant les noms des candidats, ce qui peut se faire de diverses façons : “lepen”, “lepen ou encore “mlp” correspondra ainsi à Marine Le Pen, son père intervenant largement moins sur Twitter. Si le tweet ne contient que le terme “#franceinsoumise” par exemple, nous ne le captons pas – c’est un choix qui simplifie notre collecte.

Des tweets récoltés nous avons ôté ici ceux contenant plusieurs mentions de candidats, ce qui peut concerner 50% des tweets d’une journée.

A noter que nous ne filtrons pas les éventuels bots, qui, s’ils existent, ne tweetent pas à haute fréquence.

Nous n’affichons pas le score final Twitter des autres candidats, à cause d’un doute sur le nombre de tweets de J-L Mélenchon. Mais après vérification sur une autre base de données, nous avons constaté qu’il avait effectivement beaucoup moins de tweets que Marine Le Pen en mars (plus d’un tiers de mois), et le pourcentage de sentiments entre ces deux candidats est du même ordre (70%) : il reçoit donc moins de suffrages sur le réseau. Nous ôtons donc tous ceux qui se trouvent au-dessous des 3 premiers, et avons révisé la liste de mots-clés de collecte de tweets pour ce candidat avec succès.

Leave a Reply

Your email address will not be published. Required fields are marked *