Fonctionnement de la publicité en ligne

À l’exception de la dernière partie, le contenu de cette page est une reproduction d’une série de 3 articles écris par Numemdil sur son site pixellibre.net et partagé sous licence CC0.

 

La publicité en ligne, épisode 1 : c’est quoi, la publicité ?

Dans ce billet, nous allons nous intéresser au fonctionnement des systèmes publicitaires en ligne. Beaucoup de personnes savent reconnaître de la publicité, cependant je crois que peu de personnes savent comment ça fonctionne derrière. L’objet de ce billet est donc de vous donner quelques éléments pour commencer à comprendre tout ça.

Pour baser mes explications sur des éléments concrets, j’ai décidé d’analyser les systèmes publicitaires connectés, directement ou indirectement, au site BFMTV.com. J’ai utilisé une ressource externe pour vous présenter des données plus « graphiques » et compréhensibles, faire une infographie parlante nécessitant un jeu de données que je n’ai pas totalement.

Cartographie des systèmes de publicité utilisés par BFMTV

Cartographie des systèmes de publicité utilisés par BFMTV

La publicité de BFM en chiffres

Au total, j’ai trouvé 388 liens directs ou indirects en relation avec le ciblage d’utilisateurs, le suivi et la collecte de données de navigation ou encore la publicité en ligne.

Dans le détail, voici la répartition que j’ai obtenue :

Type Nombre % total
Publicité (Ad – Bleu) 174 45%
Analytiques (Rouge) 11 3%
Trackers (Jaune) 58 15%
Widgets (Vert) 3 <1%
« Autres » (Gris) 142 37%

 

Dans la catégorie « autres », il y a tout ce qui correspond indirectement au fonctionnement du reste, comme par exemple « cdn.elasticad.net », ou encore « tag.leadplace.fr ». Ces systèmes sont plus de « simples » serveurs qui font passer de la donnée ou envoient cette dernière ailleurs. N’ayant pas trouvé de catégorie adéquate, ils sont donc rangés dans « autres ». Pour autant, ils ne sont pas à négliger, comme vous pouvez le voir dans l’image ci-dessous

le cdn.elasticad.net renvoie à tag.leadplace.fr qui renvoie à son tour à d’autres systèmes publicitaires.

le cdn.elasticad.net renvoie à tag.leadplace.fr qui renvoie à son tour à d’autres systèmes publicitaires.

Ce chiffre peut sembler important, mais il faut bien comprendre le fonctionnement de la publicité en ligne : en général, chaque site est spécialisé dans une fonction bien précise de la chaîne qui livre de la publicité sur le site.

Prenons un exemple : le site de BFMTV utilise Elastic Ad (http://www.elasticad.com/) pour sa publicité Native. Via son CDN, Elastic Ad s’adresse par exemple à Nugg.Ad (https://www.nugg.ad), un fournisseur de publicités ciblées, qui lui-même peut s’adresser à d’autres entreprises, comme The Adex (http://www.theadex.com/), une DMP – nous y reviendrons – qui va lui fournir davantage de données. Une fois les données obtenues, Nugg.Ad ira chercher un contenu à afficher, qui sera renvoyé sur le site de BFMTV, sous forme de publicité native.

Pour information, voici une présentation de la société Nugg.ad (en anglais, le contenu n’existe pas en français)

 

Comme expliqué, près de 400 liens reliés au domaine de la publicité, cela peut sembler beaucoup mais on se rend compte, avec l’explication précédente, que ce nombre peut monter très très rapidement.

Présentation des catégories

Analytiques

Dans cette catégorie, en rouge sur la cartographie, on retrouve les plateformes qui permettent de faire de l’agrégation et de l’analyse de données, elles permettent également de générer des rapports et de suivre les performances marketing de(s) entreprise(s) qui utilisent ces données.

Pour BFMTV, on retrouve par exemple Google Analytics, AT Internet, Ad Safe ou encore eStat (le système de Médiamétrie). Ces plateformes fournissent du contenu à un ensemble d’acteurs afin de connaître leurs visiteurs. Cela permet d’avoir la segmentation des visiteurs (tranche d’âge, centres d’intérêts, provenance de l’internaute, pays, etc.) et ces données peuvent être utilisées soit par le site éditeur pour son propre suivi, soit par ses tiers publicitaires pour cibler davantage les internautes qui naviguent sur le site.

Trackers

Dans cette catégorie, on retrouve certains sites d’analytiques. Les trackers sont là pour « intercepter » la donnée, la collecter, parfois de façon très large. Ainsi, certains trackers ne collectent que des données anonymes (informations du navigateur, données du cookie, page vue) là où d’autres ont un système de collecte bien plus large, comme la société SAS (https://www.sas.com/en_us/home.html) qui semble collecter des données allant de l’adresse IP au nom, prénom, adresse, numéro de téléphone ou à l’adresse e-mail, cf. https://www.sas.com/en_us/legal/privacy.html.

Il est également possible de citer Eyeota, toujours dans la catégorie des trackers (http://www.eyeota.com/). Cette société fournit des données et des systèmes afin de cibler correctement une population d’internautes dans le cadre de campagnes marketing. Ils s’appuient sur un ensemble de données propriétaires et tierces :

We are the global leader in audience data with 3.5 billion unique profiles in Europe, Asia-Pacific and the Americas. We provide marketers with the data they need to reach the right online audiences and cut campaign waste whilst also enabling publishers to monetize their audiences more widely. Our data delivers deep audience insights to help brands understand their customers in a new way – as humans.

Connexions de la société Eyeota dans le système de publicité BFMTV

Connexions de la société Eyeota dans le système de publicité BFMTV

Widgets

Dans la publicité, les widgets permettent de pousser du contenu « augmenté », on présentera du contenu sponsorisé – de la publicité, soyons clairs – sous forme d’une fenêtre interactive, d’un comparateur de prix, d’un carrousel d’information, le principe étant d’intégrer au maximum la publicité au site. Facebook utilise sa fonction « Facebook Connect » sur le site de BFMTV. Ce dernier utilise également Taboola (via Elastic Ad dans notre carte) pour pousser du contenu complémentaire, comme présenté dans l’image ci-dessous.

 

contenu poussé par Taboola

Ces widgets semblent collecter énormément de données, certaines anonymes, d’autres personnelles et identifiables. On parle de PII, pour Personally identifiable information.

Taboola collecte donc beaucoup de données, comme indiqué dans leurs privacy policies, https://www.taboola.com/privacy-policy#customers-1-1 :

  • Nom du consommateur,
  • adresse e-mail,
  • numéro de téléphone,
  • informations de la carte de paiement,
  • données des cookies,
  • données démographiques,
  • pages vues,
  • adresse IP,
  • identifiant unique de l’appareil,
  • etc.

Taboola partage des jeux de données, anonymes et identifiables, avec des tiers, sans pour autant donner davantage de détails sur qui, quoi, quand et pourquoi.

Le gros sujet : catégorie publicité.

C’est la catégorie la plus présente dans notre cartographie, et sans doute la plus large en termes d’usages. Nous allons d’abord la présenter globalement, avant d’entrer dans le détail et les différents acteurs qui composent la publicité.

La publicité regroupe l’ensemble des acteurs qui proposent des contenus publicitaires. Elle est en bleu sur notre cartographie. Les acteurs publicitaires ici, sont :

  • Ceux qui fournissent directement du contenu publicitaire au site
  • Ceux qui fournissent indirectement du contenu publicitaire
  • Ceux qui permettent d’acheter de la publicité en lot
  • Ceux qui permettent d’acheter de la publicité en direct, à l’unité
  • Les sites d’enchères sur la publicité

Pour fonctionner, ces sites font appel aux autres catégories présentées avant.

Par exemple, AppNexus, un énorme fournisseur de publicité, utilise les données des tiers, fournies par BFMTV et transmet ses données à d’autres tiers, qui iront fournir des informations sur les publicités présentées, achetées ou remportées.

Présence de AppNexus dans l'univers de la publicité sur BFMTV

Présence de AppNexus dans l’univers de la publicité sur BFMTV

Quelques acteurs de la publicité

Pour réellement comprendre le fonctionnement de la publicité en ligne, il faut comprendre le rôle de chaque acteur, nous allons donc les découvrir ensemble. SSP, DMP, DSP et autres abréviations n’auront plus de secret pour vous et, normalement, tout devrait être plus clair.

La publicité est composée d’acteurs qui permettent donc d’acheter de la publicité, de proposer de la publicité, de faire des enchères sur des emplacements publicitaires ou encore de collecter des données sur les internautes un ensemble de sites afin de disposer d’informations précises pour cibler des personnes en fonction d’un ensemble de critères.

La DMP

DMP Signifie Data Management Platform, ou plateforme de gestion des données. Comme son nom l’indique, elle permet de récupérer, gérer, centraliser, regrouper ou utiliser des données liées aux clients et potentiels clients.

La DMP est une sorte de « méga » base de données, dans laquelle on retrouvera donc un ensemble d’informations sur, potentiellement, de très nombreuses personnes. Les éditeurs ou publicitaires font appel aux DMP pour traiter les informations sur leurs internautes et clients, pour optimiser le ciblage publicitaire.

Elle permet d’analyser et de qualifier correctement une audience sur un site. Elle peut également acheter ou revendre des données complémentaires à d’autres plateformes pour cibler encore plus précisément les clients, on parle alors de Data Exchange. Les DMP récentes permettent d’intégrer une dimension multicanal, off et online, on peut consolider les données d’un client avec tout ce qui existe sur lui sur l’ensemble des canaux possibles, pour résumer.

Voici un support de présentation qui vous donnera davantage d’explications sur les DMP

Vous l’aurez compris, les DMP, de par leurs fonctions, occupent un rôle très important dans le monde de la publicité. Sans gestion des données, pas de base de clients.

DSP

La DSP, ou Demand-side Platform, est une plateforme qui permet aux annonceurs et aux agences de gérer les connexions aux ad exchanges et data exchanges dans une seule et même interface.

Quand une page est chargée par un internaute, une DSP va évaluer la proposition de publicité pour ses annonceurs publicitaires.

Prenons un exemple concret pour bien comprendre le rôle de la DSP. Un internaute ouvre une page web, admettons celle de BFMTV. A l’ouverture de la page, des demandes d’affichage de publicité vont être mises aux enchères. Selon différentes méthodes, en temps réel ou non, des annonceurs proposent un prix sur cette ou ces enchères et c’est généralement l’enchère la plus élevée qui remporte l’affichage. La publicité est alors diffusée à l’internaute.

Schema fonctionnement DSP

Source : https://www.slideshare.net/christophedane1/20140408-deck-udecam-prgrammatiquesalon-emarketing

Même si je n’entrerai pas davantage dans le détail, la DSP est donc là pour proposer de la publicité ciblée, elle représente ses clients sur les Ad Exchanges et est là pour acheter des espaces publicitaires chez des annonceurs, des sites si vous préférez.

SSP

Si la DSP est là pour acheter des espaces publicitaires, la SSP est là pour en offrir. La SSP, ou Sell-side Platform, permet d’automatiser la vente des espaces publicitaires, quand ces derniers n’ont pas été gérés par la régie interne de l’éditeur. En fonction d’un certain nombre de critères, dont le profil de l’utilisateur, la DSP recherchera la publicité la plus adaptée à diffuser, en faisant appel, elle aussi, aux Ad Exchanges.

Ad Exchanges

Nous venons de voir les DSP et les SSP, on va s’intéresser maintenant aux Ad Exchanges (ici abrégées en ADX). Une ADX est une plateforme d’achat et de vente automatisée d’espaces publicitaires. Sur ces plateformes, on retrouve les demandeurs d’espaces publicitaires (annonceurs, agences publicitaires, etc.) et les offreurs (sites, éditeurs, régies publicitaires).

Ça fait beaucoup d’informations d’un coup, n’est-ce pas ? Voici un petit schéma simplifié pour replacer les acteurs au bon endroit, tout va devenir plus clair.

fonctionnement DSP SSP ADX

Exemple de fonctionnement « simple » d’une livraison de publicité sur deux espaces mis en vente

C’est sans doute plus clair ainsi.

A noter qu’il existe deux types d’ADX, les publiques et les privées. Les publiques, ou ouvertes, sont le modèle classique où un très grand nombre d’éditeurs, agences, Ad network, SSP, DSP, etc. se retrouvent. Les ADX privées sont…privées, généralement gérés directement par les éditeurs.

Dans cette configuration, l’éditeur peut choisir avec qui travailler, avec qui faire des enchères. Il dispose donc d’un plus grand contrôle sur la publicité et peut choisir avec davantage de soin la meilleure publicité à afficher. Il faut cependant avoir un trafic très important, pour donner envie aux annonceurs et agences de venir se connecter à l’ADX privée.

Petite remarque : ce système d’ADX, qu’il soit public ou privé, est partiellement responsable de la lenteur de chargements de pages. Même si les enchères sont automatisées et très rapides, moins de 10ms en général, le temps de placer l’enchère, qu’elle soit remportée, que votre navigateur aille se connecter à la plateforme publicitaire pour charger le contenu qui a remporté l’enchère, voire aux plateformes s’il y a plusieurs espaces publicitaires, bah… ça prend du temps.

Pour terminer cette présentation, je vous propose quelques ressources complémentaires, pas forcément en français en revanche, pour mieux comprendre le fonctionnement de la publicité en ligne.

Une vidéo sur le fonctionnement des achats en temps réel d’espaces publicitaires : https://www.youtube.com/watch?v=-Glgi9RRuJs

Un glossaire très large des définitions relatives au monde de la publicité en ligne : https://www.definitions-marketing.com/glossaire/publicite-display-et-video-sur-internet/

Enfin, précision importante : l’objectif de ce billet n’est pas de critiquer ou de vanter la publicité en ligne, mais d’expliquer son fonctionnement, au moins de façon partielle. Dans les prochains épisodes, nous nous intéresserons à d’autres aspects de la publicité en ligne, dont celui (surtout) de la vie privée.

Pour ce billet, j’ai utilisé les données de Ghostery, celles de la base de donnée de trackers référencés par Ghostery, les mentions légales des sites mentionnés, le site définitions-marketing.com et l’outil https://trackermap.evidon.com, solution payante qui se sert elle aussi des données disponibles via Ghostery. Les cartes proviennent de ce site, qui propose de réaliser une cartographie gratuite par mois. Si vous avez mieux, ou d’autres liens qui donnent autant d’informations, n’hésitez pas à les partager.

La publicité en ligne, épisode 2 : qu’est-ce qui est collecté ?

Dans le premier épisode publié, nous avons observé ensemble comment pouvait fonctionner une partie de la publicité en ligne, principalement via les DMP, DSP et SSP. Si ces termes ne vous parlent pas, je vous invite à consulter le premier article rédigé avant d’entamer la lecture de la suite.

Pourquoi collecter des données ?

On va d’abord se demander à quoi servent nos données pour les acteurs de la publicité en ligne, ceci nous permettra ensuite de s’intéresser à ce qui est collecté, à ce qui est anonyme, plus ou moins anonyme et à ce qui ne l’est pas du tout.

La collecte, dans l’ensemble, ne sert qu’un seul but : mieux nous connaître. L’objectif principal n’est rien d’autre que nous proposer du contenu ciblé, adapté à qui nous sommes sur de nombreux critères.

Les objectifs qui découlent de ce premier sont, eux aussi, assez évidents : optimiser le coût des campagnes marketing, augmenter le taux de clic, d’achat, de présentation de la bonne publicité, au bon moment, au bon endroit.

Effet pervers de la publicité : la surveillance en ligne des personnes qui ne se protègent pas. La publicité contribue massivement, bien qu’indirectement, au pistage des internautes en ligne, mais nous y reviendrons dans un prochain billet.

La présentation varie selon les sites, les mots ne sont pas les mêmes et les objectifs non plus, mais le principe est globalement identique : une DMP a pour objectif la collecte large des données relatives aux internautes, anonymes ou non. Plus elle disposera de données, plus elle sera privilégiée car sa base de prospects et de client sera détaillée, sa segmentation sera fine (catégorie socio-professionnelle, âge, profession, sexe, centres d’intérêts, etc.).

Les DSP analysent également les contenus proposés, basés sur les impressions (les fois où une publicité va s’afficher, pour vulgariser). Cela leur permet d’améliorer et d’adapter les campagnes marketing en cours, de réajuster les contenus en fonction des centres d’intérêt, certaines allant jusqu’à analyser le retour sur investissement des agences publicitaires sur les campagnes marketing.

Plus un éditeur dispose de données sur son public, plus il sera à même de qualifier – c’est-à-dire renseigner – sa base d’utilisateurs et plus il sera à même de transmettre des données à ses partenaires ou à sa régie, qui utiliseront ces données pour cibler parfois très précisément les impressions possibles. Enfin, les impressions, c’est un indicateur d’affichage d’un élément publicitaire dans une campagne de publicité. Par exemple, chez moi, le taux d’impression des sites que je visite est de 0, l’ensemble de la publicité étant bloqué. Cela ne veut pas dire qu’on clique dessus ou qu’il se passe quelque chose, mais juste que la publicité a été présentée. L’objectif est donc d’améliorer la rentabilité des impressions.

Autre possibilité, cette fois sans DMP : il est possible qu’une webID, ou identité en ligne, qui regroupe un ensemble d’informations potentiellement très vastes sur vous, soit partagée entre DSP et SSP. De cette façon et en se partageant votre identité, ils disposent d’informations très précises sur qui vous êtes, vos potentielles préférences, centres d’intérêts et autres, ce qui permettra de cibler davantage et, théoriquement, d’avoir des meilleurs retours sur investissements des impressions.

Conclusion : l’intérêt pour un éditeur, une DMP, DSP, SSP ou tout autre acteur, se résume en un concept simple : la donnée, c’est la vie. Plus il y en a, plus les impressions ont une chance d’être rentables, car mieux taillées, plus adaptées, donc ciblées précisément.

Les cookies

On terminera cette partie avec les cookies, évidents mais toujours bons à présenter. Dans le cadre de la publicité en ligne, ces fichiers sont transmis aux DSP/DMP, dans le cadre des enchères.

L’achat d’espace publicitaires en temps réel s’appelle RTB, pour Real Time Bidding. Des espaces publicitaires sont mis en offre. Des demandeurs, via des programmes automatisés, font une enchère sur l’espace publicitaire, mais pas n’importe comment.

Grâce à l’identification via un cookie, l’impression publicitaire aura une valeur plus ou moins élevée, avec certains centres d’intérêt par exemple. Ces informations seront transmises dans l’ADX. La SSP, dans une volonté d’optimisation de l’espace publicitaire, va déclarer un profil idéal de publicité à servir. Le système du RTB va alors lui proposer le profil qui statistiquement semble le plus correspondre au profil recherché (bon segment de marché, bon centre d’intérêt, etc.).

Si ce pourcentage est considéré comme acceptable par la SSP, elle émet son enchère pour l’espace publicitaire, les DSP vont alors enchérir pour remporter l’espace mis en vente. Cette enchère est établie automatiquement, sur un temps donné, très court (de l’ordre de quelques fractions de secondes).

Les cookies servent donc à personnaliser davantage les annonces publicitaires et sont utiles sur les systèmes RTB. Si un utilisateur a vidé ses cookies ou n’a pas pu être identifié, la publicité qui lui sera proposée sera moins adaptée, plus générique, elle rapportera donc moins d’argent.

C’est pour cette raison que la quasi-totalité des acteurs cherchent à obtenir le plus de données possibles, et des données qui ne dépendent pas forcément de notre bon vouloir, puisqu’il est très facile de contrôler les cookies.

Avoir des données, d’accord, mais…

Comment et quelles données sont collectées ?

Sur ce point, les différents acteurs du marché ont clairement une imagination débordante, on résumera les pratiques de la façon suivante : tout est bon, ou presque, pour récupérer de la donnée, même si ça se fait – plus ou moins pour tout le monde – dans le respect de la loi.

Les commandes et achats en ligne

Des données sont récoltées lorsque vous passez une commande sur un site d’e-commerce. L’éditeur peut revendre ces données à des tiers afin de construire ou consolider un fichier à des fins publicitaires.

Ici il est possible de récupérer les informations suivantes :

  • vos commandes,
  • nom,
  • prénoms,
  • votre panier,
  • le montant de ce dernier,
  • votre fréquence d’achat,
  • les produits les plus vus,
  • le temps passé sur une ou plusieurs fiches produit,
  • vos coordonnées,
  • votre ville ou pays,
  • votre date de naissance

Techniquement, tout ce qui est dans la base de données de l’éditeur peut se retrouver partagé ou vendu à des tiers à des fins publicitaires. Cela ne signifie pas qu’il revend une partie ou l’ensemble de ces données, mais juste qu’il est en capacité de le faire.

Les enquêtes

Lorsqu’un éditeur lance une enquête sur son entreprise, qu’elle porte sur votre satisfaction, sur un achat récent ou juste pour récupérer votre avis sur un point spécifique, c’est presque toujours pour consolider ou obtenir des données sur ses clients.

Ici, il est possible de récupérer :

  • Le nom
  • Le prénom
  • L’âge
  • Le sexe

Globalement, les données d’un formulaire sont souvent des données à caractère personnel plus précieuses que celles glanées sur l’observation des comportements en ligne. On obtient même des informations des personnes qui ne répondent pas à l’enquête : « pas d’accord pour donner leurs données », ou « pas intéressés par cette enquête », c’est déjà une information qui aide à segmenter son fichier client.

Les concours

Quand il y a quelque chose à gagner, les internautes sont toujours plus enclins à donner un peu d’informations. On demandera quelques informations personnelles en échange d’une chance de gagner… une opportunité de connaître :

  • L’adresse mail d’un client ou d’un prospect
  • Un centre d’intérêt, voire plusieurs

L’analyse des métriques en ligne, ou la surveillance de l’internaute

C’est sans doute la première chose à laquelle on pense quand il est question d’analyse des internautes. Via un ensemble d’outils, du plus au moins intrusif, on collecte un ensemble de faits et gestes de l’internaute :

  • La ou les pages visitées
  • Le temps passé à visiter telle ou telle page
  • L’adresse de provenance de l’internaute (par où arrive-t-il)
  • Son adresse IP
  • Sa localisation, son pays, sa ville, voire davantage sur mobile
  • Son identifiant unique, ou uniqueID, un identifiant publicitaire, cf. le Web ID dont nous parlions précédemment
  • Des données démographiques
  • Les mouvements de votre souris
  • Votre comportement général sur un site

Ces données permettent soit d’enrichir une base de clients, soit de la consolider, soit d’analyser le comportement de l’internaute pour personnaliser son expérience ou obtenir un meilleur taux d’engagement, en plaçant un contenu publicitaire de la bonne façon, pile au bon endroit et à l’exact moment où c’est nécessaire.

Comme expliqué, certaines techniques sont très contraignantes, et compliquées à contourner, comme le « pixel publicitaire ». D’autres le sont moins, comme l’analyse comportementale de l’internaute sur un site.

On pourra également citer l’e-mail, qui est utilisé pour collecter des données sur vos usages. Sans entrer dans le détail technique, une entreprise est en capacité de voir si vous ouvrez ou non un mail qu’elle vous envoie. Elle est également en capacité de savoir si vous avez cliqué sur quelque chose dans l’e-mail, si suite à cet e-mail, vous avez acheté quelque chose, etc. Elle sait également si vous avez ouvert cet e-mail sur PC ou sur téléphone et peut récupérer bien d’autres informations encore.

Celui qui voit tout.

Et comment ne pas parler des réseaux sociaux, Facebook en tête, qui collecte et revend vos (nos) données ? Ce que vous faites, ce sur quoi vous cliquez, ce que vous aimez, les groupes dont vous faites partie, les pages que vous aimez, les commentaires laissés, les produits vus depuis le site ou depuis un site connecté à Facebook, votre âge, etc.

A titre d’information, une simple publication Facebook peut être mise en avant via la publicité Facebook, en fonction de :

  • l’âge,
  • le sexe,
  • le pays,
  • la ville,
  • la langue parlée,
  • Le niveau d’éducation (lycée, bac, diplôme associé, diplôme professionnel, diplôme universitaire, doctorat, collège, Master, école supérieure, non spécifié, université mais parcours partiel, le domaine d’étude, les écoles fréquentées, les années d’étude),
  • Le niveau financier (entre 1700 et 2899€ mensuels, entre 2900 et 4099€, plus de 4100€),
  • Le domicile (propriétaire ou locataire, appartement ou maison, foyer en collocation ou foyer familial,
  • Les « évènements marquants » (le fait d’être ami de quelqu’un de précis, la date anniversaire, un déménagement récent, jeunes fiancés depuis trois mois ou un an, jeunes mariés depuis trois mois, six mois ou un an, le fait d’être éloigné de sa famille ou de sa maison, le fait d’être nouveaux fiancés, d’avoir un nouvel emploi, une nouvelle relation ou des relations à distance
  • Le fait d’être parent (nouveaux parents entre 0 et 12 mois, avec adolescents de 13 à 18 ans, avec enfants de 6 à 8 ans, avec des enfants de 1 à 2 ans, de 3 à 5 ans, de 8 à 12 ans)
  • Les préférences politiques (disponible aux états unis seulement pour l’instant… à titre d’information, Facebook dispose d’un peu plus de 150 millions de données pour cet unique point, uniquement aux états unis),
  • Les relations (intéressé par les femmes, les hommes, les deux, ou non spécifié),
  • La situation amoureuse (Concubinage, Célibataire, le « C’est compliqué », dans une relation libre, divorcé, en couple, fiancé, marié, non spécifiée, pacsé, séparé ou veuf),
  • Le milieu professionnel (employeur ou secteur d’activité : affaires et finances, agriculture, pêche, industrie forestière, architecture et ingénierie, armée, arts, divertissements, sports et médias, calcul et mathématiques, communauté et services sociaux, construction et extraction, fonctionnaire, gestion, production, restauration, Science sociales, physiques et du vivant, services administratifs, services de nettoyage et de maintenance, services de protection, services d’aide à domicile, services d’installation et de réparation, services informatiques et techniques, services juridiques, services médicaux et de santé, transports et déplacements, ventes, Vétérans (États-Unis), éducation et bibliothèques, postes,
  • Par centre d’intérêt (Affaire, Agriculture, Architecture, Aviation, Construction, Design graphique, Dessin de mode, décoration intérieure, conception web, développement web, hébergement web, marketing des médias sociaux, marketing numérique, marketing par e-mail, médias sociaux, optimisation des moteurs de recherche, publicité en ligne, publicité visuelle, entrepreneuriat, assurances, carte de crédit, hypothèques, investissement, immobilier, ingénierie, management, marketing, petites entreprises, publicité, science, services financiers, banque d’investissement, banque en ligne, banque pour particuliers, soins de santé, soins infirmiers, soldes, vente au détail, économie, éducation supérieure, divertissement, films, comédies, films animés, films de Bollywood, films de science fiction, films documentaires, films dramatiques, films d’action, films d’animation, films d’horreur, films fantastiques, salle de spectacle, Thrillers
  • ….

Je n’ai pas fait le quart de la liste des données disponibles (et vendues) par Facebook aux annonceurs, je vous laisse imaginer le niveau de finesse dont le réseau dispose.

De cette façon, vous avez une idée assez précise de ce qu’on entend par « qualifier » un internaute, ainsi que du niveau de détail qu’il est possible d’obtenir sur vous. Ainsi, il sera possible de vous pousser du contenu qui va vous engager plus que le reste, sur lequel vous cliquerez plus, plus longtemps, plus souvent.

On résume : quelles données sont collectées ? En soi, le plus de données possibles qui pourraient vous identifier ou renforcer votre profil auprès des annonceurs.

PS : tant qu’à aller dans beaucoup de détails, certains sites adultes, voire clairement pornographiques, font usage de cookies tiers ou d’une connexion directe aux tuyaux de Google.

Donc en plus de savoir que vous avez 41 ans, marié, deux enfants en bas âge de moins de 8 ans et un adolescent de moins de 18 ans, travaillant dans le secteur de l’énergie, depuis 4 ans, après avoir déménagé trois fois en moins de 5 ans, que vos idées politiques semblent être à droite, que vous habitez une maison individuelle et que vos centres d’intérêts sont l’aviation et l’économie, quelque part, quelqu’un sait que vous aimez les vidéos extrêmes ou de violence sexuelles.

Et c’est sans doute une donnée marketing, pour certains annonceurs.

La seconde partie de ce billet en trois actes est terminée. Vous savez comment fonctionne la publicité en ligne avec le premier billet, vous savez comment les données sont collectées et quelles données sont collectées en ligne.

La publicité en ligne, épisode 3 : les problèmes liés à la publicité

Après avoir vu ensemble comment fonctionne une partie des systèmes de publicité puis abordé le sujet des données récoltées ainsi que les raisons de cette récolte, attaquons-nous maintenant aux problèmes liés à la publicité.

Le chargement des pages

Certaines personnes y pensent, d’autres non : avoir de la publicité ralentit considérablement le temps de chargement des pages visitées, ainsi que le poids de ces pages. Nous allons revenir à notre exemple de BFMTV pour avoir des mesures plus parlantes.

Voici ce qu’il se passe lorsque vous chargez « uniquement » le contenu de BFMTV. Pas de trackers externes, pas de chargement de publicité, pas de scripts tiers qui récupèrent de la donnée, le contenu ici est uniquement celui du site.

Informations : tests réalisés avec Firefox 56, sur une ligne ADSL à 16 mégas. Informations récupérées via la console réseau de Firefox, sans être en mode privé, avec uBlock Origin, uMatrix et HTTPS Everywhere (des plugins dont on parlera plus tard et qui permette de bloquer les publicités et trackers)

BFMTV sans la publicité

BFMTV sans la publicité

Le temps de chargement, dans l’ensemble, est relativement correct, avec ou sans mise en cache. On charge quand-même un peu plus de 2Mo pour obtenir la page, mais ça reste correct.

Observons maintenant un second test, dans les mêmes conditions de test, mais avec uBlock Origin, uMatrix et HTTPS Everywhere désactivés.

BFM avec la publicité

BFM avec la publicité

Clairement, ça pique. Plus de 17 secondes de chargement avec une mise en cache, plus de 20 sans la mise en cache, et plus de la moitié des éléments à charger sont des js, ou javascripts.

Si la page « n’est que » deux fois plus lourde, 4.5Mo, le temps de chargement est, lui, environ 11.6 fois plus élevé.

Pourquoi ?

Si vous avez lu les deux premiers billets, de dont je ne doute pas, vous l’aurez compris : d’un côté, votre navigateur doit aller se connecter çà et là pour récupérer du contenu publicitaire. De l’autre, des enchères sont réalisés, via le RTB, pour vendre certains espaces publicitaires du site. Le temps qu’ils soient mis en vente, vendus, que votre navigateur se connecte au site tiers, récupère le contenu, le charge, ça prend du temps, et de la bande passante.

Dans notre pays, sur nos lignes qui sont majoritairement en haut débit, pas de problème. Mais en mobilité ? Sur une connexion chancelante ? Dans un autre pays si vous êtes en voyage ? De la même façon, charger ces ressources, c’est un coût en bande passante, en stockage, en énergie…

Je chipote peut-être, ou peut-être pas après tout, lorsqu’on voit la différence phénoménale entre ce site avec et sans pub, ces questions arrivent très rapidement. On parle de plus de 50% du chargement consacré à la publicité, excusez-moi du peu.

Une dernière remarque sur ce point : j’ai pris le site de BFMTV, mais le test est valable avec bien d’autres sites : plus de la moitié de la donnée chargée et du temps consacré à charger tout ceci est pris par la publicité…

Un problème de vie privée

La principale problématique de la publicité, c’est le risque qu’elle fait peser sur l’intimité et la vie privée des internautes. Nous l’avons vu dans le second billet, les acteurs de la publicité en ligne cherchent à récupérer le plus de données sur nous. D’un côté pour alimenter leurs bases, de l’autre pour segmenter plus finalement, disposer de plus de variables et donc, de capacités de présentation de la bonne publicité, sur la bonne impression, pour maximiser son retour sur investissement.

Qu’est-ce qui est collecté ? Comment ? Est-ce que cette récupération est sécurisée (a minima, est-ce que la connexion est sécurisée) ? Où sont stockées ces données ? Sont-elles revendues ? A qui ?

Il faut voir ce secteur comme n’importe quelle grande entreprise : elle dispose de données, elle effectue des opérations et obtenir le détail de ces opérations relève parfois de l’impossible.

Si certaines mentions légales, comme celles de BFMTV, sont relativement claires, d’autres sont au moins autant claires qu’un jour de brouillard épais en Angleterre.

Et mêmes dans celles de BFMTV, un problème subsiste et est parfaitement mis en avant :

La liste ci-dessus n’est pas une liste exhaustive car elle ne comprend pas les cookies déposés par des tiers dans le cadre de la publicité issue d’achats programmatiques (enchères en temps réel ou real time bidding « RTB »). En effet, l’identification du dépôt de cookies dans ce cadre ne peut techniquement être constatée qu’à postériori du dépôt et uniquement pendant la durée de vie de la campagne programmatique.

Dans le cadre du RTB, il n’est pas directement possible d’interdire le dépôt du cookie depuis le site de l’éditeur. D’autant plus qu’en fonction de qui remporte l’enchère, le cookie ne sera pas le même, pas émis par la même source.

On se retrouve, à cet instant de la réflexion, face à un problème de taille : impossible d’interdire entièrement le ciblage et la collecte de nos faits et gestes à des fins publicitaires. Il existe évidemment des solutions, mais nous y viendrons à la fin de ce billet.

La surveillance

C’est un problème connu des activistes de la vie privée, dont votre serviteur estime faire partie : la publicité contribue massivement à la surveillance en ligne. Comprenons-nous bien : avec les deux précédents billets, vous avez compris et les mécanismes de la publicité, et le spectre des données collectées, qui est tout simplement phénoménal.

La base de données de Facebook est capable, à l’utilisateur près, de dire qui a tel ou tel âge, qui est intéressé par tel ou tel chose, qui fait quoi, travaille où … et c’est bien plus massif que ça : grâce aux applications mobiles, il est également possible de connaître vos déplacements et indirectement, les lieux où vous êtes toute la journée. Ainsi, Facebook sait où vous vivez, où vous travaillez, qui vous voyez, etc. Google est capable d’en savoir au moins autant, si ce n’est plus.

Un outil de rêve, avec des données disponibles sur énormément de personnes, que demander de plus ?

Les sites internet, les BFMTV, les Youtube et les autres, existent et se financent majoritairement ou exclusivement sur des systèmes qui gravitent autour de la publicité et, sauf erreur de ma part, ce sont les pionniers de la surveillance en ligne. Certes de la surveillance à des fins publicitaires, mais de la surveillance.

D’ailleurs, les éléments qui démontrent qu’il est possible de surveiller quelqu’un avec la publicité ne manquent pas. Récemment, une étude publiée par trois chercheurs de l’Université de Washington démontrait qu’il était capable de traquer les déplacements d’un individu, pour une somme négligeable pour des services de renseignement. L’étude, disponible ici (en anglais mais un article en français est disponible ici) est une belle démonstration des liens qui peuvent exister entre surveillance et publicité. Si la surveillance est capable d’exister sans la publicité, l’inverse n’est pas réciproque et les techniques développées par le monde de la publicité servent, sans aucun doute, les finalités de la surveillance en ligne.

Et maintenant ?

Pour vous rendre compte de ce que cela donne dans votre navigation, vous pouvez installer LightBeam, une extension pour Firefox qui permet de visualiser les interactions avec les sites que vous visitez et des tierces parties. On peut facilement voir que certains acteurs vont être au courant de nos visites à de nombreux sites sans que nous en ayons envie.
Pensez à désactiver la protection contre le traçage intégrée avec LightBeam et les bloqueurs de pub que vous pouvez déjà avoir pour avoir un résultat plus concret.

Maintenant que vous savez comment fonctionne le système publicitaire en ligne, nous allons nous concentrer sur les pratiques et outils permettant de limiter ces effets en les détaillants ici.