Cet article est un développement d'un message publié sur la liste de diffusion des enseignants de SNT.


Une stratégie que j'entends régulièrement pour se protéger de la collecte de données des grandes entreprises du numérique (GAFAM par exemple) est d'utiliser un pseudonyme. Une amie m'a proposé de créer un compte Facebook avec un pseudonyme pour partager (en privé) mes photos de famille ; des collègues créent des comptes pour des élèves sur des services en ligne avec des pseudonymes. Je pense que les personnes qui proposent cela pensent que notre nom et prénom sont nos données les plus personnelles. Je ne suis pas d'accord.

Mon nom n'est pas une donnée très personnelle.

Identification sur internet

Commençont par lister différentes méthodes par lesquelles nous pouvons être identifiés lors de notre navigation sur le web. Par identifier, j'entends qu'une entité (probablement une entreprise) peut savoir que la même personne a consulté deux pages différentes.

Connexion

Lorsque je suis connecté à mon compte Facebook, Twitter, Google, Amazon, etc., et que je navigue sur ces sites là, ils savent évidemment quelles pages je visite.

Mais si je visite une page hors de Google, et que cette page inclus un logo hébergé par Google, ou une publicité gérée par Google, ou un script Google Analytics, ou un élément invisible pour traquer les visiteurs, Google sait que c'est moi, utilisateur connecté avec mon compte Google, qui visite cette page, même si elle n'est pas hébergée par Google. C'est évidemment valable pour les autres entreprises du net.

Cookies

Avec un profil Firefox vierge, en ayant désactivé la plupart des sécurités par défaut, j'ai affiché la page d'accueil de Le Bon Coin, L'Équipe et Voici, et j'ai accepté l'utilisation des cookies. Les cookies des sites web suivants (que je n'ai pas consultés directement) ont été sauvegardés sur mon ordinateur :

Certains de ces cookies sont légitimes. Par exemple, un site web peut me demander si je préfère visiter la version anglaise ou française, et se souvenir de mon choix en l'enregistrant dans un cookie, pour ne pas me reposer la question à chaque visite.

Mais ici, par exemple, l'URL https://googleads.g.doubleclick.net a déposé un cookie nommé IDE avec la valeur AHWqTUllAX-TllIscpNAssa8N8FCUf9bWkdimfG7NmsaryEX1EUJ-afOny_b5M5qmdc. Cela ressemble fortement à une identification unique. Et effectivement, en regardant la page Publicité, on peut lire :

C'est grâce à la publicité que Google et de nombreux sites Web et services que vous utilisez restent gratuits. Nous mettons tout en œuvre pour nous assurer que les annonces sont sûres, discrètes et aussi pertinentes que possible. […]

[…] En collaboration avec nos partenaires, nous pouvons ainsi utiliser des cookies à diverses fins : pour vous éviter de voir plusieurs fois la même annonce, […], pour diffuser des annonces plus pertinentes (par exemple, en fonction des sites que vous avez visités).

Nous conservons un enregistrement des annonces que nous diffusons dans nos journaux. En règle générale, ces journaux de serveur peuvent inclure votre requête Web, votre adresse IP, le type et la langue de votre navigateur, la date et l'heure de votre requête, ainsi qu'un ou plusieurs cookies permettant d'identifier votre navigateur de façon unique.

Après m'avoir rassuré en expliquant que les publicités sont là pour mon bien (et non pas pour me manipuler en me faisant acheter des produits inutiles dont je n'ai pas besoin, et ainsi enrichir des personnes déjà trop riches qui exploitent des personnes trop pauvres pour s'enrichir encore plus tout en détruisant la planète), Google explique que ces cookies permettent d'identifier mon navigateur de manière unique.

Donc si je visite une page web qui diffuse une publicité gérée par Google, un cookie est placé sur mon ordinateur avec un identifiant unique. Plus tard, lorsque je visiterai une page web qui n'a rien à voir, mais qui diffuse également une publicité gérée par Google, ce dernier reconnaitra l'identifiant unique de mon cookie, et saura que c'est le même navigateur (donc probablement la même personne, ou au moins le même foyer) qui a visité les deux pages.

Cette stratégie est aussi utilisée par toutes les autres grandes entreprise du numérique qui vivent de la publicité.

Adresse IP

Et si je refuse les cookies, ou que j'ai installé une extension qui supprime régulièrement les cookies ? Il est possible de m'identifier en utilisant mon adresse IP.

Tout comme chaque ligne téléphonique peut être identifiée par un numéro de téléphone, chaque connexion à internet est identifiée par une adresse IP. Lorsque je consulte une page web sur internet, le serveur doit connaitre mon adresse IP pour savoir où renvoyer l'information (la page web) demandée.

Si je consulte plusieurs pages web qui n'ont rien à voir, mais qui contiennent un logo ou un traqueur de Facebook cachés, Facebook sait que la même adresse IP (donc la même connexion à internet : même personne, ou même foyer, ou même entreprise) a consulté ces deux pages.

Il est possible de s'en protéger (en utilisant tor avec le tor browesr par exemple), mais la connexion devient plus lente, et certains services ne fonctionnent plus.

Empreinte numérique

Enfin, lorsque l'on consulte une page web, de nombreuses informations sont envoyées au serveur : taille de l'écran, système d'exploitation et navigateur (et version) utilisés, langue préférée, etc. Ces informations peuvent être utiles :

  • système d'exploitation : lorsque vous téléchargez un logiciel, le site web peut vous proposer en priorité le programme adapté ;
  • navigateur (et version du navigateur) : même si tous les navigateurs devraient respecter les standards du web, ils fonctionnent tous un peu différement en pratique. Il est parfois utile pour un serveur d'envoyer une information différente selon le navigateur, pour contourner certains bugs ;
  • langue préférée : pour vous proposer votre langue favorite par défaut ;
  • taille de l'écran : pour deviner si vous êtes sur ordinateur or smartphone, et vous proposer une version du site web adaptée ;
  • etc.

Mais si des millions d'internautes utilisent le même système d'exploitation que moi, des millions d'internautes utilisent le même navigateur que moi, des millions d'internautes utilisent la même langue que moi, des millions d'internautes utilisent un écran de la même taille que le mien… très peu possèdent exactement toutes ces caractéristiques en même temps. Par exemple, parmi les trois millions de personnes ayant vitisé la page web AmIUnique, je suis le seul à avoir cette empreinte.

Moins précise que les méthodes précédentes, cette technique est quand même utile.

Quelques exemples

Voici quelques exemples fictifs qui montrent que même sans mes nom et prénom, les entreprises du numériques peuvent recueillir des données très personnelles sur moi.

Pseudonyme

Je crée un compte Facebook pour rester en contact avec ma famille et mes amis géographiquement éloignés, mais comme je n'aime pas trop facebook, j'utilise un pseudonyme. Facebook ne connait pas ma vraie identité, mais :

  • Facebook sait qui sont mes amis et qui est ma famille, quelle est ma proximité avec eux, à quelle fréquence je communique avec eux (ce que mes proches ne savent pas : ma mère ne sait pas que je discute avec ma tante plus qu'avec elle ; mon amoureuse ne sait pas que je partage plus de choses avec mon meilleur ami qu'avec elle ; mon amoureux ne sait pas que j'échange plus de messages avec mon collègue qu'avec lui) ;
  • grâce aux boutons « J'aime » présents les pages web de mes sites d'information, même si je ne clique pas dessus, Facebook sait quelles informations m'intéressent (ce que ma famille ne sait pas parce que nous ne parlons pas de politique) ;
  • grâce aux amis qui m'ont taggué sur leurs photos, Facebook connait mon visage ;
  • quand je parcours l'historique de jolies filles ou jolis garçons à la recherche de photo d'elles et eux en maillot de bain, que je regarde s'ils ont des ami·e·s aussi mignon·nne·s qu'elles, Facebook connait mes goûts esthétiques et sexuels (que personne ne connaît avec une telle finesse) ;
  • etc.

Musique

Je me délecte d'être un amateur de musique éclairé, n'écoutant que de la musique que je considère élitiste : musique classique peu connue, musique underground, groupes amateurs pas encore célèbres… Ma radio en ligne (Spotify, Deezer, Last.fm…) sait que c'est faux, et que j'écoute la même soupe que tout le monde (ce que moi-même j'ignore, me mentant à moi-même).

Élèves

Ayant fait un sondage en classe, je sais que tous mes élèves ont un compte Discord, qu'ils utilisent principalement pour discuter en jouant à des jeux vidéos. Je décide donc de m'en servir pour faire mes cours à distance. Discord connaissait déjà certains liens entre certains élèves à qui il arrive de discuter ensemble en utilisant ce service, mais en faisant un cours à toute la classe, je donne une information supplémentaire à Discord : ces 36 personnes font partie d'un même groupe, et ont donc probablement des caractéristiques communes (ici la même tranche d'âge, la même ville…).

Sondage en direct

Pour rendre mon cours plus vivant, j'utilise AhaSlides (ou un service similaire), qui permet aux élèves de flasher un QRCode avec leur smartphone pour répondre à un sondage en direct. Remarquons que même si les élèves n'ont pas de compte sur le site web utilisé, avec les méthodes décrites plus haut, le service web sait que ces 36 élèves étaient au même endroit au même moment (et forment donc, par certains aspects, un groupe homogène).

Vidéo en ligne

Voulant faire une petite pause dans la correction de mes copies, je me laisse absorber par Youtube, Tiktok, ou autre. En repérant quelles vidéos je regarde, pendant combien de temps, quelles recommandations je suis, ce service sait quel genre de contenu suscite des émotions chez moi (rire, colère, tendresse…).

Conclusion

Mon nom et mon prénom ne sont finalement pas si personnels que ça. Beaucoup de gens les connaissent : les lecteurs et lectrices de ce blog, le gouvernement, le policier qui a contrôlé mon permis de conduire, ma compagnie d'électricité, la pizzeria qui m'a livré mon repas, la supérette du coin chez qui j'ai une carte de fidélité, mon plombier, l'entreprise chez qui j'ai acheté un produit en ligne, la SNCF…

Toutes les informations décrites plus haut (mes opinions politiques, mes relations affectives, mes goûts musicaux et esthétiques, mon appartenance à différents groupes sociaux, etc.) sont en revanche très personnelles. Très peu de gens les connaissent, et personne ne les connaît toutes. Un pseudonyme ne protège pas contre la collecte de ces données.

C'est la raison pour laquelle, même en utilisant des pseudonymes, j'utilise avec mes élèves exclusivement les services en lignes fournis par mon employeur (l'ENT de mon lycée, apps.education.fr, Ma classe à la maison, etc.).