«This was a screw up» : Andrew Weinstein, AOL

Je viens de lire ça dans les news du journal «Le Monde» en ligne : le 7 août AOL aurait retiré un listing de leur réseau.

Un listing accessible à tous pendant 10 jours, même si uniquement les chercheurs d’AOL en conaissaient l’existence jusqu’à dimanche (le 608 donc).
Un fichier contenant les mots‐clé de recherche de quelques 650 000 abonnés pendant 3 mois, soit apparemment une vingtaine de millions de requêtes associées à des identifiants… Étaient également enregistrés la date des recherches et les liens qu’ont suivi les utilisateurs !

Basic Collection Statistics
Dates:
01 March, 2006 — 31 May, 2006

Normalized queries:
36,389,567 lines of data
21,011,340 instances of new queries (w/ or w/o click‐through)
7,887,022 requests for «next page» of results
19,442,629 user click‐through events
16,946,938 queries w/o user click‐through
10,154,742 unique (normalized) queries
657,426 unique user ID’s

Fichier «lisez‐moi» distribué avec le fichier par AOL.

AOL a quand même eu la gentillesse de ne pas associer les mots‐clés au nom de leur client ni à leur identifiant AOL, pour ne pas rendre ces données nominatives. Sauf que certains abonnés ont recherché leur nom sur le net, d’autres ont voulu connaître la pizzeria la plus proche de chez eux, d’autres ont cherché des renseignements sur des médicaments, sur des maladies, sur des problèmes plus personnels.

Et lorsque la même personne a effectué des recherches sur le net, tous les enregistrements sont liés au même identifiant dans le fichier. De quoi connaître un paquet d’informations sur ses voisins s’ils ont eu la bonté de rechercher leur nom au moins une fois durant les 3 derniers mois…

La différence principale avec les requêtes effectuées sur un autre moteur de recherche, c’est que les toutes les recherches effectuées par une même personne sont répertoriées comme appartenant au même identifiant. Car AOL ne fournit pas seulement un moteur de recherche, AOL est également un fournisseur d’accès à internet ! Google, Yahoo et MSN search sont par exemple incapables de fournir de telles informations (sauf peut‐être pour ceux qui ont un compte gmail, yahoo mail ou hotmail, qui laissent les cookies activés pour éviter la phase de connexion pour consulter leur messagerie).

Le problème soulevé par cette annonce (encore toute fraiche) est triple à mon sens :

  • Pourquoi AOL a collecté ces informations, aussi personnelles ? Croire que d’associer les requêtes à un identifiant au lieu d’un nom effacerait toute liaison possible entre les personnes et les recherche, c’est un peu simpliste !
  • Pourquoi AOL a utilisé prévoyait d’utiliser ces informations ?
  • Pourquoi AOL a publié ces informations, mis à la disposition ce fichier sans autre protection que «bah, personne ne sait qu’il est là, alors seuls ceux qui savent peuvent y accéder». Ça c’est de la sécurité ? Bravo !

Résultat, CNN.com ou Le Monde.fr (je n’en ai pas lu d’autres pour l’instant) ne résistent pas à nous révéler le contenu de certaines requêtes pour le moins inquiétantes. Et je doute que les exemples donnés dans leurs articles ne soient que le fruit de l’imagination des journalistes…
Enfin, les petits franchouillards AOLiens qui auraient pu faire des recherches douteuses ou personnelles pendant les 3 derniers mois : ce fichier ne concerne «que» les abonnés américains.


Big brother
Are you watching me
They got a file on me
And I don’t know what’s in it

Calvin Russell, Big Brother (A crack in Time)

Laisser un commentaire