huyghe.fr - Le site de François-Bernard Huyghe
OK
 Sur Twitter : @huyghefb
 Comprendre les conflits : une nouvelle polémologie
 Terrorisme
 Affrontements, stratégies et images
 Information, pouvoir et usage : l'infostratégie
 Intelligence économique : du savoir à l'influence
 Pouvoirs et information
 Transmission et communication : la médiologie
 Médiologie au présent
 Médiologie de l'histoire
 Divers
 Textes à télécharger
 Huyghe Infostratégie Sarl
Information, pouvoir et usage : l'infostratégie > Intelligence économique : du savoir à l'influence
Qu'est-ce que s'informer ? 3° partie
La quête de l'information numérique

Qu’est-ce que s’informer ? 3° partie.



Comment s’informer sur Internet au sens défini précédemment (acquérir des connaissances vraies et pertinentes) ? Il semblerait que la question doive être résolue depuis longtemps tant il existe de sociétés, de consultants, de logiciels, qui se proposent de nous initier aux délices de la veille sociétale ou stratégique, avec des bases de données, de la cartographie sémantique, du knowledge management, du crawling, du data mining et autres techniques qu’il faudra évaluer par benchmarking… Par ailleurs, qui n’a un jour suivi une formation sur l’emploi des métamoteurs et des agents intelligents, qui n’a au moins lu un texte sur les opérateurs booléens (qui relient plusieurs des mots d’une requête par des termes comme et, ou, sauf, etc) ?

Parmi ceux qui liront ces lignes, il y aura sans doute quelques uns parmi les milliers de professionnels de la quête d’information dans notre pays, et plus vraisemblablement encore, des lecteurs qui passent plusieurs heures par semaine à veiller face à un écran. Ceux-là sont certainement sidérés par la surabondance des moyens offerts.

Pour ne donner qu’un exemple le CIGREF (Club Informatique des Grandes Entreprises Françaises) publie un guide des outils de collecte, traitement et visualisation de l’information : il en présente une centaine, dont certains de très bon niveau en sciences cognitives, linguistique, informatique, etc..

Cela signifie que, face aux milliards de pages d’information potentielle sur le Web visible (et ne parlons pas du Web dit invisible que certains estiment plusieurs centaines de fois plus important), nous avons besoin de déléguer à des algorithmes et à des organisations des tâches que le cerveau humain accomplit seul dans une tâche de documentation traditionnelle. Ce peut être : trouver des sources, interpréter en catégories communes des textes, paroles et images, classer, synthétiser, filtrer ce qui est redondant, se représenter (parfois graphiquement) le résultat de sa recherche, etc.

Dans un cybermonde où l’information est dématérialisée (ou du moins, semble dématérialisée : le jour où vous avez une panne de disque dur, vous réalisez que l’information était physiquement quelque part, fut-ce sous forme de cristaux de silicone), votre problème n’est pas de gérer des stocks (des traces de l’information attendant d’être consultées quelque part classées mais de vous diriger dans des flux d’information instables et sans limite connue.



Souvent, l’utilisateur au quotidien a des besoins beaucoup moins sophistiqués ; il n’a pas à détecter très vite des signaux rares et faibles enfouis sous d’énormes quantités de données. Il recherche une information factuelle ou simplement un éclairage sur un thème évoqué par les mass media. Il veut le plus souvent savoir comment taper les bons mots clés, identifier les sources fiables et ne pas perdre trop de temps. Chacun tend d’ailleurs à inventer sa propre heuristique : trucs et astuces, bonnes adresses, démarches de collecte et de vérification, etc.
Mais, même pour des besoins très simples comme ceux-là, il s’agit d’être face à un écran, et de naviguer dans l’information, dans des flux de données aux contours instables et mal fixés, au lieu d’avoir à aller chercher des objets (de livres, des articles de revue…) qui stockent quelque part un contenu ayant un auteur bien identifié et sous une forme ayant date certaine (celle de l’impression, par exemple).

Ainsi comment parvient-on à l’information sur Internet ? Quel trajet mène à une page précise ?
Il n’y a que trois réponses à cette question. :

- Soit cette page vous a été indiquée et recommandée par quelqu’un. Ainsi, ce quelqu’un vous a donné cette adresse en vous faisant parvenir un lien dans un courriel. Ou vous l’avez lue et suivie dans une lettre électronique à laquelle vous êtes abonné. Ou vous l’avez relevée dans un livre ou un journal. Ou vous avez cliqué dans un lien hypertexte au cours d’une de vos navigations. Mais dans tous les cas, quelqu’un a délibérément souhaité que vous (ou vous et le maximum d’internautes) alliez rechercher de l’information sur cette page précise. Il a ainsi agi soit parce qu’il a une forme quelconque d’intérêt - fut-ce un intérêt idéologique ou amical - à ce que vous alliez sur cette page, soit parce qu’il pense enrichir son propre texte. Ainsi, lien peut en faciliter la compréhension, en prouver le sérieux, en faciliter la lecture en déléguant certaines définitions ou certains rappels à d’autres sources,…

- Soit vous y avez accédé en suivant un trajet familier. Vous avez cliqué sur un de vos favoris. Vous avez recherché ce que dit un site (ou un portail) que vous connaissez et à qui vous accordez un certain crédit : être véridique ou être bien informé, ou jouir d’un prestige intellectuel, ou être conforme à vos opinions, ou au contraire être très représentatif d’un courant d’idées ou d’une institution dont vous voulez connaître les réactions. Le plus souvent, vous avez suivi une simple routine. Par exemple, vous avez coutume de visiter ce site à intervalle régulier et de vous tenir au courant de ses nouveautés et évolutions. Ou encore, vous pensez que vous gagnerez du temps en commençant par un certain type de documents qui auront déjà fait une synthèse sur le sujet et vous dirigeront dans vos recherches ultérieures. Ainsi, beaucoup commencent systématiquement une recherche sur un sujet par une visite à un site dictionnaire, ou à une encyclopédie comme Wikipedia, ou à un site spécialisé dans l’actualité du domaine.

- Soit vous avez fait appel à ce que nous nommerons une « machine à interpréter », un opérateur non humain tel un robot de recherche ou un métamoteur. Celui-ci vous a proposé des réponses à une demande formulée sous forme de mots-clefs. Dans la plupart des cas, encore, ces réponses vous ont été proposées dans une très longue liste de dizaines de pages dont vous ne regarderez que la ou les premières. D’une manière ou d’une autre un algorithme a indexé selon ses critères un nombre considérable de sources potentielles, mais il a aussi ordonné les réponses selon d’autres critères qui lui sont propres. Certains de ces critères sont officiellement déclarés secrets, pour ne pas rendre la tâche trop facile aux tricheurs. En clair, le résultat dépend de règles d’indexation et de hiérarchisation qui, elle-même, reflètent des choix en amont et gouvernent les règles de classement. L’immense pouvoir de diriger l’attention de millions d’internautes dépend d’un code plus ou moins explicite.

Dans la réalité, les trois méthodes, recommandation, habitude, interprétation se mêlent plus ou moins. Par exemple, un algorithme peut vous « recommander » un lien ou un texte en vous signalant que les gens qui se sont intéressés au même livre A que vous achètent souvent le livre B. Ou encore un site vous « construit » une revue de presse numérique en fonction de votre profil supposé ou des articles les lus ou les plus recommandés par les internautes s’intéressant au même domaine que vous. De façon plus générale, sur Internet, le succès tend à aller au succès. Ce qu’exprime parfaitement le système dit du « page rank » de Google qui privilégie les sites les plus « populaires » et considère comme les plus « pertinentes » (donc les plus dignes d’être classées en haut de liste, donc les plus susceptibles d’attirer de nouveaux visiteurs), les réponses qui ont reçu le plus de « votes » d’autres visiteurs.

Premier constat : pour une grande part,, la façon d’accéder à l’information dépend de facteurs purement psychologique, voire de croyance ou de confiance : confiance en une source habituelle ou crédit accordé à l’indication que vous fournit tel ou tel voire foi en la communauté des internautes. Cette confiance « démocratique » ne s’exprime jamais autant que dans l’usage d’une encyclopédie de type Wikipedia : il faut faire le pari que les « bons » (les gens compétents qui désirent diffuser le savoir pour l’amour du savoir et rectifier les erreurs) sont plus nombreux et plus obstinés que les « mauvais » (désinformateurs, mésinformateurs, rédacteurs intéressés cherchant à faire de la publicité sous couvert d’un texte informatif). Et surtout qu’ils gagnent à la fin.

Second constat : dans notre accès à l’information, outre la confiance plus ou moins nourrie par l’expérience, nous dépendons de « prothèses sémantiques », de dispositifs humains ou numériques destinés à diriger notre attention vers telle ou telle information, selon des règles parfois obscures.

Au stade actuel, tant que le Web sémantique – sur lequel nous reviendrons – n’est pas encore une réalité, ceci se fait avec des mots. Prenons un exemple quotidien. Que s’est-il passé quand vous avez lancé une requête sur votre recherche favori ? En réalité vous avez recueilli les fruits d’un travail fait par des robots qui ont exploré le cyberespace, suivi des liens de site en site pour découvrir de nouvelles pages, y ont prélevé des vocables et les ont indexés dans d’immenses bases de données en perpétuel renouvellement. Celles-ci « savent » d’où provient chaque occurrence du terme et « décident » où vous envoyer prioritairement le chercher. Dans le cas des annuaires de recherche, ce sont des êtres humains qui ont recensé et classé les pages web. Mais, dans les deux cas, on aboutit au même point : une hiérarchie.

Ce pouvoir de faire apparaître dans un certain ordre est une forme sophistiquée d’établissement de l’agenda de l’internaute. Il constitue un contrôle au second degré puisqu’il ne s’agit pas seulement de lui suggérer à quoi il faut penser ou ce qui est important, mais de lui fournir les critères pour juger de ce qui est important ou vraisemblable.

Mais qui dit pouvoir dit contre-pouvoir. Aux stratégies de contrôle qui président à la conception de l’algorithme de recherche et indexation, s’opposent les stratégies astucieuses : celles des petits malins ou des tricheurs qui exploitent les caractéristiques des moteurs pour améliorer artificiellement le référencement de leur site. Ainsi, la possibilité d’être visible, donc d’exister dans l’opinion, ne dépend plus de moyens financiers, ceux qui permettent d’acheter de la publicité (encore que, sur Internet, un bon investissement financier permet d’acheter de la visibilité et un bon « rang »), mais il reflète la capacité à exploiter les règles invisibles du jeu. Des recettes circulent ainsi, reflétant une connaissance plus ou moins informelle des trucs qui marchent : utiliser certains mots clés à certains emplacements de sa page, créer de multiples liens externes, truffer les « balises méta » (les informations que « voient » les moteurs de recherche, mais pas les visiteurs humains) de mots clefs ayant un fort pouvoir attractif. Quelqu’un a un jour comparé Internet à une bibliothèque mal rangée où il y aurait des dizaines de catalogues concurrents, mais où, dans certains rayons, des gens qui lâcheraient des ballons et joueraient de la trompette pour attirer votre attention.

• La stratégie du tricheur se manifeste à travers deux phénomènes folkloriques : le cloaking et le Google bombing. Le premier consiste en une sorte de maquillage ou de camouflage de son site. Il présentera un aspect différent au visiteur ordinaire et à celui qui est repéré comme important ou prescripteur (tel un robot d’indexation). Ainsi, un site cloaké peut se présenter d’une façon adaptée à son visiteur : lui apparaître dans sa langue, lui adresser une publicité spécifique, lui cacher certaines informations s’il est soupçonné d’être hostile ou indiscret, mais il peut aussi améliorer le référencement d’un site par des méthodes douteuses. Dans ce dernier cas, on peut comparer le site «cloaké « à un hôtelier qui propose une chambre ou un repas de luxe à un journaliste ou à inspecteur du guide Michelin en baissant le prix et en feignant de traiter ainsi tous ses clients. Ici il s’agit de présenter des pages « optimisées » pour le référencement au robot qui vient visiter le site : elles sont bourrées de mots-clés, mais leur aspect rébarbatif découragerait le visiteur humain.

• Quant au Google bombing, il consiste à exploiter une des caractéristiques du moteur de recherche le plus connu. Ce dernier considère, pour dire les choses de façon très simplifiée, que, plus un site est « populaire », et notamment plus d’autres sites ont créé un lien qui pointe vers lui, mieux il doit être classé. En créant ou en réorientant délibérément des sites qui pointent tous dans la même direction, il est ainsi possible donner beaucoup de « poids » artificiel à un site, qui sera bien classé et attirera des milliers de visiteurs. Une des utilisations amusantes de cette technique consiste à faire en telle sorte que l’internaute qui recherche les termes « miserable failure » ou « magouilleur » tombent respectivement sur des pages consacrées à G.W. Bush et à Jacques Chirac.

Il existe d’autres techniques dites de spamdexing pour tromper les robots : multiplication de mots clefs invisibles au visiteur humain (écrits en couleurs peu visibles, ou en très petit, ou à un emplacement discret…), pages satellites, redirections trompeuses… Les blogs ont suscité d’autres recettes : par exemple, celle qui consiste à faire déposer énormément de commentaires portant un texte tout à fait banal (« Excellent article ! », « Je vous approuve ») sur les blogs d’autrui, mais en signant avec sa propre adresse URL, ce qui équivaut à créer un lien qui sera référencé.

Il va de soi que ces méthodes sont répréhensibles et que celui qui les emploie risque de se retrouver sur une liste noire. Il ne faut pas non plus en déduire ia contrario que tout succès d’un blog ou d’un site résulte d’une manœuvre machiavélique ou de techniques malhonnêtes. Internet est également riche en surprises, comparables au succès de certains livres inconnus et négligés par la critique qui fonctionnent par pur bouche à oreille.


La première conclusion de ce survol est que l’ensemble des procédés de validation d’une information ont totalement migré de l’amont à l’aval. Dans l’univers du livre et du journal, des dispositifs d’accréditation visaient à vérifier la valeur du texte figé soit avant publication, soit juste après, par la critique ou l’évaluation des professionnels qui en détermineraient (en partie) la visibilité (présence dans les bibliothèques ou les librairies, reprise par des citations et commentaires). Or, sur Internet, la hiérarchie et la validation de l’information se font après publication, c’est-à-dire apparition sur le Net. Et le résultat dépend de l’interaction des trois stratégies que nous avons évoquées : stratégies de contrôle des moteurs de recherche et prescripteurs, stratégies astucieuses des tricheurs qui exploitent les règles formelles du système, stratégies altruistes et collaboratives de tous ceux qui, sur les blogs, les forums, les wikis, tentent d’aider leurs contemporains face aux trois dragons qui les menacent sur Internet : désinformation, surinformation, mésinformation.

 Imprimer cette page