Search Engine is all we needUne bonne résolution cette année, je vais essayer d’utiliser un peu plus de mots français dans mes chroniques et pour bien commencer je vais vous parler de l’Internet sémantique qui constitue une des grandes évolutions à venir de l’Internet.

Alors qu’est que l’Internet sémantique ? 

Contrairement à ce que l’on pourrait penser à cause du mot sémantique, le web sémantique désigne en fait la construction de relations logiques entres données plutôt que la production ou l’interprétation de sens. En effet, le sens est profondément lié à la subjectivité de l’être humain qui seul, pour l’instant, peut émettre un jugement sur une information et lui donner du sens. L’idée du Web sémantique est donc, comme le précise son promoteur, Tim Berners Lee (inventeur du Web et Président de la fondation W3C, dont la mission est de définir un ensemble de normes pour que le web évolue et s’améliore), de “construire un web de données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances ».

 Pourquoi cela est-il nécessaire ?

Car aujourd’hui, le web, c’est à dire le World Wide Web est devenu tellement gigantesque (il existerait plus de mille milliards de pages web) qu’un des enjeux capital du web est d’être correctement indexé, classé et balisé pour que ses utilisateurs soient en capacité de s’y retrouver et de produire du sens à partir d’une information de qualité rapidement trouvée. Sans une indexation de qualité, le risque est d’être confronté à une sorte d’infobésité qui rendrait l’information totalement indigeste et sans grande valeur.De plus, le web est confronté à un autre défi qui est la fiabilité de l’information. A l’heure de Twitter et de l’information instantanée comment savoir si une données est fiable ou si c’est une rumeur fantaisiste ?

Comment fonctionne le web sémantique ?

En fait, c’est à la fois les internautes et les créateurs de sites, les producteurs d’information qui vont aider les machines à reconnaître puis mettre en relation des données entre elles pour améliorer les recherches d’information et permettre d’agréger des données enrichies sur des résultats, avec des informations complémentaires qui peuvent se lier à cette information.

En fait, pour aider les machines, les producteurs d’informations doivent fournir ce qu’on appelle des métadonnées, c’est à dire des données sur les données. L’idée est de décrire les données. Par exemple vous écrivez le lieu, la date et le titre d’une photo que vous publiez.  Un cadre de référence de ces données a même été créé pour que les machines, (qui je le précise, ne sont toujours pas intelligentes) puissent reconnaître ces métadonnées. C’est le format RDF comme “ressource description framework” qui est donc le cadre de description d’une ressource.

Cela paraît très technique mais c’est extrêmement important car c’est grâce à ce  véritable balisage des données que l’on peu justement se servir d’Internet comme une base utile à la construction de sens et de connaissance.

 

Quelles sont les récentes évolutions du web sémantique ?

L’apparition du Web 2.0, le web social au milieu des années 2000 a vu le développement d’une classification sociale de l’information et la popularisation de ce qu’on appelle les mots-clés et les tags, sortes d’étiquettes sémantiques que l’on associe à une information. C’est ce que l’on nomme désormais la folksonomie qui désigne cette indexation collaborative, sociale, décentralisée et spontanée, faite par la foule (folk en anglais).

Par exemple, sur Twitter, si vous voulez faire des recherche vous utilisez le signe dièse du téléphone, autrement appelé hashtag qui vient d’ailleurs d’être élu mot de l’année 2012 par l’american dialect society (qui existe depuis 120 ans !!) et que les utilisateurs de Twitter ont pris l’habitude de mettre devant les mots clés qu’ils veulent promouvoir. C’est comme cela qu’on affine ses recherches sur le célèbre réseau social.

De la même façon, quand on publie un article sur un éditeur de blog, on peut ajouter des mots clés et afficher sur la page ce que l’on appelle un nuage de tags qui permet de visualiser ces mots clés. C’est grâce à ses mots clés que les articles seront correctement référencés et qu’ils pourrront facilement être trouvés à partir d’une recherche.

Le référencement est donc devenu en quelques années une action éminament stratégique pour ne pas rester anonyme sur Internet. C’est d’ailleurs tout l’enjeu de ce qu’on appelle la Search Engine Organization ou SEO, véritable science de la recherche et du référencement sur Internet dont de nombreux spécialistes ont fait leur métier.

Et puis, il y a un nouveau courant du web sémantique qui s’appelle la curation et que j’aurai du mal à traduire en français. Ce mot viendrait, de l’anglais curator. qui désignait au XVIIe siècle l’officier qui avait pour fonction de prendre soin d’un musée et de ses œuvres. En réalité le mouvement de la curation sur le web désigne une pratique qui consiste à sélectionner, éditer et partager les contenus les plus pertinents du Web pour une requête ou un sujet donné. Des sites spécialisés comme le français Pearltrees permet aux internautes de classer visuellement un ensemble de données et de sites web par centre d’intérêts. C’est donc là aussi un classement fait par la foule, assistées par les machines et non par les machines seules.

Et puis il y a bien sûr l’incontournable Google, le plus puissant et le plus utilisé des moteurs de recherche qui vient de lancer une nouvelle application sémantique, le “Knowledge Graph”, qui permet d’enrichir ses recherches d’informations géolocalisée  Par exemple, si vous taper Tour Eiffel, vous n’aurez pas uniquement une liste de sites webs relatifs à la Tour Eiffel mais un ensemble d’informations sur la Tour Eiffel : sa hauteur, sa photo, sa localisation sur un plan, son histoire, le nombre de visiteurs, etc…

On le voit avec cette application, l’enrichissement sémantique de l’information crée une valeur importante et il ouvre des perspectives nouvelles pour les annonceurs qui peuvent cibler encore mieux leurs clients. On peut dire que le web sémantique est un enjeu stratégique de toutes les grandes plateformes du web qui, si elles veulent monétiser leur traffic, doivent rendre accessible les masses d’informations colossales qu’elles héberge. Pour atteindre cet objectif, les machines et leurs algorithmes aident sérieusement les humains.

Cela veut-il dire que les machines ne peuvent pas se passer des hommes ?

A mon sens oui mais je serai peut-être contredit dans quelques années avec les progrès fulgurant de l’intelligence artificielle  nous en reparlerons. J’aurais en effet l’occasion de revenir cette année sur les différentes notions relatives à l’exploitation des données dans d’autres chroniques, notamment sur la curation, ce qu’on nomme les big data ou encore la data vizualization qui sont des enjeux structurant de l’économie numérique.

Retrouvez le podcast de cette chronique

Podcast 2