Verso un Web semantico

Verso un Web semantico

Fin dalla sua invenzione negli anni ’90, Internet si evolve sempre più rapidamente verso un mondo interamente connesso. Il Web 2.0 ha trasformato gli utenti in creatori di contenuto. Con l’avvento dei social media gli utenti producono e condividono contenuti in ogni momento di ogni giorno. Questo è l’Internet che abbiamo oggi: un enorme quantità di contenuti interconnessi.

Ma cosa succede se all’interno di questo calderone io ho bisogno di una specifica informazione?

L’evoluzione della rete

Procediamo con calma.
Inizialmente internet era composto solo da pagine web e per poter navigare da una all’altra era necessario inserire dei link ad altri siti; non esisteva nessun tipo di motore di ricerca.
I primi motori di ricerca erano in grado di filtrare solamente i titoli e qualche parola contenuta nella pagina rendendo dunque molto complessa una ricerca basata su query generiche.
La vera svolta si ha nel 1994 quando Lycos e WebCrawler lanciano uno dei primi motori di ricerca basati sugli spider (detti oggi anche crawler o robot) ovvero dei software che indicizzavano ogni singola parola contenuta nella pagina web esaminata.

Dunque, se si interrogava un motore di ricerca sulla parola albero, si ottenevano una serie di risposte relative alla botanica, alla nautica e probabilmente anche alle automobili se nel testo si parlava di motori a pistoni. Questo perché la ricerca si basava sui singoli termini, sulle parole, ma non sul significato che queste hanno.
Fino a qualche tempo fa, per Google, Bing e gli altri motori di ricerca albero era semplicemente una parola, così come bush: il motore non sapeva distinguere un vegetale dal 43° Presidente degli Stati Uniti d’America!

L’essere umano, invece, al contrario di Internet, è in grado di cogliere la giusta sfumatura di significato di una parola contestualizzandola all’interno di quello che viene definito contesto di enunciazione, ovvero nel discorso.
E qui entra in gioco la semantica, ovvero la scienza, parte della linguistica, che studia il significato delle parole, degli insiemi delle singole lettere, delle frasi e dei testi.

Dati accessibili a tutti

Nel 2001 Tim Berners-Lee, inventore del World Wide Web, ha l’idea di un rivoluzionario web semantico ovvero un web che basa la sua costruzione sul significato dei dati.

A una conferenza TED tenutasi nel febbraio 2009 (qui il video integrale), presenta al mondo la sua visione di questo web nuovo, pensato in funzione di dati condivisi e interconnessi, accessibili a tutti grazie alla collaborazione di tutti:

È stato quasi 20 anni fa che ho deciso di ripensare il modo in cui usiamo le informazioni, il modo in cui lavoriamo insieme e ho inventato il World Wide Web. Ora, vent’anni dopo, a TED, voglio chiedere il vostro aiuto per un nuovo cambio di prospettiva. […] Voglio pensare a un mondo in cui tutti abbiano caricato dati sul web e dunque praticamente qualunque cosa possiate immaginare sia sul web; e chiamare il tutto linked data.

Più nello specifico egli intende trasformare il World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) sono associati ad informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione e l’interpretazione (es. tramite motori di ricerca) e, più in generale, all’elaborazione automatica.

Il principio che sta alla base di tutto infatti è l’esplicitazione e catalogazione di dati in un formato standard in modo tale che possano essere facilmente raggiunti, letti e usati da chiunque, da un ricercatore in campo scientifico al bambino che deve scrivere la ricerca per scuola.

La ricerca semantica

Da quel momento la ricerca online ha cominciato a cambiare rapidamente.

È infatti nata la Ricerca semantica, un campo di studio con l’obiettivo di migliorare l’accuratezza della ricerca nei motori di ricerca web cercando di comprendere il search intent dell’utente e il significato contestuale dei termini adoperati al fine di generare risultati più rilevanti; al fine di una corretta analisi viene considerato il contesto di ricerca, l’ubicazione del ricercante, l’intento, la variazione delle parole, sinonimi, interrogazioni generiche e specifiche, accezioni del linguaggio colloquiale.I più grandi motori di ricerca come Google e Bing incorporano alcuni di questi elementi.

Vediamo infatti cosa succede oggi se chiedo a Google informazioni su Tim Berners-Lee:

Verso un Web Semantico

Come mostrato nell’immagine, Google ci mostra una SERP arricchita di vari elementi grazie all’Universal Search introdotta nel 2007. Da quell’anno con gradualità il motore di ricerca di Mountain View inserisce nei risultati delle ricerche non solo link a siti web, ma anche altri tipi di risultati provenienti da fonti diverse, come ad esempio Immagini, News, Video, Mappe.

Ma il primo vero passo verso una ricerca semantica si ha nel 2012 con l’introduzione da parte di Google del cosiddetto Knowledge Graph. Grazie a questa funzione, il motore di ricerca associa alle parole cercate un oggetto che metterà in relazione con altri in modo da avere una ricerca più veloce e accurata.

Sulla destra della SERP si può infatti notare un box informativo ricco e dettagliato che, oltre a citare Wikipedia e a fornirci in maniera immediata alcuni dati significativi sulla vita e l’operato di Tim Berners-Lee, ci suggerisce delle ricerche correlate: in questo caso, 15 personaggi potenzialmente significativi per approfondire la mia ricerca sull’inventore di internet.

Questo è solo un assaggio di ciò che si sta facendo ma con l’interpretazione del contenuto dei documenti che il Web semantico impone, saranno possibili ricerche sempre più evolute, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale.

Camilla Fregonese


QuoLAB
Via Longhena 15/A, 40139 Bologna tel. 051 188 99 318 - mail: info@quolab.it
Copyright © 2018 QuoLAB. Tutti i diritti riservati. QuoLAB by Studio SBS - P.IVA 03437511201