Web Semantico

  • Uploaded by: Francesco
  • 0
  • 0
  • May 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Web Semantico as PDF for free.

More details

  • Words: 18,944
  • Pages: 16
COME FARE WEB SEMANTICO

Questo nuovo modo di gestire le informazioni sta provocando una trasformazione del Web, facendolo evolvere, a vent’anni dalla sua nascita, in qualcosa di molto più avanzato rispetto a quello che siamo abituati a navigare ogni giorno. Sul nome non c’è accordo: c’è chi lo chiama Web semantico, chi il Web dei dati o chi, con un termine da molti considerato semplicistico, il Web 3.0. Quest’ultimo può risultare troppo vago per definire la mutazione in atto, al punto che la versione inglese di Wikipedia dopo un lungo dibattito ne ha cancellato la voce corrispondente, ma aiuta a semplificare il quadro in cui il “Web del futuro” si inserisce.

Alla scoperta di...

Di Francesco Caccavella

I

100

PC Professionale - Maggio 2009

cavandoli dal contesto della pagina, utilizzare sinonimi per espandere le ricerche, ma in ultima analisi il suo archivio è un elenco, certamente molto ben organizzato, di parole chiave. Se invece fosse in grado di comprendere il significato dei contenuti di una pagina, potrebbe accettare domande come “qual è il più piccolo hotel per famiglie a Roma che costa meno di 150 euro” e fornire un’unica risposta, quella giusta. Una tale capacità permetterebbe poi di creare una nuova generazione di applicazioni Web. Ad esempio, un servizio

Rdf, vocabolari e ontologie Come abbiamo appena accennato, le tecnologie semantiche rappresentano delle informazioni (non necessariamente testuali) e vi associano significati comprensibili dalle macchine. Il progetto pubblico più strutturato per raggiungere questo obiettivo all’interno dell’intero Web è quello che va sotto il nome di Web semantico ( www.w3.org/2001/

L’evoluzione del Web WebOS

Web 4.0 2020-2030

Desktop

Web Semantico Agenti personali intelligenti Web 3.0 Swrl Owl Ricerca distribuita 2010-2020 OpenID Database semantici Ajax Sparql P2P Ricerca semantica Rss Atom Widget JavaScript Rdf Office 2.0 Mashup 2.0 Web World Wide Web Soap Xml Flash Blog Social media sharing 2000-2010 Html HttpJava SaaS Social networking Wiki Vr Ricerca per keyword Bbs Collaborazione “leggera” Gopher Web 1.0 Siti Web MacOS 1990-2000 Sql Sgml Groupware Windows Database PC File server

Email Ftp Irc Usenet Pc File System

1980-1990

SEMANTICA DELLE CONNESSIONI SOCIALI

101

PC Professionale - Maggio 2009

Fonte: Radar Network & Nova Spivack

Il “Web del futuro”, che sfrutta le tecnologie semantiche per rendere comprensibili ai calcolatori il significato dei contenuti delle pagine Web, sta diventando una realtà.

computer oggi conservano i documenti senza comprenderne il significato, che invece di solito è chiaro a prima vista per un lettore umano. Quando un motore di ricerca come Google salva nella sua cache le pagine Web, non distingue se la parola espresso si riferisca a un treno o a un tipo di caffè, oppure se verdi sia un colore o il nome di un compositore (lo stesso vale, a maggior ragione, per i contenuti non testuali come le immagini o gli elementi multimediali). Un motore di ricerca può tentare di percepire i significati ri-

SEMANTICA DELLE CONNESSIONI TRA INFORMAZIONI

...il Web semantico

in grado non solo di verificare il prezzo di una stanza doppia di un hotel 3 stelle situato in una certa località, ma anche di prenotare automaticamente quello più economico e più vicino ai luoghi che si desiderano visitare. Non si tratta di possibilità solo teoriche: nell’ultimo anno sono cominciate a comparire applicazioni Web intelligenti in grado di comprendere i dati pubblicati on-line.

Nel l a pri ma dec ade del la s ua vi ta il Web è stato un medium di sola lettura: una grande libreria dalla quale ricevere informazioni. La seconda decade ha visto invece la diffusione di servizi che lo hanno trasformato in un medium di scrittura. Attraverso blog e social network i navigatori si sono convertiti da spettatori in attori, iniziando a pubblicare informazioni e opinioni: è il cosiddetto Web 2.0, il Web della partecipazione. Nella terza decade, iniziata da poco, le informazioni disponibili on-line stanno diventando comprensibili anche ai calcolatori, in modo da poter essere collegate tra loro e riutilizzate sotto altre forme (e dando vita a nuove informazioni) tramite strumenti automatici. Questo passaggio è reso possibile da svariate tecnologie comune-

mente chiamate “semantiche”, ossia in grado di estrarre significati da informazioni. Il Web non è l’unico settore in cui vengono applicate: sono infatti già utilizzate in infrastrutture aziendali, istituzioni e altre realtà che hanno bisogno di catalogare e gestire grandi quantità di informazioni. Nelle prossime pagine, dopo una panoramica su queste tecnologie, vi presenteremo alcuni servizi semantici, scelti tra quelli che hanno il Web come contesto di utilizzo e che ci sono sembrati più utili e significativi. Il settore è giovane e molto ampio, inoltre molte delle soluzioni semantiche sono adottate in ambiti di nicchia (in particolare nell’ambito di intranet aziendali), quindi in questo articolo non troverete probabilmente una “killer application” del Web 3.0. Troverete però tanti esempi di come il Web semantico possa semplificare e rendere più utile la raccolta, la gestione e il riutilizzo delle informazioni, rendendo Internet ancora più utile.

COME FARE WEB SEMANTICO

Questo nuovo modo di gestire le informazioni sta provocando una trasformazione del Web, facendolo evolvere, a vent’anni dalla sua nascita, in qualcosa di molto più avanzato rispetto a quello che siamo abituati a navigare ogni giorno. Sul nome non c’è accordo: c’è chi lo chiama Web semantico, chi il Web dei dati o chi, con un termine da molti considerato semplicistico, il Web 3.0. Quest’ultimo può risultare troppo vago per definire la mutazione in atto, al punto che la versione inglese di Wikipedia dopo un lungo dibattito ne ha cancellato la voce corrispondente, ma aiuta a semplificare il quadro in cui il “Web del futuro” si inserisce.

Alla scoperta di...

Di Francesco Caccavella

I

100

PC Professionale - Maggio 2009

cavandoli dal contesto della pagina, utilizzare sinonimi per espandere le ricerche, ma in ultima analisi il suo archivio è un elenco, certamente molto ben organizzato, di parole chiave. Se invece fosse in grado di comprendere il significato dei contenuti di una pagina, potrebbe accettare domande come “qual è il più piccolo hotel per famiglie a Roma che costa meno di 150 euro” e fornire un’unica risposta, quella giusta. Una tale capacità permetterebbe poi di creare una nuova generazione di applicazioni Web. Ad esempio, un servizio

Rdf, vocabolari e ontologie Come abbiamo appena accennato, le tecnologie semantiche rappresentano delle informazioni (non necessariamente testuali) e vi associano significati comprensibili dalle macchine. Il progetto pubblico più strutturato per raggiungere questo obiettivo all’interno dell’intero Web è quello che va sotto il nome di Web semantico ( www.w3.org/2001/

L’evoluzione del Web WebOS

Web 4.0 2020-2030

Desktop

Web Semantico Agenti personali intelligenti Web 3.0 Swrl Owl Ricerca distribuita 2010-2020 OpenID Database semantici Ajax Sparql P2P Ricerca semantica Rss Atom Widget JavaScript Rdf Office 2.0 Mashup 2.0 Web World Wide Web Soap Xml Flash Blog Social media sharing 2000-2010 Html HttpJava SaaS Social networking Wiki Vr Ricerca per keyword Bbs Collaborazione “leggera” Gopher Web 1.0 Siti Web MacOS 1990-2000 Sql Sgml Groupware Windows Database PC File server

Email Ftp Irc Usenet Pc File System

1980-1990

SEMANTICA DELLE CONNESSIONI SOCIALI

101

PC Professionale - Maggio 2009

Fonte: Radar Network & Nova Spivack

Il “Web del futuro”, che sfrutta le tecnologie semantiche per rendere comprensibili ai calcolatori il significato dei contenuti delle pagine Web, sta diventando una realtà.

computer oggi conservano i documenti senza comprenderne il significato, che invece di solito è chiaro a prima vista per un lettore umano. Quando un motore di ricerca come Google salva nella sua cache le pagine Web, non distingue se la parola espresso si riferisca a un treno o a un tipo di caffè, oppure se verdi sia un colore o il nome di un compositore (lo stesso vale, a maggior ragione, per i contenuti non testuali come le immagini o gli elementi multimediali). Un motore di ricerca può tentare di percepire i significati ri-

SEMANTICA DELLE CONNESSIONI TRA INFORMAZIONI

...il Web semantico

in grado non solo di verificare il prezzo di una stanza doppia di un hotel 3 stelle situato in una certa località, ma anche di prenotare automaticamente quello più economico e più vicino ai luoghi che si desiderano visitare. Non si tratta di possibilità solo teoriche: nell’ultimo anno sono cominciate a comparire applicazioni Web intelligenti in grado di comprendere i dati pubblicati on-line.

Nel l a pri ma dec ade del la s ua vi ta il Web è stato un medium di sola lettura: una grande libreria dalla quale ricevere informazioni. La seconda decade ha visto invece la diffusione di servizi che lo hanno trasformato in un medium di scrittura. Attraverso blog e social network i navigatori si sono convertiti da spettatori in attori, iniziando a pubblicare informazioni e opinioni: è il cosiddetto Web 2.0, il Web della partecipazione. Nella terza decade, iniziata da poco, le informazioni disponibili on-line stanno diventando comprensibili anche ai calcolatori, in modo da poter essere collegate tra loro e riutilizzate sotto altre forme (e dando vita a nuove informazioni) tramite strumenti automatici. Questo passaggio è reso possibile da svariate tecnologie comune-

mente chiamate “semantiche”, ossia in grado di estrarre significati da informazioni. Il Web non è l’unico settore in cui vengono applicate: sono infatti già utilizzate in infrastrutture aziendali, istituzioni e altre realtà che hanno bisogno di catalogare e gestire grandi quantità di informazioni. Nelle prossime pagine, dopo una panoramica su queste tecnologie, vi presenteremo alcuni servizi semantici, scelti tra quelli che hanno il Web come contesto di utilizzo e che ci sono sembrati più utili e significativi. Il settore è giovane e molto ampio, inoltre molte delle soluzioni semantiche sono adottate in ambiti di nicchia (in particolare nell’ambito di intranet aziendali), quindi in questo articolo non troverete probabilmente una “killer application” del Web 3.0. Troverete però tanti esempi di come il Web semantico possa semplificare e rendere più utile la raccolta, la gestione e il riutilizzo delle informazioni, rendendo Internet ancora più utile.

COME FARE WEB SEMANTICO

sw) ed è promosso dal W3C, che vi lavora da oltre 10 anni. Il W3C ha da tempo formalizzato diversi linguaggi e procedure standard per la condivisione in forma semantica delle informazioni e per il loro riutilizzo in altre applicazioni. Alla base del Web semantico vi è un linguaggio o, meglio, un modello per la strutturazione dei dati chiamato Rdf (Resource Description Framework), che è per i dati quello che l’Html è per le pagine Web che leggiamo tutti i giorni. Rdf fa una cosa semplice: rappresenta significati associando alcune risorse identificabili sul Web con dei va-

lori. Proprio come nel ragionamento quotidiano per dare significato a qualcosa diciamo, ad esempio, La Fiat Panda è un tipo di utilitaria, e associamo il valore utilitaria a Fiat Panda, così con Rdf possiamo collegare una risorsa Web a un’altra e specificare che tipo di relazione hanno. L’esempio appena fatto potrebbe essere rappresentato pubblicando un file in formato Rdf in cui la pagina ufficiale della Fiat Panda e la pagina della categoria utilitarie di Wikipedia vengono collegate usando un terzo elemento, sempre sotto forma di link, per specificare la pro-

La struttura del Web semantico INTERFACCIA UTENTE E APPLICAZIONI FIDUCIA PROVA

QUERY: SPARQL

ONTOLOGIA: OWL

REGOLE: RIF

RDFS SCAMBIO DATI: RDF

CRITTOGRAFIA

LOGICA

XML URI / IRI

L’

architettura del Web semantico viene rappresentata dal W3C anche sotto forma di una pila di livelli indipendenti, visibilE in figura. La pila mostra l’ordine di sviluppo e le relazioni fra i diversi pezzi che la formano. Ogni livello è indipendente ma connesso a quello precedente e a quello successivo: sistemi compatibili con la tecnologia di un livello lo saranno anche con quella del livello più in basso. Alla base della pila – ossia alla base del Web semantico – vi sono le risorse Web, raggiungibili con indirizzi in caratteri occidentali (Uri, Uniform Resource Identifier) o in caratteri internazionali (Iri, Internationalized Resource Identifier). Rdf, RdfS (RDF Schema) e Owl sono i linguaggi, in vario modo basati su Xml, che permettono di rappresentare le risorse Web sotto forma di dati e di renderle disponibili ai livelli successivi. A supporto di questi linguaggi vi è Sparql (Simple Protocol And RDF Query Language), con cui si interrogano le basi di dati create con Rdf e Owl attraverso una sintassi simile a quella dell’Sql, e Rif (Rule Interchange Format), la tecnologia per condividere regole fra sistemi semantici differenti. I livelli di base, a parte Rif che è in via di definizione, sono già pronti e pubblicati come raccomandazioni ufficiali; non lo sono invece le tecnologie dei livelli alti. Il livello della logica dovrebbe consentire alle macchine di acquisire nuove conoscenze a partire da quelle già rappresentate, per esempio, con Rdf e Owl. Il livello della prova (Proof) sarà utilizzato per verificare che le nuove conoscenze acquisite con il livello logico siano dimostrabili, mentre Il livello della fiducia (Trust) permetterà di accertarsi, con l’uso ad esempio di firme digitali, che l’intero processo sia basato su connessioni affidabili. Il livello della fiducia, l’ultimo tassello del Web semantico, è centrale poiché assicura che l’intero processo di rappresentazione, elaborazione e produzione di nuove informazioni sia affidabile e possa essere utilizzato con sicurezza in applicazioni o in servizi Web.

102

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

prietà della relazione. In Rdf questo W3C procedimento si Il W3C (World Wide Web chiama, con un terConsortium) è l’ente intermine mutuato dalla nazionale che si occupa di logica, dichiarazione standardizzare le tecnolo( statement ) e serve gie utilizzate nel Web. È ad identificare dei diretto da Tim Berners“fatti” combinando Lee, lo scienziato inglese tre elementi (triple o che nel marzo 1989 ideò il triplette): soggetto concetto di uno spazio ( Fiat Panda ), prediipertestuale interconnesso cato ( è un tipo di ) e per lo scambio di informazioni chiamato poi oggetto ( utilitaria ). World Wide Web. La relazione viene espressa visualmente sotto forma di grafo in cui soggetGrafo to e oggetto sono i Per grafo si intende una nodi mentre gli archi rappresentazione di un inrappresentano le sieme di elementi (nodi) proprietà. tra i quali sussiste una deLe relazioni si possoterminata relazione. I grafi no creare non solo sono utilizzati in matematitra pagine Web, ma ca e in altri campi della tra singole parti di scienza per studiare e foresse, tra elementi malizzare le relazioni tra (come gli indirizzi eelementi della stesmail), tra una pagina sa rete. e un’entità numerica (ad esempio una data), tra dati non raggiungibili direttamente dal Web (numeri di telefono o codici ISBN di un libro) e anche tra concetti astratti. Tutte le relazioni formano una rete di significati pressoché infinita, che può essere estratta da un software e rielaborata. Tutto ciò è già, parzialmente, una realtà: Linked Data, il progetto più ampio di dati condivisi presente sul Web, a marzo 2009 conteneva già oltre 4 miliardi e mezzo di dichiarazioni (triplette) connesse attraverso 180 milioni di voci Rdf

cui parleremo a breve, di definire un vocabolario esteso e condiviso di termini, di dedurre nuove proprietà dai concetti spiegati oppure di stabilire delle “regole” per la definizione delle risorse. A questo pensano i vocabolari e le ontologie. I primi stabiliscono un elenco di termini con cui definire gli elementi all’interno di un campo di conoscenze: nel campo delle automobili un vocabolario potrebbe stabilire che, ad esempio, per identificare il modello di una macchina si dovrà usare il nome modello, per identificare la serie il nome famiglia e così via. Anche le ontologie descrivono in modo formalizzato i termini ma, a differenza dei vocabolari, stabiliscono anche le relazioni fra di essi: sono, in altre parole, un vocabolario di termini arricchito da un livello semantico. A t tr a v e r s o u n’ o n to l o gi a s i p uò , ad esempio, specificare che affermare la Fiat Panda è un tipo di utilitaria significa anche dire che la Fiat Panda è un automobile e che dunque ha un motore, un prezzo e così via. Un’ontologia, tra le altre cose, limita i concetti che possono essere espressi (una macchina può essere un’utilitaria o una berlina ma non tutte e due le cose) e consente di condividere concetti e relazioni con altre ontologie (la Fiat potrebbe chiamare utilitaria ciò che la Renault chiama city car). I vocabolari possono essere definiti attraverso un’estensione del linguaggio Rdf chiamata Rdf Schema: un esempio di vocabolario è il noto Dublin Core usato per descrivere le proprietà di libri, articoli o documenti in generale (individuando elementi come titolo, autore, data di pubblicazione e così via) o Foaf (Friend of a Friend), usato per descrivere le attività di una persona e le sue relazioni all’interno

U n f i l e R d f p u ò , d a s o l o , stabilire relazioni fra risorse ma non consente, se non tramite RDF Schema di

Il progetto Linked Data

S

upportato dal W3C, Linked Data (www.linkeddata.org)si propone di collegare tra di loro i servizi che pubblicano dati sul Web. Se il progetto del Web semantico ha l’obiettivo di definire il modo di pubblicare informazioni in forma semantica e rendere queste informazioni dei dati, così il progetto Linked Data, esso stesso parte del Web semantico, vuole invece definire il modo di connettere tra loro questi dati attraverso l’uso di link. Il Web immaginato dal progetto Linked Data è un Web fatto non di pagine come siamo abituati a vederle oggi, ma di dati navigabili con i cosiddetti Linked Data browsers. In questo “Web dei dati” i collegamenti non avvengono quindi tra pagine ma tra diverse fonti di dati: la pagina personale di un utente mostrerà, ad esempio, un link verso una fonte di dati geografica per indicare il luogo in cui risiede, un link verso una fonte di dati aziendale per indicare che lavoro fa e un link verso una fonte di dati di un social network per visualizzare le amicizie che ha. Alla base del progetto Linked Data ci sono naturalmente tutti gli schemi sviluppati dal W3C per il Web semantico (Rdf e Ontologie in primo luogo) ma anche nuove specifiche per la scelta degli indirizzi Web e per la pubblicazione dei contenuti on-line. Linked Data è un progetto già attivo: a marzo 2009 erano quasi 100 i servizi che offrivano dati in questa forma, per un totale di oltre 5 milioni di link.

di una rete. Per le ontologie il linguaggio di riferimento è Owl (Web Ontology Language) e una delle ontologie più utilizzate è quella di DBPedia (http://wiki.dbpedia.org/Ontology) costruita utilizzando concetti e relazioni trovati all’interno di Wikipedia. Da questa descrizione appare chiaro come il Web semantico sia un’evoluzione che né sostituisce né entra in concorrenza con il Web attuale; lo si può immaginare come una sorta di strato applicato alle informazioni pubblicate on-line e che ne consente la comprensione anche da parte di un’applicazione software. Un elemento pubblicato on-line (una pagina, un video, un’immagine) seguendo gli standard del Web semantico potrebbe avere così due facce: una tradizionale da visualizzare normalmente sul nostro browser, e una nuova, in Rdf e Owl o in altri linguaggi, che sarà però letta e interpretata da programmi (o agenti) intelligenti.

L’approccio bottom up Le pagine con lo “strato” semantico sono tuttavia una minima percentuale se paragonate a quelle pubblicate in modo tradizionale. Anche se i linguaggi, le ontologie, i vocabolari sono pronti da anni, le applicazioni semantiche tardano ad uscire dai settori di nicchia in cui sono al momento confinate: per la complessità intrinseca del sistema, perché non c’è una percezione adeguata dei vantaggi che un sistema semantico interconnesso possa dare, perché molte aziende preferiscono tenere i propri dati chiusi nei loro database (pensiamo a social network come Facebook), perché è difficile che gli utenti da soli possano procedere a pubblicare dati semantici ben strutturati. Per estendere questo strato si può agire in due modi: pubblicando nuove informazioni che hanno già al loro interno delle notificazioni se-

TIPS

TIPS

Le ontologie in Word

Un browser per il Web semantico

I più noti vocabolari del Web semantico

M

L

I

icrosoft ha pubblicato di recente un’add-on che consente di integrare ontologie nei testi scritti con Word 2007. Scaricabile all’indirizzo http://ucsdbiolit.codeplex.com, salva in locale alcune ontologie scelte da Microsoft e permette di annotare i testi che si sta scrivendo con i termini in esse contenuti. Al momento sono disponibili ontologie nei campi della medicina e delle scienze.

e risorse web in formato Rdf sono destinate ad essere consumate da software automatici e non da comuni browser. Un progetto che permette di visualizzarle anche in un comune navigatore è il SIOC Browser reperibile all’indirizzo http://sioc-project.org/browser. Sebbene sia indicato per risorse Sioc, un’ontologia per la rappresentazione semantica delle relazioni e delle informazioni generate da community on-line, funziona anche con altre tipologie di file Rdf e ne consente la navigazione da link a link.

l Web semantico può contare su un gran numero di vocabolari, ossia di elenchi di termini o frasi che rendono standard l’espressione di alcuni concetti. Alcuni di essi sono utilizzati per descrivere le informazioni relative alle persone (Foaf, hCard), informazioni sulla collocazione geografica di un luogo (Geonames), sugli eventi (RDFCalendar), sui social network (Sioc), sui prodotti pubblicati in un sito di commercio elettronico (GoodRelations). Un elenco di vocabolari, completo di descrizioni, è disponibile all’indirizzo http://semanticweb.org/wiki

103

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

sw) ed è promosso dal W3C, che vi lavora da oltre 10 anni. Il W3C ha da tempo formalizzato diversi linguaggi e procedure standard per la condivisione in forma semantica delle informazioni e per il loro riutilizzo in altre applicazioni. Alla base del Web semantico vi è un linguaggio o, meglio, un modello per la strutturazione dei dati chiamato Rdf (Resource Description Framework), che è per i dati quello che l’Html è per le pagine Web che leggiamo tutti i giorni. Rdf fa una cosa semplice: rappresenta significati associando alcune risorse identificabili sul Web con dei va-

lori. Proprio come nel ragionamento quotidiano per dare significato a qualcosa diciamo, ad esempio, La Fiat Panda è un tipo di utilitaria, e associamo il valore utilitaria a Fiat Panda, così con Rdf possiamo collegare una risorsa Web a un’altra e specificare che tipo di relazione hanno. L’esempio appena fatto potrebbe essere rappresentato pubblicando un file in formato Rdf in cui la pagina ufficiale della Fiat Panda e la pagina della categoria utilitarie di Wikipedia vengono collegate usando un terzo elemento, sempre sotto forma di link, per specificare la pro-

La struttura del Web semantico INTERFACCIA UTENTE E APPLICAZIONI FIDUCIA PROVA

QUERY: SPARQL

ONTOLOGIA: OWL

REGOLE: RIF

RDFS SCAMBIO DATI: RDF

CRITTOGRAFIA

LOGICA

XML URI / IRI

L’

architettura del Web semantico viene rappresentata dal W3C anche sotto forma di una pila di livelli indipendenti, visibilE in figura. La pila mostra l’ordine di sviluppo e le relazioni fra i diversi pezzi che la formano. Ogni livello è indipendente ma connesso a quello precedente e a quello successivo: sistemi compatibili con la tecnologia di un livello lo saranno anche con quella del livello più in basso. Alla base della pila – ossia alla base del Web semantico – vi sono le risorse Web, raggiungibili con indirizzi in caratteri occidentali (Uri, Uniform Resource Identifier) o in caratteri internazionali (Iri, Internationalized Resource Identifier). Rdf, RdfS (RDF Schema) e Owl sono i linguaggi, in vario modo basati su Xml, che permettono di rappresentare le risorse Web sotto forma di dati e di renderle disponibili ai livelli successivi. A supporto di questi linguaggi vi è Sparql (Simple Protocol And RDF Query Language), con cui si interrogano le basi di dati create con Rdf e Owl attraverso una sintassi simile a quella dell’Sql, e Rif (Rule Interchange Format), la tecnologia per condividere regole fra sistemi semantici differenti. I livelli di base, a parte Rif che è in via di definizione, sono già pronti e pubblicati come raccomandazioni ufficiali; non lo sono invece le tecnologie dei livelli alti. Il livello della logica dovrebbe consentire alle macchine di acquisire nuove conoscenze a partire da quelle già rappresentate, per esempio, con Rdf e Owl. Il livello della prova (Proof) sarà utilizzato per verificare che le nuove conoscenze acquisite con il livello logico siano dimostrabili, mentre Il livello della fiducia (Trust) permetterà di accertarsi, con l’uso ad esempio di firme digitali, che l’intero processo sia basato su connessioni affidabili. Il livello della fiducia, l’ultimo tassello del Web semantico, è centrale poiché assicura che l’intero processo di rappresentazione, elaborazione e produzione di nuove informazioni sia affidabile e possa essere utilizzato con sicurezza in applicazioni o in servizi Web.

102

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

prietà della relazione. In Rdf questo W3C procedimento si Il W3C (World Wide Web chiama, con un terConsortium) è l’ente intermine mutuato dalla nazionale che si occupa di logica, dichiarazione standardizzare le tecnolo( statement ) e serve gie utilizzate nel Web. È ad identificare dei diretto da Tim Berners“fatti” combinando Lee, lo scienziato inglese tre elementi (triple o che nel marzo 1989 ideò il triplette): soggetto concetto di uno spazio ( Fiat Panda ), prediipertestuale interconnesso cato ( è un tipo di ) e per lo scambio di informazioni chiamato poi oggetto ( utilitaria ). World Wide Web. La relazione viene espressa visualmente sotto forma di grafo in cui soggetGrafo to e oggetto sono i Per grafo si intende una nodi mentre gli archi rappresentazione di un inrappresentano le sieme di elementi (nodi) proprietà. tra i quali sussiste una deLe relazioni si possoterminata relazione. I grafi no creare non solo sono utilizzati in matematitra pagine Web, ma ca e in altri campi della tra singole parti di scienza per studiare e foresse, tra elementi malizzare le relazioni tra (come gli indirizzi eelementi della stesmail), tra una pagina sa rete. e un’entità numerica (ad esempio una data), tra dati non raggiungibili direttamente dal Web (numeri di telefono o codici ISBN di un libro) e anche tra concetti astratti. Tutte le relazioni formano una rete di significati pressoché infinita, che può essere estratta da un software e rielaborata. Tutto ciò è già, parzialmente, una realtà: Linked Data, il progetto più ampio di dati condivisi presente sul Web, a marzo 2009 conteneva già oltre 4 miliardi e mezzo di dichiarazioni (triplette) connesse attraverso 180 milioni di voci Rdf

cui parleremo a breve, di definire un vocabolario esteso e condiviso di termini, di dedurre nuove proprietà dai concetti spiegati oppure di stabilire delle “regole” per la definizione delle risorse. A questo pensano i vocabolari e le ontologie. I primi stabiliscono un elenco di termini con cui definire gli elementi all’interno di un campo di conoscenze: nel campo delle automobili un vocabolario potrebbe stabilire che, ad esempio, per identificare il modello di una macchina si dovrà usare il nome modello, per identificare la serie il nome famiglia e così via. Anche le ontologie descrivono in modo formalizzato i termini ma, a differenza dei vocabolari, stabiliscono anche le relazioni fra di essi: sono, in altre parole, un vocabolario di termini arricchito da un livello semantico. A t tr a v e r s o u n’ o n to l o gi a s i p uò , ad esempio, specificare che affermare la Fiat Panda è un tipo di utilitaria significa anche dire che la Fiat Panda è un automobile e che dunque ha un motore, un prezzo e così via. Un’ontologia, tra le altre cose, limita i concetti che possono essere espressi (una macchina può essere un’utilitaria o una berlina ma non tutte e due le cose) e consente di condividere concetti e relazioni con altre ontologie (la Fiat potrebbe chiamare utilitaria ciò che la Renault chiama city car). I vocabolari possono essere definiti attraverso un’estensione del linguaggio Rdf chiamata Rdf Schema: un esempio di vocabolario è il noto Dublin Core usato per descrivere le proprietà di libri, articoli o documenti in generale (individuando elementi come titolo, autore, data di pubblicazione e così via) o Foaf (Friend of a Friend), usato per descrivere le attività di una persona e le sue relazioni all’interno

U n f i l e R d f p u ò , d a s o l o , stabilire relazioni fra risorse ma non consente, se non tramite RDF Schema di

Il progetto Linked Data

S

upportato dal W3C, Linked Data (www.linkeddata.org)si propone di collegare tra di loro i servizi che pubblicano dati sul Web. Se il progetto del Web semantico ha l’obiettivo di definire il modo di pubblicare informazioni in forma semantica e rendere queste informazioni dei dati, così il progetto Linked Data, esso stesso parte del Web semantico, vuole invece definire il modo di connettere tra loro questi dati attraverso l’uso di link. Il Web immaginato dal progetto Linked Data è un Web fatto non di pagine come siamo abituati a vederle oggi, ma di dati navigabili con i cosiddetti Linked Data browsers. In questo “Web dei dati” i collegamenti non avvengono quindi tra pagine ma tra diverse fonti di dati: la pagina personale di un utente mostrerà, ad esempio, un link verso una fonte di dati geografica per indicare il luogo in cui risiede, un link verso una fonte di dati aziendale per indicare che lavoro fa e un link verso una fonte di dati di un social network per visualizzare le amicizie che ha. Alla base del progetto Linked Data ci sono naturalmente tutti gli schemi sviluppati dal W3C per il Web semantico (Rdf e Ontologie in primo luogo) ma anche nuove specifiche per la scelta degli indirizzi Web e per la pubblicazione dei contenuti on-line. Linked Data è un progetto già attivo: a marzo 2009 erano quasi 100 i servizi che offrivano dati in questa forma, per un totale di oltre 5 milioni di link.

di una rete. Per le ontologie il linguaggio di riferimento è Owl (Web Ontology Language) e una delle ontologie più utilizzate è quella di DBPedia (http://wiki.dbpedia.org/Ontology) costruita utilizzando concetti e relazioni trovati all’interno di Wikipedia. Da questa descrizione appare chiaro come il Web semantico sia un’evoluzione che né sostituisce né entra in concorrenza con il Web attuale; lo si può immaginare come una sorta di strato applicato alle informazioni pubblicate on-line e che ne consente la comprensione anche da parte di un’applicazione software. Un elemento pubblicato on-line (una pagina, un video, un’immagine) seguendo gli standard del Web semantico potrebbe avere così due facce: una tradizionale da visualizzare normalmente sul nostro browser, e una nuova, in Rdf e Owl o in altri linguaggi, che sarà però letta e interpretata da programmi (o agenti) intelligenti.

L’approccio bottom up Le pagine con lo “strato” semantico sono tuttavia una minima percentuale se paragonate a quelle pubblicate in modo tradizionale. Anche se i linguaggi, le ontologie, i vocabolari sono pronti da anni, le applicazioni semantiche tardano ad uscire dai settori di nicchia in cui sono al momento confinate: per la complessità intrinseca del sistema, perché non c’è una percezione adeguata dei vantaggi che un sistema semantico interconnesso possa dare, perché molte aziende preferiscono tenere i propri dati chiusi nei loro database (pensiamo a social network come Facebook), perché è difficile che gli utenti da soli possano procedere a pubblicare dati semantici ben strutturati. Per estendere questo strato si può agire in due modi: pubblicando nuove informazioni che hanno già al loro interno delle notificazioni se-

TIPS

TIPS

Le ontologie in Word

Un browser per il Web semantico

I più noti vocabolari del Web semantico

M

L

I

icrosoft ha pubblicato di recente un’add-on che consente di integrare ontologie nei testi scritti con Word 2007. Scaricabile all’indirizzo http://ucsdbiolit.codeplex.com, salva in locale alcune ontologie scelte da Microsoft e permette di annotare i testi che si sta scrivendo con i termini in esse contenuti. Al momento sono disponibili ontologie nei campi della medicina e delle scienze.

e risorse web in formato Rdf sono destinate ad essere consumate da software automatici e non da comuni browser. Un progetto che permette di visualizzarle anche in un comune navigatore è il SIOC Browser reperibile all’indirizzo http://sioc-project.org/browser. Sebbene sia indicato per risorse Sioc, un’ontologia per la rappresentazione semantica delle relazioni e delle informazioni generate da community on-line, funziona anche con altre tipologie di file Rdf e ne consente la navigazione da link a link.

l Web semantico può contare su un gran numero di vocabolari, ossia di elenchi di termini o frasi che rendono standard l’espressione di alcuni concetti. Alcuni di essi sono utilizzati per descrivere le informazioni relative alle persone (Foaf, hCard), informazioni sulla collocazione geografica di un luogo (Geonames), sugli eventi (RDFCalendar), sui social network (Sioc), sui prodotti pubblicati in un sito di commercio elettronico (GoodRelations). Un elenco di vocabolari, completo di descrizioni, è disponibile all’indirizzo http://semanticweb.org/wiki

103

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

OntoWiki utilizza il linguaggio Rdf e diversi vocabolari per pubblicare informazioni in forma strutturata.

mantiche oppure aggiungere un livello semantico, secondo gli standard del W3C o no, a informazioni già pubblicate. Il primo è un approccio bottom up (dal basso verso l’alto), il secondo è un approccio top down (dall’alto verso basso). L’approccio bottom up può essere affrontato adottando o progettando all’interno della propria organizzazione dei sistemi di pubblicazione dei contenuti (Cms, Content Management System) in grado di aggiungere, più o meno automaticamente, delle annotazioni ai documenti pubblicati. Uno dei progetti più noti in

COME FARE WEB SEMANTICO

Semantify, un tool basato su Php, consente di “taggare” porzioni delle proprie pagine Web con dati semantici.

questo campo è On to Wik i ( http:// ontowiki.net), un Wiki che utilizza il linguaggio Rdf e diversi vocabolari per pubblicare in forma strutturata informazioni. C’è poi molta attesa per la versione 7 del popolare Cms Drupal (http://drupal.org/), che integrerà diversi livelli dell’infrastruttura semantica del W3C. A metà strada fra l’approccio dall’alto e quello dal basso vi sono strumenti come Triplify e Semantify. Il primo (http://triplify.org) è un piccolo software che, analizzando le informazioni conservate nel databa-

se di un Cms, ne estrae la struttura semantica interpretando la struttura di tabelle, righe e colonne e la rende disponibile in formato Rdf. Triplify, scritto in Php, può essere adattato con un minimo di configurazione a qualsiasi applicazione Web, ad esempio il Cms Joomla, il sistema di pubblicazione di blog Wordpress o il forum phpBB. Semantify (www.dapper.net/semantify) è invece uno strumento, ancora in versione di sviluppo, che consente di “taggare” alcune porzioni delle proprie pagine con dati semantici per presentarle così modificate ai software che ne supportano l’individuazione. Al momento il servizio, anch’esso basato su Php, è progettato per servire pagine semantiche a Slurp, il robot di scansione di Yahoo, e accetta come formato solo Rdfa, un set di istruzioni per includere proprietà Rdf in normali pagine Web.

L’approccio top down

Basta indicare a Calais una pagina Web o un testo (in inglese o francese) da analizzare per riceverne subito una rappresentazione semantica.

104

PC Professionale - Maggio 2009

L’approccio top down risiede quasi interamente sulla capacità di un’applicazione di “capire” il significato di un testo che gli viene somministrato e di formalizzarne i concetti in modo da renderli poi riutilizzabili da software in diversi contesti . È l’approccio più complesso, e richiede grande potenza di calcolo nonché e raffinati strumenti di elaborazione del linguaggio naturale (NLP) e di apprendimento automatico. È anche l’approccio più fruttuoso, perché, oltre a poter essere

applicato virtualmente all’intero corpus di documenti pubblicati su Internet, non si basa su rigide strutture precostituite ma riconduce a logiche formali la complessità del linguaggio di tutti i giorni, quello effettivamente usato dalle persone quando scrivono. Utilizzato soprattutto in applicazioni commerciali come motori di ricerca di Intranet, sistemi di gestione delle informazioni o CRM aziendali, entra a far parte del Web 3.0 quando i dati elaborati vengono esposti anche on-line o quando diventa lo strumento per creare applicazioni web innovative. Calais è un progetto di Thomson Reuters, la società proprietaria della nota agenzia di stampa Reuters, che attraverso il progetto Open Calais (www.opencalais.com) offre liberamente l’uso di un’applicazione semantica di questo tipo. Basta indicare a Calais una pagina Web o un testo (in inglese o francese) da analizzare per ricevere subito una rappresentazione semantica del testo e, eventualmente, l’annotazione automatica in Rdf di persone, luoghi, aziende, fatti e eventi significativi trovati. Calais è un sistema aperto; ciò significa che chiunque può utilizzarlo e integrarlo nel proprio sito o blog attraverso delle interfacce di programmazione (Api). L’Italia in questo settore è all’avanguardia, poiché uno dei motori semantici top down più noti ed apprezzati, Cogito, è stato creato dall’italiana Expert System (www.expertsystem.net). Cogito, a cui abbiamo dedicato un riquadro separato, può essere adattato a diversi ambiti: dalla gestione di motori di ricerca alla distribuzione di inserzioni pubblicitarie, dall’analisi delle opinioni NLP espresse in comunità on-line alla NLP (Natural Language gestione di servizi Processing, elaborazione di customer care. del linguaggio naturale) è Cogito viene utiun campo della scienza lizzato inoltre nelche studia processi inforl’applicazione sematici in grado di analizzare il linguaggio umano. Il mantica Twine, di linguaggio naturale comcui parleremo più prende le lingue parlate avanti, e nell’agdall’essere umano ed è gregatore di blog l’opposto di linguagLiquida (www. gio formale. liquida.it).

I siti del Web semantico Dopo aver discusso le tecnologie del Web semantico è arrivato il momento di passare alla pratica. I siti descritti di seguito vi permetteranno di prendere contatto con il “Web 3.0”.

Uptake

Un aiuto per i consumatori Come detto, un approccio top down consente di analizzare i testi pubblicati sul Web ed estrarne concetti. Molti siti già utilizzano tecnologie semantiche, in modo più o meno completo, per aiutare l’utente a cercare il prodotto, la vacanza o il ristorante migliore basandosi sulle opinioni o sulle caratteristiche espresse da altri utenti. In questa rassegna vi presentiamo quelli che abbiamo trovato più utili; purtroppo sono quasi tutti in lingua inglese. Uptake (www.uptake.com), chiamato in precedenza Kangoo, è un servizio che consente di cercare la vacanza ideale in base ai propri stili di viaggio, alle proprie necessità o al proprio budget. È una sorta di motore comparativo che analizza, come dichiara il produttore, circa 5.000 siti dedicati ai viaggi e 20 milioni di opinioni espresse dai navigatori. Grazie all’analisi semantica delle informa-

105

PC Professionale - Maggio 2009

zioni contenute nei siti analizzati, Uptake riesce ad aggregare i luoghi in categorie comuni. È possibile cercare, digitando semplicemente una frase in linguaggio naturale, un hotel romantico ma economico, il miglior museo in una specifica zona, un ristorante di lusso che serve cibo giapponese e così via. Se si scrive, in inglese, Viaggio con i miei bambini e vorrei un hotel economico, il servizio mostra in testa alla classifica gli hotel con stanze adatte ad una famiglia e con un prezzo che non supera i 100 dollari. I risultati vengono classificati su una scala da 1 a 5 in base alle medie ricevute dagli altri siti e sono completate dalle informazioni sugli orari di apertura, indirizzi, mappe, numeri telefonici e così via. Swotti (www.swotti.com), è una delle applicazioni che rendono meglio l’idea di come la semantica possa migliorare e rendere più semplici la raccolta di informazioni su telefonini, libri, automobili e tutto ciò di cui si parla sul Web. Si tratta di un mo-

COME FARE WEB SEMANTICO

OntoWiki utilizza il linguaggio Rdf e diversi vocabolari per pubblicare informazioni in forma strutturata.

mantiche oppure aggiungere un livello semantico, secondo gli standard del W3C o no, a informazioni già pubblicate. Il primo è un approccio bottom up (dal basso verso l’alto), il secondo è un approccio top down (dall’alto verso basso). L’approccio bottom up può essere affrontato adottando o progettando all’interno della propria organizzazione dei sistemi di pubblicazione dei contenuti (Cms, Content Management System) in grado di aggiungere, più o meno automaticamente, delle annotazioni ai documenti pubblicati. Uno dei progetti più noti in

COME FARE WEB SEMANTICO

Semantify, un tool basato su Php, consente di “taggare” porzioni delle proprie pagine Web con dati semantici.

questo campo è On to Wik i ( http:// ontowiki.net), un Wiki che utilizza il linguaggio Rdf e diversi vocabolari per pubblicare in forma strutturata informazioni. C’è poi molta attesa per la versione 7 del popolare Cms Drupal (http://drupal.org/), che integrerà diversi livelli dell’infrastruttura semantica del W3C. A metà strada fra l’approccio dall’alto e quello dal basso vi sono strumenti come Triplify e Semantify. Il primo (http://triplify.org) è un piccolo software che, analizzando le informazioni conservate nel databa-

se di un Cms, ne estrae la struttura semantica interpretando la struttura di tabelle, righe e colonne e la rende disponibile in formato Rdf. Triplify, scritto in Php, può essere adattato con un minimo di configurazione a qualsiasi applicazione Web, ad esempio il Cms Joomla, il sistema di pubblicazione di blog Wordpress o il forum phpBB. Semantify (www.dapper.net/semantify) è invece uno strumento, ancora in versione di sviluppo, che consente di “taggare” alcune porzioni delle proprie pagine con dati semantici per presentarle così modificate ai software che ne supportano l’individuazione. Al momento il servizio, anch’esso basato su Php, è progettato per servire pagine semantiche a Slurp, il robot di scansione di Yahoo, e accetta come formato solo Rdfa, un set di istruzioni per includere proprietà Rdf in normali pagine Web.

L’approccio top down

Basta indicare a Calais una pagina Web o un testo (in inglese o francese) da analizzare per riceverne subito una rappresentazione semantica.

104

PC Professionale - Maggio 2009

L’approccio top down risiede quasi interamente sulla capacità di un’applicazione di “capire” il significato di un testo che gli viene somministrato e di formalizzarne i concetti in modo da renderli poi riutilizzabili da software in diversi contesti . È l’approccio più complesso, e richiede grande potenza di calcolo nonché e raffinati strumenti di elaborazione del linguaggio naturale (NLP) e di apprendimento automatico. È anche l’approccio più fruttuoso, perché, oltre a poter essere

applicato virtualmente all’intero corpus di documenti pubblicati su Internet, non si basa su rigide strutture precostituite ma riconduce a logiche formali la complessità del linguaggio di tutti i giorni, quello effettivamente usato dalle persone quando scrivono. Utilizzato soprattutto in applicazioni commerciali come motori di ricerca di Intranet, sistemi di gestione delle informazioni o CRM aziendali, entra a far parte del Web 3.0 quando i dati elaborati vengono esposti anche on-line o quando diventa lo strumento per creare applicazioni web innovative. Calais è un progetto di Thomson Reuters, la società proprietaria della nota agenzia di stampa Reuters, che attraverso il progetto Open Calais (www.opencalais.com) offre liberamente l’uso di un’applicazione semantica di questo tipo. Basta indicare a Calais una pagina Web o un testo (in inglese o francese) da analizzare per ricevere subito una rappresentazione semantica del testo e, eventualmente, l’annotazione automatica in Rdf di persone, luoghi, aziende, fatti e eventi significativi trovati. Calais è un sistema aperto; ciò significa che chiunque può utilizzarlo e integrarlo nel proprio sito o blog attraverso delle interfacce di programmazione (Api). L’Italia in questo settore è all’avanguardia, poiché uno dei motori semantici top down più noti ed apprezzati, Cogito, è stato creato dall’italiana Expert System (www.expertsystem.net). Cogito, a cui abbiamo dedicato un riquadro separato, può essere adattato a diversi ambiti: dalla gestione di motori di ricerca alla distribuzione di inserzioni pubblicitarie, dall’analisi delle opinioni NLP espresse in comunità on-line alla NLP (Natural Language gestione di servizi Processing, elaborazione di customer care. del linguaggio naturale) è Cogito viene utiun campo della scienza lizzato inoltre nelche studia processi inforl’applicazione sematici in grado di analizzare il linguaggio umano. Il mantica Twine, di linguaggio naturale comcui parleremo più prende le lingue parlate avanti, e nell’agdall’essere umano ed è gregatore di blog l’opposto di linguagLiquida (www. gio formale. liquida.it).

I siti del Web semantico Dopo aver discusso le tecnologie del Web semantico è arrivato il momento di passare alla pratica. I siti descritti di seguito vi permetteranno di prendere contatto con il “Web 3.0”.

Uptake

Un aiuto per i consumatori Come detto, un approccio top down consente di analizzare i testi pubblicati sul Web ed estrarne concetti. Molti siti già utilizzano tecnologie semantiche, in modo più o meno completo, per aiutare l’utente a cercare il prodotto, la vacanza o il ristorante migliore basandosi sulle opinioni o sulle caratteristiche espresse da altri utenti. In questa rassegna vi presentiamo quelli che abbiamo trovato più utili; purtroppo sono quasi tutti in lingua inglese. Uptake (www.uptake.com), chiamato in precedenza Kangoo, è un servizio che consente di cercare la vacanza ideale in base ai propri stili di viaggio, alle proprie necessità o al proprio budget. È una sorta di motore comparativo che analizza, come dichiara il produttore, circa 5.000 siti dedicati ai viaggi e 20 milioni di opinioni espresse dai navigatori. Grazie all’analisi semantica delle informa-

105

PC Professionale - Maggio 2009

zioni contenute nei siti analizzati, Uptake riesce ad aggregare i luoghi in categorie comuni. È possibile cercare, digitando semplicemente una frase in linguaggio naturale, un hotel romantico ma economico, il miglior museo in una specifica zona, un ristorante di lusso che serve cibo giapponese e così via. Se si scrive, in inglese, Viaggio con i miei bambini e vorrei un hotel economico, il servizio mostra in testa alla classifica gli hotel con stanze adatte ad una famiglia e con un prezzo che non supera i 100 dollari. I risultati vengono classificati su una scala da 1 a 5 in base alle medie ricevute dagli altri siti e sono completate dalle informazioni sugli orari di apertura, indirizzi, mappe, numeri telefonici e così via. Swotti (www.swotti.com), è una delle applicazioni che rendono meglio l’idea di come la semantica possa migliorare e rendere più semplici la raccolta di informazioni su telefonini, libri, automobili e tutto ciò di cui si parla sul Web. Si tratta di un mo-

COME FARE WEB SEMANTICO

COME FARE WEB SEMANTICO

prenotazione) ed estrae le informazioni più rilevanti per costruire l’itiXfn (Xhtml Friends Netnerario: le date del volo, work) è un microformato le date di permanenza, i che consente di rappreluoghi in cui ci si sposta sentare relazioni fra persone attraverso link inclue così via. Tecnologie si in pagine Html. Con Xfn semantiche sono inoltre è possibile, ad esempio, utilizzate anche nei inserire nella propria pacontenuti presenti sul gina Web un collegamenTripit (w www.tripit.com) sito: i viaggi e le pagine to alla pagina di un collepersonali degli utenti è un servizio on-line che ga, di un conoscente o di sono presentati utilizaiuta le persone ad orun amico specificando il zando i microformati ganizzare i propri viagtipo di relazione con un per le date dei viaggi, gi. Il funzionamento è semplice attributo per i luoghi e per le persemplice: si prenota un (l’attributo rel). sone aggiunte all’itineviaggio o un pacchetto rario mentre la pagina completo presso uno o personale di ogni iscritto è associata più degli oltre 350 siti supportati (tra con dati Xfn usati per rappresentare cui Expedia, Lastminute e Venere.com) e si inviano tutti i mesrelazioni all’interno della Rete. saggi di conferma ricevuti all’indirizzo [email protected]; in risposta si riceGestione ve indietro una pianificazione dettadella conoscenza gliata del viaggio. Tripit agisce come una sorta di operatore automatico: il Una delle prime metodologie semasistema aggrega automaticamente le tiche ad aver raggiunto il grande indicazioni del viaggio ricevute dalpubblico è stata quella dei tag. Indil’utente con le informazioni sul tempo cando per ogni elemento – una pache troverà, sui luoghi che potrebbe gina creata, una foto scattata o un visitare, gli eventi del periodo e così link condiviso – un’etichetta in gravia. Vengono mostrate anche mappe do di aggiungervi significati o catedettagliate della zona del viaggio e gorie, si contribuisce a creare una fotografie, tutti contenuti ricavati aurete personale di significati. Chiuntomaticamente da altri siti Web: Wikique abbia usato i tag, sul Web o in pedia per le informazioni turistiche, altri ambiti, tuttavia, sa bene come Eventful per gli eventi, Flickr per le sia difficile conservare la coerenza foto e così via. Come tutti i servizi visti delle definizioni nel tempo. Faviki (www.faviki.com) è un’applisinora, anche Tripit esegue un’analisi semantica su un set di dati (le e-mail cazione che cerca di risolvere questo di conferma ricevute dai servizi di problema introducendo nel campo le opinioni raccolte sul servizio, sul cibo e sull’ambiente oltre che dati logistici e l’elenco delle recensioni dei siti esterni. Il servizio al momento è attivo solo per una manciata di città degli Stati Uniti.

Swotti

Boorah

tore di ricerca che cataloga decine di prodotti diversi e analizza sia le recensioni comparse su siti specializzati, sia le opinioni che su questi prodotti hanno espresso i navigatori attraverso siti, blog o commenti. Le fonti del motore sono filtrate per escludere quelle meno significative, sono analizzate semanticamente, aggregate in contenuti o tag rilevanti e poi presentate in una forma grafica di facile comprensione. Se, ad esempio, cerchiamo sul sito la voce iPhone, la pagina del risultato mostrerà oltre alle specifiche tecniche del dispositivo anche le sue principali funzionalità, accompagnate dalla valutazione che ha ricevuto nei contenuti monitorati da Swotti: per lo smartphone di Apple al momento sono positive le valutazioni sulla qualità del suono e sull’usabilità e sul design, negative quelle sul peso, sulla qualità di ricezione e sulla funzionalità della videocamera e della tastiera. In fondo alla pagina sono inoltre indicati i link alle pagine analizzate e gli estratti dei contenuti, con evidenziate tutte le parole che hanno contribuito alla strutturazione dell’indice: rosse se negative e verdi





se positive. I link possono essere anche filtrati in base alle funzionalità: facendo clic ad esempio sulla voce Battery presentata nel piccolo box riassuntivo verranno mostrati solamente i contenuti che parlano (bene o male) della batteria dell’iPhone. Swotti non si limita alla ricerca di prodotti, ma permette di trovare opinioni anche su film, città da visitare, personalità dello spettacolo, adattando i concetti rilevanti per ognuna di queste categorie: sceneggiatura per i film, qualità del cibo per i viaggi, simpatia per le persone e così via. Attualmente il motore è disponibile solo in inglese o spagnolo, ma nel corso dell’anno dovrebbe essere aggiunto il supporto di altre lingue. Purtroppo si sa ben poco della tecnologia semantica che utilizza e su dove e come raccoglie le informazioni.

Boorah (www.boorah.com) è un’applicazione simile a Swotti ma dedicata all’analisi delle recensioni di ristoranti. Il servizio analizza le opinioni espresse da comuni navigatori o da recensori professionisti su ristoranti, pizzerie e altri luoghi di ristorazione e le interpreta per aiutare l’utente nella scelta del posto dove mangiare. La ricerca è molto semplice: basta inserire il tipo di ristorante o il tipo di cucina che interessa (pizzeria, ristorante italiano, sushi e così via) e il luogo in cui si intende mangiare per ricevere una lista di ristoranti ordinata in base ai commenti positivi ricevuti mostrati in percentuale sotto la voce Rah’d (nella terminologia del servizio Boo indica i giudizi negativi, mentre Rah quelli positivi). A differenza di Swotti, il sistema estrae un set minore di dati: per ogni ristorante vengono fornite

Xnf

Swotti per ora è disponibile solo in inglese e spagnolo, ma entro l’anno supporterà anche altre lingue.

Tripit

Faviki

106

PC Professionale - Maggio 2009

107

PC Professionale - Maggio 2009

dei bookmark condivisi il semantic tagging o, in italiano, il sistema di etichettatura semantico. Il servizio consente di salvare i link a pagine Web e di catalogarli usando un set di tag predefiniti estrapolati dai concetti presenti in Wikipedia. I tag vengono suggeriti automaticamente in base all’analisi della pagina o aggiunti a mano dall’utente, ma in entrambi i casi devono essere presenti come pagine di Wikipedia. I link salvati possono poi essere ricercati per parole chiave o esplorati navigando tra le categorie ( topic ), anch’esse speculari a quelle di Wikipedia. Il risultato è un catalogo ordinato e coerente di link che favorisce la ricerca

Microformati e Rdfa

R

df è certamente il miglior linguaggio per strutturare semanticamente i dati pubblicati on-line, ma ha il difetto di essere poco comprensibile da un pubblico di non esperti. Esistono tuttavia altri sistemi per aggiungere un minimo livello di significati ai contenuti online. I cosiddetti microformati (http://microformats.org) sono piccole porzioni di codice che etichettano una frase, una parola, un numero in una pagina Web e rendono comprensibile il significato del contenuto anche a software o altri strumenti automatici. Poiché vengono inclusi direttamente in comuni pagine Web scritte in Html, sono molto semplici da assimilare e utilizzare. Esistono microformati per indicare i dati di una persona (numero di telefono, indirizzo, e-mail ecc.), le date di un evento, gli argomenti di un articoli, le amicizie in un social network e così via. Promossi da una comunità di sviluppatori indipendenti, sono adottati da molti siti del network di Yahoo!, da Google Maps, da Twitter, da Facebook, da Linkedin e da decine di altri servizi e applicazioni Web. In questo articolo abbiamo indicato un’estensione per Firefox che permette ai browser di leggere i microformati. In seno al progetto Web semantico del W3C esiste anche un altro linguaggio che fa più o meno la stessa cosa dei microformati, ovvero include in normali pagine Web annotazioni semantiche. Si chiama Rdfa (www.w3.org/TR/xhtml-Rdfa-primer) ed è basato su Rdf: utilizza triplette per definire le relazioni fra elementi e può adattarsi a molti domini di conoscenza ed entità utilizzando diversi vocabolari. Sia i microformati, sia Rdfa possono essere facilmente trasformati in Rdf attraverso l’uso di un altro linguaggio sviluppato dal W3C chiamato Grddl.

COME FARE WEB SEMANTICO

COME FARE WEB SEMANTICO

prenotazione) ed estrae le informazioni più rilevanti per costruire l’itiXfn (Xhtml Friends Netnerario: le date del volo, work) è un microformato le date di permanenza, i che consente di rappreluoghi in cui ci si sposta sentare relazioni fra persone attraverso link inclue così via. Tecnologie si in pagine Html. Con Xfn semantiche sono inoltre è possibile, ad esempio, utilizzate anche nei inserire nella propria pacontenuti presenti sul gina Web un collegamenTripit (w www.tripit.com) sito: i viaggi e le pagine to alla pagina di un collepersonali degli utenti è un servizio on-line che ga, di un conoscente o di sono presentati utilizaiuta le persone ad orun amico specificando il zando i microformati ganizzare i propri viagtipo di relazione con un per le date dei viaggi, gi. Il funzionamento è semplice attributo per i luoghi e per le persemplice: si prenota un (l’attributo rel). sone aggiunte all’itineviaggio o un pacchetto rario mentre la pagina completo presso uno o personale di ogni iscritto è associata più degli oltre 350 siti supportati (tra con dati Xfn usati per rappresentare cui Expedia, Lastminute e Venere.com) e si inviano tutti i mesrelazioni all’interno della Rete. saggi di conferma ricevuti all’indirizzo [email protected]; in risposta si riceGestione ve indietro una pianificazione dettadella conoscenza gliata del viaggio. Tripit agisce come una sorta di operatore automatico: il Una delle prime metodologie semasistema aggrega automaticamente le tiche ad aver raggiunto il grande indicazioni del viaggio ricevute dalpubblico è stata quella dei tag. Indil’utente con le informazioni sul tempo cando per ogni elemento – una pache troverà, sui luoghi che potrebbe gina creata, una foto scattata o un visitare, gli eventi del periodo e così link condiviso – un’etichetta in gravia. Vengono mostrate anche mappe do di aggiungervi significati o catedettagliate della zona del viaggio e gorie, si contribuisce a creare una fotografie, tutti contenuti ricavati aurete personale di significati. Chiuntomaticamente da altri siti Web: Wikique abbia usato i tag, sul Web o in pedia per le informazioni turistiche, altri ambiti, tuttavia, sa bene come Eventful per gli eventi, Flickr per le sia difficile conservare la coerenza foto e così via. Come tutti i servizi visti delle definizioni nel tempo. Faviki (www.faviki.com) è un’applisinora, anche Tripit esegue un’analisi semantica su un set di dati (le e-mail cazione che cerca di risolvere questo di conferma ricevute dai servizi di problema introducendo nel campo le opinioni raccolte sul servizio, sul cibo e sull’ambiente oltre che dati logistici e l’elenco delle recensioni dei siti esterni. Il servizio al momento è attivo solo per una manciata di città degli Stati Uniti.

Swotti

Boorah

tore di ricerca che cataloga decine di prodotti diversi e analizza sia le recensioni comparse su siti specializzati, sia le opinioni che su questi prodotti hanno espresso i navigatori attraverso siti, blog o commenti. Le fonti del motore sono filtrate per escludere quelle meno significative, sono analizzate semanticamente, aggregate in contenuti o tag rilevanti e poi presentate in una forma grafica di facile comprensione. Se, ad esempio, cerchiamo sul sito la voce iPhone, la pagina del risultato mostrerà oltre alle specifiche tecniche del dispositivo anche le sue principali funzionalità, accompagnate dalla valutazione che ha ricevuto nei contenuti monitorati da Swotti: per lo smartphone di Apple al momento sono positive le valutazioni sulla qualità del suono e sull’usabilità e sul design, negative quelle sul peso, sulla qualità di ricezione e sulla funzionalità della videocamera e della tastiera. In fondo alla pagina sono inoltre indicati i link alle pagine analizzate e gli estratti dei contenuti, con evidenziate tutte le parole che hanno contribuito alla strutturazione dell’indice: rosse se negative e verdi





se positive. I link possono essere anche filtrati in base alle funzionalità: facendo clic ad esempio sulla voce Battery presentata nel piccolo box riassuntivo verranno mostrati solamente i contenuti che parlano (bene o male) della batteria dell’iPhone. Swotti non si limita alla ricerca di prodotti, ma permette di trovare opinioni anche su film, città da visitare, personalità dello spettacolo, adattando i concetti rilevanti per ognuna di queste categorie: sceneggiatura per i film, qualità del cibo per i viaggi, simpatia per le persone e così via. Attualmente il motore è disponibile solo in inglese o spagnolo, ma nel corso dell’anno dovrebbe essere aggiunto il supporto di altre lingue. Purtroppo si sa ben poco della tecnologia semantica che utilizza e su dove e come raccoglie le informazioni.

Boorah (www.boorah.com) è un’applicazione simile a Swotti ma dedicata all’analisi delle recensioni di ristoranti. Il servizio analizza le opinioni espresse da comuni navigatori o da recensori professionisti su ristoranti, pizzerie e altri luoghi di ristorazione e le interpreta per aiutare l’utente nella scelta del posto dove mangiare. La ricerca è molto semplice: basta inserire il tipo di ristorante o il tipo di cucina che interessa (pizzeria, ristorante italiano, sushi e così via) e il luogo in cui si intende mangiare per ricevere una lista di ristoranti ordinata in base ai commenti positivi ricevuti mostrati in percentuale sotto la voce Rah’d (nella terminologia del servizio Boo indica i giudizi negativi, mentre Rah quelli positivi). A differenza di Swotti, il sistema estrae un set minore di dati: per ogni ristorante vengono fornite

Xnf

Swotti per ora è disponibile solo in inglese e spagnolo, ma entro l’anno supporterà anche altre lingue.

Tripit

Faviki

106

PC Professionale - Maggio 2009

107

PC Professionale - Maggio 2009

dei bookmark condivisi il semantic tagging o, in italiano, il sistema di etichettatura semantico. Il servizio consente di salvare i link a pagine Web e di catalogarli usando un set di tag predefiniti estrapolati dai concetti presenti in Wikipedia. I tag vengono suggeriti automaticamente in base all’analisi della pagina o aggiunti a mano dall’utente, ma in entrambi i casi devono essere presenti come pagine di Wikipedia. I link salvati possono poi essere ricercati per parole chiave o esplorati navigando tra le categorie ( topic ), anch’esse speculari a quelle di Wikipedia. Il risultato è un catalogo ordinato e coerente di link che favorisce la ricerca

Microformati e Rdfa

R

df è certamente il miglior linguaggio per strutturare semanticamente i dati pubblicati on-line, ma ha il difetto di essere poco comprensibile da un pubblico di non esperti. Esistono tuttavia altri sistemi per aggiungere un minimo livello di significati ai contenuti online. I cosiddetti microformati (http://microformats.org) sono piccole porzioni di codice che etichettano una frase, una parola, un numero in una pagina Web e rendono comprensibile il significato del contenuto anche a software o altri strumenti automatici. Poiché vengono inclusi direttamente in comuni pagine Web scritte in Html, sono molto semplici da assimilare e utilizzare. Esistono microformati per indicare i dati di una persona (numero di telefono, indirizzo, e-mail ecc.), le date di un evento, gli argomenti di un articoli, le amicizie in un social network e così via. Promossi da una comunità di sviluppatori indipendenti, sono adottati da molti siti del network di Yahoo!, da Google Maps, da Twitter, da Facebook, da Linkedin e da decine di altri servizi e applicazioni Web. In questo articolo abbiamo indicato un’estensione per Firefox che permette ai browser di leggere i microformati. In seno al progetto Web semantico del W3C esiste anche un altro linguaggio che fa più o meno la stessa cosa dei microformati, ovvero include in normali pagine Web annotazioni semantiche. Si chiama Rdfa (www.w3.org/TR/xhtml-Rdfa-primer) ed è basato su Rdf: utilizza triplette per definire le relazioni fra elementi e può adattarsi a molti domini di conoscenza ed entità utilizzando diversi vocabolari. Sia i microformati, sia Rdfa possono essere facilmente trasformati in Rdf attraverso l’uso di un altro linguaggio sviluppato dal W3C chiamato Grddl.

COME FARE WEB SEMANTICO

di nuovi contenuti. Faviki non è disponibile solo in inglese: grazie agli strumenti di Google per la traduzione, il servizio è in grado di interpretare, anche se in modo non sempre preciso, pagine Web in 11 lingue diverse (tra cui l’italiano). Freebase (w w ww .free bas e.co m ), un sito nato nel marzo 2007, è stato una delle prime applicazioni semantiche ad aver avuto vasta eco anche al di fuori del settore più propriamente tecnologico e ha avuto senza dubbio il merito di diffondere presso un pubblico di appassionati il concetto di Web semantico. È una sorta di enciclopedia partecipata simile a Wikipedia ma contenente già in partenza dati strutturati semanticamente: non a caso i creatori di Freebase preferiscono parlare del proprio servizio come di un “database aperto di informazioni”. La struttura è apparentemente simile a quella di una enciclopedia: le informazioni sono ordinate per voci (topic) e ogni voce può far parte di categorie più ampie chiamati bases e commons. Una voce non viene però riempita con paragrafi

Freebase

Twine

espositivi, ma con informazioni (types ) incluse in campi predefiniti (properties): un film avrà il campo per la sceneggiatura, una persona avrà il campo per la data di nascita e così via. I dati provengono sia da articoli aggiunti liberamente dai navigatori sia da alcune basi dati già

precostituite, come la stessa Wikipedia, l’enciclopedia musicale MusicBrainz o i database pubblici della CIA. L’uso di dati strutturati ha due diverse implicazioni: da un lato Freebase è un servizio che mostra dati e fatti più che articoli espositivi come una tradizionale enciclopedia;

dall’altro i dati sono sempre coerenti con la categoria cui appartengono e diventano così confrontabili. Le informazioni così strutturate possono essere usate in altre applicazioni: alla pagina Web http://dev.mqlx.com /~zak/arch/ è possibile visualizzare un esempio creativo di come i dati

relativi agli architetti e alle opere da loro create possono essere confrontati e visualizzati su una mappa di Google Maps. Twine (w www.twine.com) è probabilmente la più diffusa applicazione basata su tecnologie semantiche.

Unendo capacità di social network e di analisi semantica dei contenuti, Twine costruisce una rete di riferimenti e informazioni attorno agli interessi degli utenti, facilitandone l’esplorazione e suggerendo nuovi interessi possibili. Il cuore dell’applicazione sono gli items (elementi): pagine Web, video, documenti, email, brevi note salvate dall’utente direttamente nell’applicazione o aggiunte in automatico dal browser attraverso un pulsante (di fatto bookmarlet) compatibile con Firefox, Explorer e Safari. Quando si inserisce un nuovo elemento, Twine lo analizza semanticamente, ne estrae i significati più rilevanti e vi associa delle categorie o tag. Si può cercare all’interno degli elementi salvati oppure in quelli aggiunti dagli altri utenti con metodi impossibili da immaginare senza un’applicazione semantica: chi, ad esempio, è interessato ai dati finanziari di un’azienda non deve fare altro che selezionare la categoria finance e poi il nome dell’azienda. È possibile filtrare le ricerche in base ad tipi specifici di elementi oppure selezionare quelli che

PASSO PER PASSO

Cogito: un software semantico all’opera

P

er software semantico (o anche motore semantico) si intende comunemente un software, o una serie di software tra loro collegati, che analizza testi digitali e ne estrapola concetti e relazioni rilevanti. Si tratta, in altre parole, di un programma che capisce i significati di un testo e li mette a disposizione di altre applicazioni. Uno dei migliori software semantici si chiama Cogito ed è sviluppato modenese Expert System, l’azienda che ha sviluppato anni fa il correttore ortografico italiano incluso nelle edizioni di Microsoft Office. Il motore di Expert System, utilizzato come white label – ossia come prodotto non ufficialmente attribuibile all’azienda che lo ha sviluppato – in servizi Web, telefonini e altre applicazioni, è quello che gestisce il processo di analisi di Twine, una delle più promettenti applicazioni Web a far uso di tecnologie semantiche. Il primo passo che

1

108

2 compie Cogito quando riceve un testo da analizzare è l’analisi grammaticale, logica e lessicale del testo (figura 1). Questa analisi consente non solo di individuare il significato di singole parole o di sintagmi specifici, come ad esempio area euro a indicare l’area economica che adotta la moneta unica, ma organizza il testo in unità minime di significato sotto forma di triplette “soggetto verbo complemento oggetto” e individua gli argomenti principali del testo sotto forma di temi (economia, statistica, lavoro). Durante l’analisi, attraverso una rete semantica

PC Professionale - Maggio 2009

3

4

(un’ontologia) chiamata Sensigrafo e composta da più di un milione di nodi in quattro lingue (italiano, inglese, arabo e tedesco), il motore disambigua le parole che hanno più di un significato (figura 2): per la parola persona, ad esempio, il motore di Cogito registra nove significati differenti e, in base al contesto della frase, seleziona quello più pertinente. Sensigrafo è una rete semantica che, inizialmente costruita a mano, può oggi apprendere automaticamente nuovi concetti per espandere i domini di conoscenza. In un passaggio successivo Cogito indivi-

dua le tre frasi più importanti del testo, estrae (figura 3) le entità più rilevanti (personaggi, città, luoghi, aziende, date, indirizzi) e costruisce fra di esse una rete di riferimenti utilizzando delle azioni come collegamento: in un testo biografico, ad esempio, la relazione potrebbe essere Francesco nato 27 settembre 1973 oppure Francesco nato Pescara. Tutte le relazioni individuate possono essere visualizzate in un grafo in cui ai nodi corrispondono le entità e agli archi le azioni (figura 4). Un testo così strutturato, in cui ogni entità è messa in relazione ad un’altra in base a dei significati, è un testo compreso completamente da una macchina: se attraverso un’interfaccia di ricerca chiedessi “quando è nato Francesco?” il sistema mi darebbe subito un’unica risposta “il 27 settembre 1973 a Pescara”.

109

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

di nuovi contenuti. Faviki non è disponibile solo in inglese: grazie agli strumenti di Google per la traduzione, il servizio è in grado di interpretare, anche se in modo non sempre preciso, pagine Web in 11 lingue diverse (tra cui l’italiano). Freebase (w w ww .free bas e.co m ), un sito nato nel marzo 2007, è stato una delle prime applicazioni semantiche ad aver avuto vasta eco anche al di fuori del settore più propriamente tecnologico e ha avuto senza dubbio il merito di diffondere presso un pubblico di appassionati il concetto di Web semantico. È una sorta di enciclopedia partecipata simile a Wikipedia ma contenente già in partenza dati strutturati semanticamente: non a caso i creatori di Freebase preferiscono parlare del proprio servizio come di un “database aperto di informazioni”. La struttura è apparentemente simile a quella di una enciclopedia: le informazioni sono ordinate per voci (topic) e ogni voce può far parte di categorie più ampie chiamati bases e commons. Una voce non viene però riempita con paragrafi

Freebase

Twine

espositivi, ma con informazioni (types ) incluse in campi predefiniti (properties): un film avrà il campo per la sceneggiatura, una persona avrà il campo per la data di nascita e così via. I dati provengono sia da articoli aggiunti liberamente dai navigatori sia da alcune basi dati già

precostituite, come la stessa Wikipedia, l’enciclopedia musicale MusicBrainz o i database pubblici della CIA. L’uso di dati strutturati ha due diverse implicazioni: da un lato Freebase è un servizio che mostra dati e fatti più che articoli espositivi come una tradizionale enciclopedia;

dall’altro i dati sono sempre coerenti con la categoria cui appartengono e diventano così confrontabili. Le informazioni così strutturate possono essere usate in altre applicazioni: alla pagina Web http://dev.mqlx.com /~zak/arch/ è possibile visualizzare un esempio creativo di come i dati

relativi agli architetti e alle opere da loro create possono essere confrontati e visualizzati su una mappa di Google Maps. Twine (w www.twine.com) è probabilmente la più diffusa applicazione basata su tecnologie semantiche.

Unendo capacità di social network e di analisi semantica dei contenuti, Twine costruisce una rete di riferimenti e informazioni attorno agli interessi degli utenti, facilitandone l’esplorazione e suggerendo nuovi interessi possibili. Il cuore dell’applicazione sono gli items (elementi): pagine Web, video, documenti, email, brevi note salvate dall’utente direttamente nell’applicazione o aggiunte in automatico dal browser attraverso un pulsante (di fatto bookmarlet) compatibile con Firefox, Explorer e Safari. Quando si inserisce un nuovo elemento, Twine lo analizza semanticamente, ne estrae i significati più rilevanti e vi associa delle categorie o tag. Si può cercare all’interno degli elementi salvati oppure in quelli aggiunti dagli altri utenti con metodi impossibili da immaginare senza un’applicazione semantica: chi, ad esempio, è interessato ai dati finanziari di un’azienda non deve fare altro che selezionare la categoria finance e poi il nome dell’azienda. È possibile filtrare le ricerche in base ad tipi specifici di elementi oppure selezionare quelli che

PASSO PER PASSO

Cogito: un software semantico all’opera

P

er software semantico (o anche motore semantico) si intende comunemente un software, o una serie di software tra loro collegati, che analizza testi digitali e ne estrapola concetti e relazioni rilevanti. Si tratta, in altre parole, di un programma che capisce i significati di un testo e li mette a disposizione di altre applicazioni. Uno dei migliori software semantici si chiama Cogito ed è sviluppato modenese Expert System, l’azienda che ha sviluppato anni fa il correttore ortografico italiano incluso nelle edizioni di Microsoft Office. Il motore di Expert System, utilizzato come white label – ossia come prodotto non ufficialmente attribuibile all’azienda che lo ha sviluppato – in servizi Web, telefonini e altre applicazioni, è quello che gestisce il processo di analisi di Twine, una delle più promettenti applicazioni Web a far uso di tecnologie semantiche. Il primo passo che

1

108

2 compie Cogito quando riceve un testo da analizzare è l’analisi grammaticale, logica e lessicale del testo (figura 1). Questa analisi consente non solo di individuare il significato di singole parole o di sintagmi specifici, come ad esempio area euro a indicare l’area economica che adotta la moneta unica, ma organizza il testo in unità minime di significato sotto forma di triplette “soggetto verbo complemento oggetto” e individua gli argomenti principali del testo sotto forma di temi (economia, statistica, lavoro). Durante l’analisi, attraverso una rete semantica

PC Professionale - Maggio 2009

3

4

(un’ontologia) chiamata Sensigrafo e composta da più di un milione di nodi in quattro lingue (italiano, inglese, arabo e tedesco), il motore disambigua le parole che hanno più di un significato (figura 2): per la parola persona, ad esempio, il motore di Cogito registra nove significati differenti e, in base al contesto della frase, seleziona quello più pertinente. Sensigrafo è una rete semantica che, inizialmente costruita a mano, può oggi apprendere automaticamente nuovi concetti per espandere i domini di conoscenza. In un passaggio successivo Cogito indivi-

dua le tre frasi più importanti del testo, estrae (figura 3) le entità più rilevanti (personaggi, città, luoghi, aziende, date, indirizzi) e costruisce fra di esse una rete di riferimenti utilizzando delle azioni come collegamento: in un testo biografico, ad esempio, la relazione potrebbe essere Francesco nato 27 settembre 1973 oppure Francesco nato Pescara. Tutte le relazioni individuate possono essere visualizzate in un grafo in cui ai nodi corrispondono le entità e agli archi le azioni (figura 4). Un testo così strutturato, in cui ogni entità è messa in relazione ad un’altra in base a dei significati, è un testo compreso completamente da una macchina: se attraverso un’interfaccia di ricerca chiedessi “quando è nato Francesco?” il sistema mi darebbe subito un’unica risposta “il 27 settembre 1973 a Pescara”.

109

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

riguardano una determinata persona o un determinato posto. Ci sono infine altri due elementi che rendono Twine un’applicazione più “intelligente” delle altre. In primo luogo il sistema di raccomandazione: gli elementi che aggiungiamo contribuiscono a costruire un nostro profilo di interessi che, confrontato con quelli aggiunti da altri utenti, viene usato dall’applicazione per suggerire persone con cui entrare in contatto o nuove informazioni da leggere. È un po’ come il suggerimento di nuove amicizie in Facebook, ma in questo caso le relazioni sono guidate dalle informazioni che condividiamo e non dalle vicinanze sociali. In secondo luogo, ogni elemento aggiunto a Twine viene salvato all’interno dell’applicazione secondo gli standard del Web semantico: ogni pagina pubblicata viene formattata secondo le specifiche Rdf per poter essere così utilizzata all’interno delle applicazioni capaci di farne uso, come motori di ricerca o altri servizi.

Motori di ricerca Le applicazioni semantiche, per la loro stessa natura, sono utilizzate in applicazioni che organizzano e permettono la ricerca di informazioni. Il campo più indicato per la loro applicazione dovrebbe essere dunque quello della ricerca globale delle pagine pubblicate sul Web – alla Google – mentre le applicazioni che forniscono le funzioni più utili sono quelle che eseguono ricerche in piccole nicchie di settore (come Uptake o Boorah) o su basi semantiche già costituite (Freebase e Twine). Nella ricerca tradizionale non c’è nulla che possa essere paragonato, per capacità e precisione, al motore di Mountain View. È un problema di tecnologia e di potenza di calcolo: le analisi semantiche di documenti o pagine Web non strutturate richiedono una enorme potenza computazionale e funzionano meglio se tarate su informazioni appartenenti allo stesso ambito. A ciò si aggiunga che,

proprio perché basati su significati, i motori di ricerca semantici offrono i migliori risultati quando sono interrogati attraverso un linguaggio comune: per avere informazioni sulle farmacie di Roma ci si deve aspettare interrogazioni del tipo dove sono le farmacie a Roma? oppure quali sono le farmacie di turno a Roma il mercoledì? e non, come siamo abituati a fare oggi, farmacie Roma. Ciò comporta problemi difficilmente aggirabili quando la sfera dei concetti è virtualmente illimitata. Ciò non implica che non esistano motori di ricerca semantici: un rappresentante della categoria è ad esempio, Powerset (www.powerset. com) , un servizio acquisito da Mi crosoft lo scorso anno. Questo motore dal maggio 2008 permette di interrogare l’archivio inglese di Wikipedia attraverso frasi espresse in linguaggio naturale: per cercare, ad esempio, quanto è alto l’Everest basta scrivere how high is Everest?. Il primo risultato è proprio l’altitudine

re dalla base dati delle categorie: se cerchiamo chi ha scalato l’Everest (who climbed mount Everest?) possiamo ad esempio filtrare i nomi in base al genere (maschio/femmina), alla nazionalità o in base ad altre categorie rilevanti. I risultati non sempre sono all’altezza delle aspettative: per fare un esempio, tra gli scalatori dell’Everest abbiamo trovato nelle prime posizioni Oscar Pistorius, che è un corridore e non uno scalatore, e a volte basta cambiare un termine con un sinonimo per ricevere informazioni non rilevanti.

Powerset esatta della montagna nepalese. I risultati provengono anche dall’archivio di Freebase e possono essere organizzati, quando la ricerca e i dati lo permettono, in quelli che il motore chiama Factz : frasi dichiarative

espresse nella forma di tripletta soggetto/predicato/oggetto che abbiamo già analizzato nell’introduzione parlando del formato Rdf. Per alcune ricerche, attraverso la funzione Factz, il motore è in grado di estrar-

Un altro noto motore di ricerca semantico è Hakia (www.hakia.com). Anch’esso comprende frasi scritte in linguaggio naturale ma, a differenza di Powerset, costruisce la sua base di dati su una porzione molto più vasta del Web sia indicizzando le pagine con un proprio software sia integrando, anche se filtrato, l’indice di ricerca creato da Yahoo. Hakia fa due cose: da un lato costruisce un indice del Web utiliz-

PASSO PER PASSO

Entrare nel Web semantico con Foaf

P

er contribuire alla crescita del Web semantico potete pubblicare sul Web il vostro profilo e la vostra rete sociale in formato Foaf (Friend of a Friend). Vediamo come farlo utilizzando uno strumento chiamato FoafGen (http://toxi.co.uk/foafgen). Abbiamo scelto questa applicazione Web perché è l’unica, a quanto abbiamo potuto constatare, che permette di importare anche l’elenco dei conoscenti in formato Vcard (Vcf), creando così una rete sociale a partire dai contatti di Linkedin, di Gmail o di qualunque altro servizio sia in grado di esportare in Vcf (Facebook purtroppo non lo permette). Chi non fosse interessato ad aggiungere automaticamente al file Foaf anche i propri conoscenti può usare Foaf-a-matic (http://www.ldodds

1

.com/foaf/foaf-a-matic), in italiano, oppure Foaf Builder (http:// foafbuilder.qdos.com), in inglese ma con un’interfaccia più elegante. La prima cosa da fare è esportare i propri contatti in formato Vcf dal programma in cui sono conservati. La procedura purtroppo è molto scomoda con Outlook, che non permette di esportarli in un unico file ma solo contatto per contatto. Su Linkedin basta invece raggiungere, dopo avere eseguito il login, la pagina www.linkedin.com/addressBookExport, scegliere dal campo Export to la voce vCard e poi fare clic sul pulsante Export (figura 1). Per esportarli da Gmail è sufficiente fare clic sul link Contatti a sinistra dell’interfaccia e poi sul link Esporta presente a destra, sulla barra dei contatti; anche

2 110

PC Professionale - Maggio 2009

in questo caso scegliete il Formato vCard. Completata l’esportazione portatevi alla pagina http://toxi.co.uk/foafgen e scorretela fino a quando non trovate l’elenco dei campi da compilare. Nel riquadro Contacts fate clic su Sfoglia e caricate il file in formato VCard salvato al passo precedente. Compilate poi gli altri campi, facilmente comprensibili anche da chi non mastica l’inglese. Se avete già un account su Delicious inseritelo nel campo del.icio.us user name e l’applicazione aggiungere come interessi i primi 10 tag del vostro profilo (figura 2). Completata la compilazione fate clic su Continue. Se avete aggiunto un file in formato VCard, la pagina successiva sarà popolata dall’elenco dei contatti in esso contenuti (figura 3). Per aggiungerli tutti al

3

profilo Foaf, fate clic su Select All. Potete eventualmente modificare il rapporto che avete con ognuno di essi agendo sul menu Relationship oppure aggiungere per ognuno di loro dei dettagli aggiunti facendo clic sul link details. Al termine della modifica scorrete la pagina e, in fondo, accertatevi che sia spuntata la voce encrypt all e-mail addresses per evitare di pubblicare gli indirizzi e-mail in formato pubblico, spuntate la voce output as Rdf/XML file per scaricare il file e fate clic su Submit: comparirà una nuova pagina con il file Rdf e, dopo alcuni secondi, la finestra del browser che vi inviterà a scaricarlo (figura 4). Il file andrà poi salvato nel proprio sito Web oppure inviato ad un servizio che ospita profili Rdf come http://foaf.me.

4 111

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

riguardano una determinata persona o un determinato posto. Ci sono infine altri due elementi che rendono Twine un’applicazione più “intelligente” delle altre. In primo luogo il sistema di raccomandazione: gli elementi che aggiungiamo contribuiscono a costruire un nostro profilo di interessi che, confrontato con quelli aggiunti da altri utenti, viene usato dall’applicazione per suggerire persone con cui entrare in contatto o nuove informazioni da leggere. È un po’ come il suggerimento di nuove amicizie in Facebook, ma in questo caso le relazioni sono guidate dalle informazioni che condividiamo e non dalle vicinanze sociali. In secondo luogo, ogni elemento aggiunto a Twine viene salvato all’interno dell’applicazione secondo gli standard del Web semantico: ogni pagina pubblicata viene formattata secondo le specifiche Rdf per poter essere così utilizzata all’interno delle applicazioni capaci di farne uso, come motori di ricerca o altri servizi.

Motori di ricerca Le applicazioni semantiche, per la loro stessa natura, sono utilizzate in applicazioni che organizzano e permettono la ricerca di informazioni. Il campo più indicato per la loro applicazione dovrebbe essere dunque quello della ricerca globale delle pagine pubblicate sul Web – alla Google – mentre le applicazioni che forniscono le funzioni più utili sono quelle che eseguono ricerche in piccole nicchie di settore (come Uptake o Boorah) o su basi semantiche già costituite (Freebase e Twine). Nella ricerca tradizionale non c’è nulla che possa essere paragonato, per capacità e precisione, al motore di Mountain View. È un problema di tecnologia e di potenza di calcolo: le analisi semantiche di documenti o pagine Web non strutturate richiedono una enorme potenza computazionale e funzionano meglio se tarate su informazioni appartenenti allo stesso ambito. A ciò si aggiunga che,

proprio perché basati su significati, i motori di ricerca semantici offrono i migliori risultati quando sono interrogati attraverso un linguaggio comune: per avere informazioni sulle farmacie di Roma ci si deve aspettare interrogazioni del tipo dove sono le farmacie a Roma? oppure quali sono le farmacie di turno a Roma il mercoledì? e non, come siamo abituati a fare oggi, farmacie Roma. Ciò comporta problemi difficilmente aggirabili quando la sfera dei concetti è virtualmente illimitata. Ciò non implica che non esistano motori di ricerca semantici: un rappresentante della categoria è ad esempio, Powerset (www.powerset. com) , un servizio acquisito da Mi crosoft lo scorso anno. Questo motore dal maggio 2008 permette di interrogare l’archivio inglese di Wikipedia attraverso frasi espresse in linguaggio naturale: per cercare, ad esempio, quanto è alto l’Everest basta scrivere how high is Everest?. Il primo risultato è proprio l’altitudine

re dalla base dati delle categorie: se cerchiamo chi ha scalato l’Everest (who climbed mount Everest?) possiamo ad esempio filtrare i nomi in base al genere (maschio/femmina), alla nazionalità o in base ad altre categorie rilevanti. I risultati non sempre sono all’altezza delle aspettative: per fare un esempio, tra gli scalatori dell’Everest abbiamo trovato nelle prime posizioni Oscar Pistorius, che è un corridore e non uno scalatore, e a volte basta cambiare un termine con un sinonimo per ricevere informazioni non rilevanti.

Powerset esatta della montagna nepalese. I risultati provengono anche dall’archivio di Freebase e possono essere organizzati, quando la ricerca e i dati lo permettono, in quelli che il motore chiama Factz : frasi dichiarative

espresse nella forma di tripletta soggetto/predicato/oggetto che abbiamo già analizzato nell’introduzione parlando del formato Rdf. Per alcune ricerche, attraverso la funzione Factz, il motore è in grado di estrar-

Un altro noto motore di ricerca semantico è Hakia (www.hakia.com). Anch’esso comprende frasi scritte in linguaggio naturale ma, a differenza di Powerset, costruisce la sua base di dati su una porzione molto più vasta del Web sia indicizzando le pagine con un proprio software sia integrando, anche se filtrato, l’indice di ricerca creato da Yahoo. Hakia fa due cose: da un lato costruisce un indice del Web utiliz-

PASSO PER PASSO

Entrare nel Web semantico con Foaf

P

er contribuire alla crescita del Web semantico potete pubblicare sul Web il vostro profilo e la vostra rete sociale in formato Foaf (Friend of a Friend). Vediamo come farlo utilizzando uno strumento chiamato FoafGen (http://toxi.co.uk/foafgen). Abbiamo scelto questa applicazione Web perché è l’unica, a quanto abbiamo potuto constatare, che permette di importare anche l’elenco dei conoscenti in formato Vcard (Vcf), creando così una rete sociale a partire dai contatti di Linkedin, di Gmail o di qualunque altro servizio sia in grado di esportare in Vcf (Facebook purtroppo non lo permette). Chi non fosse interessato ad aggiungere automaticamente al file Foaf anche i propri conoscenti può usare Foaf-a-matic (http://www.ldodds

1

.com/foaf/foaf-a-matic), in italiano, oppure Foaf Builder (http:// foafbuilder.qdos.com), in inglese ma con un’interfaccia più elegante. La prima cosa da fare è esportare i propri contatti in formato Vcf dal programma in cui sono conservati. La procedura purtroppo è molto scomoda con Outlook, che non permette di esportarli in un unico file ma solo contatto per contatto. Su Linkedin basta invece raggiungere, dopo avere eseguito il login, la pagina www.linkedin.com/addressBookExport, scegliere dal campo Export to la voce vCard e poi fare clic sul pulsante Export (figura 1). Per esportarli da Gmail è sufficiente fare clic sul link Contatti a sinistra dell’interfaccia e poi sul link Esporta presente a destra, sulla barra dei contatti; anche

2 110

PC Professionale - Maggio 2009

in questo caso scegliete il Formato vCard. Completata l’esportazione portatevi alla pagina http://toxi.co.uk/foafgen e scorretela fino a quando non trovate l’elenco dei campi da compilare. Nel riquadro Contacts fate clic su Sfoglia e caricate il file in formato VCard salvato al passo precedente. Compilate poi gli altri campi, facilmente comprensibili anche da chi non mastica l’inglese. Se avete già un account su Delicious inseritelo nel campo del.icio.us user name e l’applicazione aggiungere come interessi i primi 10 tag del vostro profilo (figura 2). Completata la compilazione fate clic su Continue. Se avete aggiunto un file in formato VCard, la pagina successiva sarà popolata dall’elenco dei contatti in esso contenuti (figura 3). Per aggiungerli tutti al

3

profilo Foaf, fate clic su Select All. Potete eventualmente modificare il rapporto che avete con ognuno di essi agendo sul menu Relationship oppure aggiungere per ognuno di loro dei dettagli aggiunti facendo clic sul link details. Al termine della modifica scorrete la pagina e, in fondo, accertatevi che sia spuntata la voce encrypt all e-mail addresses per evitare di pubblicare gli indirizzi e-mail in formato pubblico, spuntate la voce output as Rdf/XML file per scaricare il file e fate clic su Submit: comparirà una nuova pagina con il file Rdf e, dopo alcuni secondi, la finestra del browser che vi inviterà a scaricarlo (figura 4). Il file andrà poi salvato nel proprio sito Web oppure inviato ad un servizio che ospita profili Rdf come http://foaf.me.

4 111

PC Professionale - Maggio 2009

COME FARE WEB SEMANTICO

Hakia zando una tecnologia semantica – chiamata dall’azienda OntoSem – che provvede ad estrarre, con l’aiuto di tecnologie di analisi del linguaggio e di ontologie predefinite, concetti rilevanti dalle pagine Web analizzate. Dall’altro organizza i risultati attraverso un algoritmo (chiamato SemanticRank) che non si basa sul numero di keyword o sul numero dei link ma sulla pertinenza tra i concetti espressi dalle chiavi di ricerca e quelli rilevati nelle pagine scansionate. Maggiore importanza è data ai cosiddetti “siti credibili”, selezionati a mano oppure in base al numero di citazioni ricevute da fonti accademiche e alle informazioni più recenti. Rispetto a Powerset, Hakia sembra eseguire una maggiore analisi semantica del linguaggio, ma anche in questo caso il grado di pertinenza dei risultati è molto variabile: elevato in campi di conoscenze più strutturati, come le scienze mediche, molto modesto in altri. Tra le aziende impegnate nel settore della ricerca semantica E v r i (www.evri.com) occupa un posto speciale, non fosse altro per gli ac-

COME FARE WEB SEMANTICO

Evri cordi che ha stretto con il Times di Londra e con il Washington Post, due giornali che nelle loro pagine utilizzano i suoi dati per ampliare le ricerche degli utenti. Il servizio, che non si definisce un motore di ricerca, seleziona notizie basandosi sulla correlazione tra concetti rilevanti scelti dall’utente. Se si cerca, ad esempio, Apple, Evri mostra in un menu i termini iPhone, iPod, le categorie Software, Computer; le attività releasing (‘rende pubblico’), adding (‘aggiunge’) e così via. Se volessimo avere le informazioni più rilevanti sul rilascio del nuovo sistema operativo per iPhone basterebbe fare clic su releasing e poi su iPhone OS per veder comparire, con buona precisione, gli articoli, i video e le foto più rilevanti riguardo al fatto che Apple che rilascia la terza versione dell’iPhone OS. Le informazioni provengono da quotidiani, blog e altri siti di notizie mentre il Profilo, ossia il box informativo che raccoglie i dati principali dell’argomento cercato, è estratto da Wikipedia. Evri offre gratuitamente un widget per includere la propria tecnologia in blog o altri siti Web, una Toolbar per Fi-

TIPS

Un motore di ricerca per il Web semantico

L

a base di dati del search engine Sindice (http://sindice.com) è formata da siti Web che pubblicano dati in formato Rdf o utilizzando microformati. L’interfaccia offre tre diversi tipi di ricerca: attraverso parole chiave o indirizzi Web, attraverso la ricerca della coppia proprietà/valore così come specificato nella tripletta Rdf, o attraverso query complesse. I risultati forniti sono sia link a pagine Web sia box strutturati in forma di dati.

112

PC Professionale - Maggio 2009

Searchmonkey refox con cui eseguire ricerche direttamente dalle pagine che si sta navigando e un set di interfacce di programmazione (Api) per integrare la propria tecnologia in altri servizi o applicazioni. Searchmonkey, infine, è un servizio che permette di aggiungere uno strato semantico alle ricerche di Yahoo ampliando le informazioni che compaiono nelle pagine dei risultati. I link che il motore restituisce quando si esegue una ricerca mostrano, di solito, solamente il titolo della pagina, un suo breve estratto e il link corrispondente. Con Searchmonkey, invece, i risultati vengono arricchiti da informazioni più specifiche: i risultati dei profili di Facebook mostrano i link per aggiungere la persona ai propri amici o per inviargli direttamente un messaggio; i risultati di Youtube il numero di visualizzazioni di un video e il numero dei commenti; i risultati di Amazon il prezzo del libro e così via. Ciò si ottiene indicando a Yahoo, attraverso un’applicazione web gratuita disponibile sul sito http://developer.yahoo.com/search monkey, i dati rilevanti delle pagine che si desidera arricchire e specificando il layout che dovranno avere i link. Le applicazioni di questo tipo possono essere create e pubblicate da chiunque alla pagina http://gallery .search.yahoo.com. Per la creazione dei metadati, ossia dei dati che identificano le informazioni specifiche di ogni pagina Web, Searchmonkey utilizza alcuni standard del Web semantico tra cui Rdf, Rdfa, e altre tecnologie come i microformati.

Arricchimento di blog e siti Web

Quintura ficiale non viene chiarito né quali tecnologie vengano utilizzate né in che modo siano analizzati i risultati. Nell’uso ci è sembrato che Quintura utilizzi un vocabolario di termini per l’estrazione delle chiavi e uno di sinonimi per l’espansione dei termini di ricerca: nessuna ontologia e nessuna analisi del linguaggio naturale.

Esistono alcuni servizi che consentono di includere strumenti semantici all’interno del proprio sito Web o del proprio blog. Sono servizi gratuiti che aggiungono automaticamente tag o link correlati a ciò che si sta scrivendo, suggeriscono immagini da includere Tagaroo (http://tagaroo.opencalais. nel contenuto o forniscono al sito un servizio di ricerca supplementare. com) è un servizio che suggerisce tag Principalmente indirizzati a contenuti “intelligenti” e immagini al momento scritti in inglese, possono risultare utidella scrittura di un post per un blog. li anche per siti in altre lingue, comViene distribuito sotto forma di plugpreso l’italiano. Disponibile anche in per la nota piattaforma di blogging nella nostra lingua è, ad esempio, Wordpress e, dopo aver analizzato il Quintura (http://affiliates.quintura testo scritto, mostra in un piccolo box .com), un motore di ricerca che estrae laterale una serie di tag compatibili con il contenuto da creare. I tag posle parole chiave più rilevanti trovate sono essere aggiunti, eliminati da fuall’interno del sito e le offre come turi suggerimenti oppure selezionati chiavi di ricerca in una tag cloud diper mostrare immagini a tema prenamica gestita da un widget in Flash senti su Flickr. Le immagini, di cui o Javascript. Le chiavi logicamente viene mostrata in una piccola antepriaffini sono visualizzate vicine tra loro ma anche la licenza, possono essere mentre quelle più rilevanti sono mostrate con un carattere di maggiori dimensioni. Passando il mouse sulle chiavi, vengono selezionati, sotto forma di classici link, i risultati più rilevanti per la chiave selezionata e mostrati tag collegati per espandere o migliorare la ricerca. L’effetto è certamente piacevole, ma i risultati non sempre pertinenti. Inoltre non è chiaro di quale natura sia il livello semantico applicato alle ricerche: sul sito ufTagaroo

114

PC Professionale - Maggio 2009

visualizzate in formato pieno ed inserite nel post con un clic scegliendone la dimensione. Il plug-in si affida per la selezione dei tag alla piattaforma semantica Calais, di cui abbiamo parlato nell’introduzione a questo articolo, e per funzionare ha bisogno di una chiave di attivazione che si riceve registrandosi all’indirizzo http://opencalais.com/user/register. Poiché Calais costruisce la sua base dati su siti in inglese, Tagaroo è molto efficace per post scritti in questa lingua, molto meno per quelli scritti italiano. Anche Zemanta (www.zemanta.com) si affida a strumenti semantici e di analisi del linguaggio naturale per suggerire tag, immagini e link a pagine simili a quelle che si sta pubblicando sul proprio blog. Questo servizio (disponibile come plug-in per i maggiori servizi di blog, come estensione per Firefox ed Explorer e come Bookmarklet per Safari e Chrome) funziona anche con le e-mail di Gmail e di Yahoo ed è in grado di integrarsi con Facebook e Twitter per l’aggiunta di informazioni e link alle pagine del proprio social network. È un servizio ben fatto, che lavora molto bene con i blog supportati (lo abbiamo provato con Wordpress) ed è utile anche per chi cerca ispirazione o fonti per il testo da scrivere in quanto ogni link offerto a completamento del proprio articolo, estrat-

COME FARE WEB SEMANTICO

Hakia zando una tecnologia semantica – chiamata dall’azienda OntoSem – che provvede ad estrarre, con l’aiuto di tecnologie di analisi del linguaggio e di ontologie predefinite, concetti rilevanti dalle pagine Web analizzate. Dall’altro organizza i risultati attraverso un algoritmo (chiamato SemanticRank) che non si basa sul numero di keyword o sul numero dei link ma sulla pertinenza tra i concetti espressi dalle chiavi di ricerca e quelli rilevati nelle pagine scansionate. Maggiore importanza è data ai cosiddetti “siti credibili”, selezionati a mano oppure in base al numero di citazioni ricevute da fonti accademiche e alle informazioni più recenti. Rispetto a Powerset, Hakia sembra eseguire una maggiore analisi semantica del linguaggio, ma anche in questo caso il grado di pertinenza dei risultati è molto variabile: elevato in campi di conoscenze più strutturati, come le scienze mediche, molto modesto in altri. Tra le aziende impegnate nel settore della ricerca semantica E v r i (www.evri.com) occupa un posto speciale, non fosse altro per gli ac-

COME FARE WEB SEMANTICO

Evri cordi che ha stretto con il Times di Londra e con il Washington Post, due giornali che nelle loro pagine utilizzano i suoi dati per ampliare le ricerche degli utenti. Il servizio, che non si definisce un motore di ricerca, seleziona notizie basandosi sulla correlazione tra concetti rilevanti scelti dall’utente. Se si cerca, ad esempio, Apple, Evri mostra in un menu i termini iPhone, iPod, le categorie Software, Computer; le attività releasing (‘rende pubblico’), adding (‘aggiunge’) e così via. Se volessimo avere le informazioni più rilevanti sul rilascio del nuovo sistema operativo per iPhone basterebbe fare clic su releasing e poi su iPhone OS per veder comparire, con buona precisione, gli articoli, i video e le foto più rilevanti riguardo al fatto che Apple che rilascia la terza versione dell’iPhone OS. Le informazioni provengono da quotidiani, blog e altri siti di notizie mentre il Profilo, ossia il box informativo che raccoglie i dati principali dell’argomento cercato, è estratto da Wikipedia. Evri offre gratuitamente un widget per includere la propria tecnologia in blog o altri siti Web, una Toolbar per Fi-

TIPS

Un motore di ricerca per il Web semantico

L

a base di dati del search engine Sindice (http://sindice.com) è formata da siti Web che pubblicano dati in formato Rdf o utilizzando microformati. L’interfaccia offre tre diversi tipi di ricerca: attraverso parole chiave o indirizzi Web, attraverso la ricerca della coppia proprietà/valore così come specificato nella tripletta Rdf, o attraverso query complesse. I risultati forniti sono sia link a pagine Web sia box strutturati in forma di dati.

112

PC Professionale - Maggio 2009

Searchmonkey refox con cui eseguire ricerche direttamente dalle pagine che si sta navigando e un set di interfacce di programmazione (Api) per integrare la propria tecnologia in altri servizi o applicazioni. Searchmonkey, infine, è un servizio che permette di aggiungere uno strato semantico alle ricerche di Yahoo ampliando le informazioni che compaiono nelle pagine dei risultati. I link che il motore restituisce quando si esegue una ricerca mostrano, di solito, solamente il titolo della pagina, un suo breve estratto e il link corrispondente. Con Searchmonkey, invece, i risultati vengono arricchiti da informazioni più specifiche: i risultati dei profili di Facebook mostrano i link per aggiungere la persona ai propri amici o per inviargli direttamente un messaggio; i risultati di Youtube il numero di visualizzazioni di un video e il numero dei commenti; i risultati di Amazon il prezzo del libro e così via. Ciò si ottiene indicando a Yahoo, attraverso un’applicazione web gratuita disponibile sul sito http://developer.yahoo.com/search monkey, i dati rilevanti delle pagine che si desidera arricchire e specificando il layout che dovranno avere i link. Le applicazioni di questo tipo possono essere create e pubblicate da chiunque alla pagina http://gallery .search.yahoo.com. Per la creazione dei metadati, ossia dei dati che identificano le informazioni specifiche di ogni pagina Web, Searchmonkey utilizza alcuni standard del Web semantico tra cui Rdf, Rdfa, e altre tecnologie come i microformati.

Arricchimento di blog e siti Web

Quintura ficiale non viene chiarito né quali tecnologie vengano utilizzate né in che modo siano analizzati i risultati. Nell’uso ci è sembrato che Quintura utilizzi un vocabolario di termini per l’estrazione delle chiavi e uno di sinonimi per l’espansione dei termini di ricerca: nessuna ontologia e nessuna analisi del linguaggio naturale.

Esistono alcuni servizi che consentono di includere strumenti semantici all’interno del proprio sito Web o del proprio blog. Sono servizi gratuiti che aggiungono automaticamente tag o link correlati a ciò che si sta scrivendo, suggeriscono immagini da includere Tagaroo (http://tagaroo.opencalais. nel contenuto o forniscono al sito un servizio di ricerca supplementare. com) è un servizio che suggerisce tag Principalmente indirizzati a contenuti “intelligenti” e immagini al momento scritti in inglese, possono risultare utidella scrittura di un post per un blog. li anche per siti in altre lingue, comViene distribuito sotto forma di plugpreso l’italiano. Disponibile anche in per la nota piattaforma di blogging nella nostra lingua è, ad esempio, Wordpress e, dopo aver analizzato il Quintura (http://affiliates.quintura testo scritto, mostra in un piccolo box .com), un motore di ricerca che estrae laterale una serie di tag compatibili con il contenuto da creare. I tag posle parole chiave più rilevanti trovate sono essere aggiunti, eliminati da fuall’interno del sito e le offre come turi suggerimenti oppure selezionati chiavi di ricerca in una tag cloud diper mostrare immagini a tema prenamica gestita da un widget in Flash senti su Flickr. Le immagini, di cui o Javascript. Le chiavi logicamente viene mostrata in una piccola antepriaffini sono visualizzate vicine tra loro ma anche la licenza, possono essere mentre quelle più rilevanti sono mostrate con un carattere di maggiori dimensioni. Passando il mouse sulle chiavi, vengono selezionati, sotto forma di classici link, i risultati più rilevanti per la chiave selezionata e mostrati tag collegati per espandere o migliorare la ricerca. L’effetto è certamente piacevole, ma i risultati non sempre pertinenti. Inoltre non è chiaro di quale natura sia il livello semantico applicato alle ricerche: sul sito ufTagaroo

114

PC Professionale - Maggio 2009

visualizzate in formato pieno ed inserite nel post con un clic scegliendone la dimensione. Il plug-in si affida per la selezione dei tag alla piattaforma semantica Calais, di cui abbiamo parlato nell’introduzione a questo articolo, e per funzionare ha bisogno di una chiave di attivazione che si riceve registrandosi all’indirizzo http://opencalais.com/user/register. Poiché Calais costruisce la sua base dati su siti in inglese, Tagaroo è molto efficace per post scritti in questa lingua, molto meno per quelli scritti italiano. Anche Zemanta (www.zemanta.com) si affida a strumenti semantici e di analisi del linguaggio naturale per suggerire tag, immagini e link a pagine simili a quelle che si sta pubblicando sul proprio blog. Questo servizio (disponibile come plug-in per i maggiori servizi di blog, come estensione per Firefox ed Explorer e come Bookmarklet per Safari e Chrome) funziona anche con le e-mail di Gmail e di Yahoo ed è in grado di integrarsi con Facebook e Twitter per l’aggiunta di informazioni e link alle pagine del proprio social network. È un servizio ben fatto, che lavora molto bene con i blog supportati (lo abbiamo provato con Wordpress) ed è utile anche per chi cerca ispirazione o fonti per il testo da scrivere in quanto ogni link offerto a completamento del proprio articolo, estrat-

COME FARE WEB SEMANTICO

Zemanta to da un misto di fonti professionali e blog, può essere anche visitato e letto in un’altra finestra. Come gli altri servizi di questa rassegna, funziona meglio se la lingua utilizzata è l’inglese. Se gli esempi visti sinora servono ad integrare la semantica nei blog, l’ultimo che vi presentiamo consente di seguire il percorso contrario e di portare i contenuti di un blog all’interno del Web semantico. Si chiama zLinks ( http://www.zitgist .com/products/zlinks/) ed è un plug-in per Wordpress che aggiunge ai link inclusi nei post un livello di significato secondo le specifiche del Web semantico. Ogni link aggiunto al blog mostrerà infatti accanto al nome una piccola “z” blu che, sfiorata con il mouse, attiverà un box dinamico popolato di collegamenti correlati, recuperati dai servizi che fanno parte del progetto Linked Data. I link che permettono a zLinks di mostrare un maggior numero di collegamenti utili sono quelli costruiti secondo i linguaggi promossi dal W3C: un link ad un file Rdf costruito secondo l’ontologia Foaf, ad esempio, riempirà il box con l’elenco delle attività e della rete sociale della persona. Ma non è tutto: zLinks consente anche all’autore del post di annotare con note personali i link presenti nei propri messaggi. Le note aggiunte saranno esse stesse salvate sotto forma di file Rdf e inviate automaticamente ad un servizio (pingthesemanticweb.com) che le includerà all’interno dello spazio dei Linked Data, in modo da renderle disponibili sotto forma di annotazioni semantiche.

COME FARE WEB SEMANTICO

zLinks

Estensioni semantiche per Firefox Firefox e il suo efficace sistema di estensioni sono gli strumenti ideali per mettere a disposizione di tutti i navigatori piccoli software che sfruttano, per gli usi più diversi, tecnologie semantiche. La prima estensione che vi presentiamo si chiama Gnosis (www.opencalais.com/Gnosis) e consente di avere il motore di semantico del progetto Calais, uno dei migliori di tipo top down in circolazione, direttamente all’interno del navigatore. Dopo l’installazione si presenta come una piccola barra laterale che va attivata scegliendo la voce ClearForest Gnosis nel menu Visualizza / Barra laterale di Firefox. Facendo clic sull’ultima icona in alto nella barra di Gnosis, si avvia l’analisi semantica della pagina visualizzata nel browser. Gnosis riconosce automaticamente nomi di persona, nomi di aziende, luoghi, tecnologie, sistemi operativi e decine di altre entità concettuali, e li

TIPS

Microformati per Internet Explorer Per permettere ad Internet Explorer di leggere ed analizzare i microformati presenti in una pagina Web esiste un’estensione chiamata Oomph (http://www.ieaddons.com/it/ Details.aspx?Id=1110). Sebbene non sia sempre efficace nel rilevare la presenza di microformati, quando ci riesce li visualizza in un elegante box e ne consente l’integrazione nei post dei blog creati con il Windows Live Writer plugin.

116

PC Professionale - Maggio 2009

Gnosis mostra in evidenza sia nella pagina sia nella sua barra laterale. Per ognuna delle entità trovate è poi possibile eseguire una ricerca specifica: dati finanziari per le aziende, profili su Linkedin o Facebook per le persone, mappe per i luoghi e così via. Purtroppo, come più volte ripetuto, Calais funziona solo con pagine in inglese o francese e per questo motivo Gnosis rimane inattivo su pagine in altre lingue.

mo la pagina di un film su Amazon e un nostro amico legge l’articolo di Wikipesia dedicato allo stesso film, Glue è in grado di collegare le due esperienze. È inoltre possibile, per ogni oggetto, aggiungere un commento, identificarlo come uno dei preferiti, inviare si Twitter un messaggio che lo riguarda, salvare il relativo link su Delicious e compiere altre azioni che variano in base al tipo di oggetto che si sta visualizzando.

Due progetti più orientati alle navigazioni di tutti i giorni sono Glue e Juice. Glue (www.getglue.com), un’estensione sviluppata da Adaptive Blue, creatrice del del sistema di annotazione automatica di link chiamato chiamato SmartLinks, utilizza lo stesso approccio top down di Gnosis anche se in modo molto meno preciso e con finalità diverse: durante la navigazone riconosce libri, musica, film, vini, ristoranti e altre entità nelle pagine Web e mostra gli altri utenti di Glue che le hanno visualizzate, commentate o aggiunge ai propri siti preferiti. Dventa così possibile vedere gli argomenti che interessano agli amici, condividere con loro pensieri ed opinioni su specifici argomenti ed estendere il proprio network sociale a persone che hanno visitato le stesse cose. La tecnologia alla base di Glue, che può identificare oggetti su cui costruire le relazioni in circa 200 siti, sfrutta in parte strumenti di riconoscimento e in parte le interfacce di programmazione messe a disposizioni da siti come Amazon o Last.fm. L’utilizzo di una tecnologia di riconoscimento permette di identificare gli oggetti su siti diversi: di conseguenza, se visualizzia-

Anche Juice (http://juiceapp.com) è un’estensione per Firefox progettata per riconoscere elementi rilevanti e creare relazioni con altri elementi. Juice identifica libri, persone e film presenti in una pagina Web e, in una barra laterale, mostra un breve riassunto estratto da Wikipedia, un elenco di video presi da Youtube, gli articoli più rilevanti da diverse fonti di informazioni, il prezzo (preso da Amazon) e così via. Per selezionare l’elemento su cui si vogliono ricevere

Glue maggiori informazioni basta evidenziare la porzione della pagina che ne contiene in nome e trascinarlo verso destra o sinistra con il mouse; per aprire o chiudere la barra laterale di Juice basta fare clic sull’icona a forma di bicchiere in alto a destra nel browser. A fornire a Juice le capacità semantiche c’è, secondo Linkool, l’azienda cinese che lo sviluppa, un “motore di esplorazione intelligente” basato su strumenti di analisi del linguaggio naturale filtrati da un vocabolario. Nonostante sia un’estensione usabile e utile per ricevere contenuti a tema su una particolare chiave, gli strumenti di analisi del significato che offre sono basilari: si tratta più di un selettore di parole-chiave filtrate che di un motore semantico. L’ultima estensione della nostra rassegna sfrutta invece il già citato modello bottom up: rileva infatti in una pagina Web la struttura semantica che vi è inclusa. Si tratta di Operator

Juice

Operator

117

PC Professionale - Maggio 2009

(www.kaply.com/weblog/operator), che visualizza in una barra degli strumenti di Firefox i microformati (o anche i tag Rdfa) presenti in una pagina Web e consente di interagire attraverso di essi tramite servizi offerti da altri siti. Quando si visitano siti che hanno già contenuti identificati da tag semantici, Operator mostra per ognuno di essi varie azioni che è possibile compiere: gli elementi identificati come indirizzi o contatti possono essere esportati in formato vCard o visualizzati su una mappa on-line, i tag possono essere usati per ricercare contenuti a tema su Youtube, Flickr e siti analoghi, gli eventi corredati di data possono essere aggiunti con un clic ai calendari di Google, Yahoo e così via. Le funzionalità di Operator sono personalizzabili tramite codice JavaScript; sul sito Web dello sviluppatore (www.kaply.com/weblog/ope rator-user-scripts) si possono trovare numerosi esempi. •

COME FARE WEB SEMANTICO

Zemanta to da un misto di fonti professionali e blog, può essere anche visitato e letto in un’altra finestra. Come gli altri servizi di questa rassegna, funziona meglio se la lingua utilizzata è l’inglese. Se gli esempi visti sinora servono ad integrare la semantica nei blog, l’ultimo che vi presentiamo consente di seguire il percorso contrario e di portare i contenuti di un blog all’interno del Web semantico. Si chiama zLinks ( http://www.zitgist .com/products/zlinks/) ed è un plug-in per Wordpress che aggiunge ai link inclusi nei post un livello di significato secondo le specifiche del Web semantico. Ogni link aggiunto al blog mostrerà infatti accanto al nome una piccola “z” blu che, sfiorata con il mouse, attiverà un box dinamico popolato di collegamenti correlati, recuperati dai servizi che fanno parte del progetto Linked Data. I link che permettono a zLinks di mostrare un maggior numero di collegamenti utili sono quelli costruiti secondo i linguaggi promossi dal W3C: un link ad un file Rdf costruito secondo l’ontologia Foaf, ad esempio, riempirà il box con l’elenco delle attività e della rete sociale della persona. Ma non è tutto: zLinks consente anche all’autore del post di annotare con note personali i link presenti nei propri messaggi. Le note aggiunte saranno esse stesse salvate sotto forma di file Rdf e inviate automaticamente ad un servizio (pingthesemanticweb.com) che le includerà all’interno dello spazio dei Linked Data, in modo da renderle disponibili sotto forma di annotazioni semantiche.

COME FARE WEB SEMANTICO

zLinks

Estensioni semantiche per Firefox Firefox e il suo efficace sistema di estensioni sono gli strumenti ideali per mettere a disposizione di tutti i navigatori piccoli software che sfruttano, per gli usi più diversi, tecnologie semantiche. La prima estensione che vi presentiamo si chiama Gnosis (www.opencalais.com/Gnosis) e consente di avere il motore di semantico del progetto Calais, uno dei migliori di tipo top down in circolazione, direttamente all’interno del navigatore. Dopo l’installazione si presenta come una piccola barra laterale che va attivata scegliendo la voce ClearForest Gnosis nel menu Visualizza / Barra laterale di Firefox. Facendo clic sull’ultima icona in alto nella barra di Gnosis, si avvia l’analisi semantica della pagina visualizzata nel browser. Gnosis riconosce automaticamente nomi di persona, nomi di aziende, luoghi, tecnologie, sistemi operativi e decine di altre entità concettuali, e li

TIPS

Microformati per Internet Explorer Per permettere ad Internet Explorer di leggere ed analizzare i microformati presenti in una pagina Web esiste un’estensione chiamata Oomph (http://www.ieaddons.com/it/ Details.aspx?Id=1110). Sebbene non sia sempre efficace nel rilevare la presenza di microformati, quando ci riesce li visualizza in un elegante box e ne consente l’integrazione nei post dei blog creati con il Windows Live Writer plugin.

116

PC Professionale - Maggio 2009

Gnosis mostra in evidenza sia nella pagina sia nella sua barra laterale. Per ognuna delle entità trovate è poi possibile eseguire una ricerca specifica: dati finanziari per le aziende, profili su Linkedin o Facebook per le persone, mappe per i luoghi e così via. Purtroppo, come più volte ripetuto, Calais funziona solo con pagine in inglese o francese e per questo motivo Gnosis rimane inattivo su pagine in altre lingue.

mo la pagina di un film su Amazon e un nostro amico legge l’articolo di Wikipesia dedicato allo stesso film, Glue è in grado di collegare le due esperienze. È inoltre possibile, per ogni oggetto, aggiungere un commento, identificarlo come uno dei preferiti, inviare si Twitter un messaggio che lo riguarda, salvare il relativo link su Delicious e compiere altre azioni che variano in base al tipo di oggetto che si sta visualizzando.

Due progetti più orientati alle navigazioni di tutti i giorni sono Glue e Juice. Glue (www.getglue.com), un’estensione sviluppata da Adaptive Blue, creatrice del del sistema di annotazione automatica di link chiamato chiamato SmartLinks, utilizza lo stesso approccio top down di Gnosis anche se in modo molto meno preciso e con finalità diverse: durante la navigazone riconosce libri, musica, film, vini, ristoranti e altre entità nelle pagine Web e mostra gli altri utenti di Glue che le hanno visualizzate, commentate o aggiunge ai propri siti preferiti. Dventa così possibile vedere gli argomenti che interessano agli amici, condividere con loro pensieri ed opinioni su specifici argomenti ed estendere il proprio network sociale a persone che hanno visitato le stesse cose. La tecnologia alla base di Glue, che può identificare oggetti su cui costruire le relazioni in circa 200 siti, sfrutta in parte strumenti di riconoscimento e in parte le interfacce di programmazione messe a disposizioni da siti come Amazon o Last.fm. L’utilizzo di una tecnologia di riconoscimento permette di identificare gli oggetti su siti diversi: di conseguenza, se visualizzia-

Anche Juice (http://juiceapp.com) è un’estensione per Firefox progettata per riconoscere elementi rilevanti e creare relazioni con altri elementi. Juice identifica libri, persone e film presenti in una pagina Web e, in una barra laterale, mostra un breve riassunto estratto da Wikipedia, un elenco di video presi da Youtube, gli articoli più rilevanti da diverse fonti di informazioni, il prezzo (preso da Amazon) e così via. Per selezionare l’elemento su cui si vogliono ricevere

Glue maggiori informazioni basta evidenziare la porzione della pagina che ne contiene in nome e trascinarlo verso destra o sinistra con il mouse; per aprire o chiudere la barra laterale di Juice basta fare clic sull’icona a forma di bicchiere in alto a destra nel browser. A fornire a Juice le capacità semantiche c’è, secondo Linkool, l’azienda cinese che lo sviluppa, un “motore di esplorazione intelligente” basato su strumenti di analisi del linguaggio naturale filtrati da un vocabolario. Nonostante sia un’estensione usabile e utile per ricevere contenuti a tema su una particolare chiave, gli strumenti di analisi del significato che offre sono basilari: si tratta più di un selettore di parole-chiave filtrate che di un motore semantico. L’ultima estensione della nostra rassegna sfrutta invece il già citato modello bottom up: rileva infatti in una pagina Web la struttura semantica che vi è inclusa. Si tratta di Operator

Juice

Operator

117

PC Professionale - Maggio 2009

(www.kaply.com/weblog/operator), che visualizza in una barra degli strumenti di Firefox i microformati (o anche i tag Rdfa) presenti in una pagina Web e consente di interagire attraverso di essi tramite servizi offerti da altri siti. Quando si visitano siti che hanno già contenuti identificati da tag semantici, Operator mostra per ognuno di essi varie azioni che è possibile compiere: gli elementi identificati come indirizzi o contatti possono essere esportati in formato vCard o visualizzati su una mappa on-line, i tag possono essere usati per ricercare contenuti a tema su Youtube, Flickr e siti analoghi, gli eventi corredati di data possono essere aggiunti con un clic ai calendari di Google, Yahoo e così via. Le funzionalità di Operator sono personalizzabili tramite codice JavaScript; sul sito Web dello sviluppatore (www.kaply.com/weblog/ope rator-user-scripts) si possono trovare numerosi esempi. •

Related Documents


More Documents from "ablanno4113"

Web Semantico
May 2020 15
Hdtv: Alta Visione
August 2019 34
La Rivincita Della Carta
August 2019 39
August 2019 33
I Macrolepidotteri Italiani
December 2019 25