Lezione_09-banche Dati E Ricerca Testuale

  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Lezione_09-banche Dati E Ricerca Testuale as PDF for free.

More details

  • Words: 4,886
  • Pages: 10
Lezione 09 – Le banche dati, la ricerca per estremi e la ricerca testuale

1.1. Le banche dati 1.1.1.

Definizione

Ai fini di questo studio, le banche dati possono essere definite come “insieme di informazioni relative ad un preciso dominio di conoscenze, registrate in formato leggibile dall’elaboratore elettronico e consultabili attraverso un software di ricerca”1. Si tratta dunque di sistemi informativi atti all'archiviazione e al reperimento di informazioni giuridiche. La struttura tipica di una banca dati si compone di due parti fondamentali: 1) una base di dati; 2) un software di interrogazione della base di dati. La base di dati è costituita da uno o più insiemi di documenti, strutturati e suddivisi in archivi in ragione del tipo di informazione contenuta. Le basi dati odierne sono caratterizzate dalla c.d. indicizzazione totale. Ciò significa che tutti i termini del documento costituiscono specifici elementi di richiamo. Negli archivi tradizionali, gli indici prendono in considerazione solo alcuni elementi del documento. Si pensi ad uno schedario bibliografico dove gli elementi per ricercare un documento sono l’autore del documento oppure la materia indicata attraverso descrittori o parole chiave tratti da uno schema di classificazione. Abbiamo in questo caso due indici: i nomi degli autori e i descrittori utilizzati per descrivere il contenuto del documento. L’accesso alle informazioni può avvenire solo attraverso questi due dati. Si tratta di un criterio di indicizzazione molto parziale e limitato. Nei sistemi informatici che sfruttano le potenzialità di memoria e di velocità dei calcolatori, il criterio di indicizzazione è invece totale nel senso che tutti gli elementi del documento, dal titolo alle parole del testo, costituiscono chiavi di accesso al documento stesso. È dunque possibile utilizzare come chiave di ricerca una qualsiasi parola, nome o numero che si ritenga sia contenuto nei documenti. Il software di interrogazione, oggi corredato da un’interfaccia grafica che facilita la comunicazione utente-computer, è finalizzato al reperimento dell’informazione ricercata dall’utente. Tale software opera confrontando i dati immessi della ricerca con quelli presenti nella base di dati (c.d. combaciamento) e producendo in risposta tutti, e solo, i documenti che contengono quei dati. L’interfaccia comprende di solito una maschere di ricerca per ciascun sottoinsieme di documenti su cui si intende svolgere la ricerca (documenti normativi, giurisprudenziali o dottrinari). La maschera di ricerca è data da un’insieme di campi, ossia di spazi nei quali è possibile immettere i dati che determinano l’oggetto della ricerca; si parla a questo proposito di dati-esca, di tipologia variabile: parole che si ritenga ricorrano nel documento, numeri e date identificativi di leggi e sentenze, nomi di autori e così via. 1.1.2.

Tipologia

In base ai contenuti, le banche dati giuridiche possono essere classificate come: a) Testuali (o primarie), se contengono unità documentali nel testo completo (leggi, sentenze, massime, eccetera); b) Bibliografiche (o secondarie), se contengono soltanto i riferimenti ad unità documentali, pubblicate per esteso su supporti tradizionali (archivi cartacei), su altre banche dati o in siti Internet. Le banche dati primarie consentono di leggere e, solitamente, salvare, stampare ecc. i documenti che vengono reperiti; le banche dati secondarie contengono indicazioni utili al reperimento di quei documenti, indicandone la collocazione o le altre informazioni circa il loro acquisto o la consultazione, In base alla localizzazione dei dati, le banche dati elettroniche si dicono: 1 Il nostro ordinamento prevede anche una definizione legislativa di “banca dati”: l’art. 2, comma 1, numero 9, della legge sul diritto d’autore (L. 633/1941) come modificata dal d. lgs. 196/1999 definisce la banca dati come «raccolta di opere, dati o altri elementi indipendenti sistematicamente o metodicamente disposti ed individualmente accessibili mediante mezzi elettronici o in altro modo».

a)

on line quando risiedono fisicamente in un elaboratore remoto rispetto al computer dell'interrogante, il quale può accedervi via internet; b) off line quando sono contenute in supporti (generalmente hard disk o DVD) che risiedono o possono essere inseriti dall'elaboratore dell'interrogante. Le banche dati on line vengono solitamente aggiornate in modo costante, tuttavia la loro consultabilità è subordinata alla possibilità di accedere a internet. Per questo, possono risultare poco pratiche nelle situazioni in cui tale accesso non è sempre disponibile. Le banche dati off line viaggiano con il supporto su cui sono memorizzate, dunque sono consultabili indipendentemente la disponibilità di un accesso a internet; tuttavia esse sono soggette ad aggiornamenti meno frequenti (di solito l’abbonamento alla banca dati prevede l’invio di aggiornamenti con cadenza che varia dai 2 ai 12 mesi), e sono quindi esposte a rischi di obsolescenza della base dati.

1.2. Gli indici di prestazione nella ricerca documentaria Un sistema informativo è efficace quando è in grado di reperire tutta e soltanto l’informazione pertinente agli obbiettivi di ricerca. Gli indici per misurare tale efficacia sono due: 1) La precisione, che indica la capacità di riportare tra i risultati della ricerca solo i documenti pertinenti, escludendo quelli non pertinenti. È data dalla quantità di documenti pertinenti ritrovati in rapporto a tutti i documenti ottenuti in risposta dal sistema. Ad esempio: documenti ottenuti in risposta:100, documenti pertinenti alla ricerca: 60; indice di precisione 60/100 = 0,6 2) il richiamo indica la capacità del sistema di reperire tutti i documenti pertinenti tra quelli presenti nell’archivio. È data dalla quantità di documenti pertinenti ritrovati in rapporto a tutti documenti pertinenti contenuti nella base documentale archiviata. Ad esempio: documenti pertinenti ottenuti: 60, documenti pertinenti presenti nella base dati: 100; indice di richiamo 60/100 = 0,6. I fenomeni del richiamo e della precisione possono essere colti dalla prospettiva complementare di chi sia interessato a considerare l’inefficacia di un sistema informativo; si ottengono così altri due indici: 3) Il rumore, ossia il difetto di precisione, indica la quantità di documenti non pertinenti che il sistema presenta come risultato della ricerca. Risulta dal numero di documenti non pertinenti ottenuti diviso per il numero totale dei documenti ottenuti in risposta dall’elaboratore. Ad esempio: documenti ottenuti in risposta: 100, documenti non pertinenti: 40; indice di rumore 40/100 = 0,4. 4) Il silenzio, ossia il difetto di richiamo, esprime l’incapacità del sistema di reperire i documenti pertinenti contenuti nell’archivio consultato. Può calcolarsi dividendo il numero di documenti pertinenti che, pur contenuti nell’archivio consultato, non sono stati selezionati per il numero dei documenti pertinenti presenti nell’archivio stesso. Ad esempio: documenti pertinenti non ottenuti 40, documenti pertinenti totali 100; indice di silenzio 40/100 = 0,4. Per metonimia, è possibile impiegare i termini “rumore”, “rumorosa” e “silenzio”, “silenziosa” per designare/connotare il risultato indesiderabile di una ricerca che ha prodotto, rispettivamente, troppi risultati non pertinenti e pochi risultati pertinenti. Dati pertinenti presenti nella base documentale

Dati pertinenti non recuperati (silenzio)

Dati recuperati in risposta al quesito

Dati recuperati pertinenti (risultato utile)

Dati recuperati non pertinenti (rumore)

1.3.

La ricerca per estremi

Le odierne banche dati consentono due generi di ricerca: la ricerca per estremi, che opera attraverso l’immissione dei dati alfanumerici che identificano il documento da reperire, e la ricerca testuale, che opera attraverso l’immissione di una o più parole che si presume ricorrano nel documento che da reperire. La ricerca per estremi non richiede particolari conoscenze tecniche: sarà sufficiente inserire il tipo, il numero e la data dell’atto normativo o giurisdizionale che si intende reperire (ad esempio, indicando nell’apposito campo il tipo “legge”, il numero “300” e l’anno “1970”). Si ricorre a questo tipo di ricerca quando si dispone già delle conoscenze relative agli estremi che identificano il documento da reperire. Molte odierne banche dati facilitano le ricerche per estremi consentendo l’individuazione di certi documenti, specie normativi, mediante l’immissione delle denominazioni con cui tali atti vengono designati, per brevità, nella prassi. È dunque possibile ad esempio ricercare la legge 300/1970 indicando nell’apposito campo (spesso denominato “nome volgare” o simili) “statuto dei lavoratori”, o trovare il d. lgs. 196/2003 indicando “codice della privacy” e così via.

1.4.

La ricerca testuale

Quando si intende reperire della documentazione di cui si ignorano gli estremi, oppure quando si intende estendere la selezione non limitandola ai documenti noti, si ricorre alla ricerca testuale, che opera attraverso l’immissione negli appositi campi di termini che si ritiene siano presenti nei documenti da reperire. I termini che vengono introdotti, eventualmente combinati attraverso gli operatori che saranno descritti nei prossimi paragrafi, costituiscono la c.d. stringa di ricerca. La formulazione di una congrua stringa di ricerca è la chiave per ottenere ricerche che ottengano successo sia sotto il profilo della precisione sia sotto il profilo del richiamo. I prossimi paragrafi saranno dedicate all’esame di alcune problematiche legate a questo particolare tipo di ricerca. 1.4.1.

Polisemia, sinonimia, indefettibilità

La polisemia è il fenomeno linguistico che si verifica quando una parola ha più di un significato. Ad esempio, il termine “costituzione” assume diversi significati a seconda che sia usato per designare la legge fondamentale di uno stato (es. “costituzione della repubblica”), la complessione fisica di un individuo (es. “Gianni è un ragazzo di costituzione robusta”) l’atto con cui la parte fa ingresso nel processo (costituzione in giudizio), l’atto che determina la nascita di una società (costituzione di una s.p.a) , ecc. L’immissione in fase di ricerca del termine “costituzione”, peraltro, produrrà in risposta tutti, e solo, i documenti che contengono quel termine (cioè una sequenza di caratteri non intervallati da spazi), indipendentemente dai significati che esso assume nei vari contesti. Il risultato della ricerca è in questi casi esposto al rischio di rumore, giacché comprende documenti in cui quel termine ricorre con significati diversi da quello rilevante ai fini della ricerca (ad esempio, si cercavano documenti relativi alla definizione di “sana e robusta costituzione” e si reperiscono anche molti documenti relativi alla “costituzione in giudizio” o alla costituzione italiana). La sinonimia è il fenomeno linguistico che si verifica quando più parole indicano un significato identico in ogni contesto (sinonimia totale, es: “fideiussione”, “fidejussione”) o in alcuni contesti (sinonimia parziale, es. “vendita”, “compravendita”). L’immissione in fase di ricerca di un termine come “fideiussione” produrrà in risposta i documenti che contengono quel termine, scritto esattamente in quel modo, ma non i documenti che comprendono il termine “fidejussione”, giacché il sistema prende in considerazione i termini in quanto mere sequenze di caratteri, e non in quanto entità linguistiche dotate di un certo significato. Il risultato della ricerca è quindi esposto a un elevato rischio di silenzio, poiché non comprende documenti che pure erano rilevanti ai fini della ricerca stessa. Per ovviare alle difficoltà derivanti dalla polisemia e dalla sinonimia dei dati-esca, è possibile formulare stringhe di ricerca complesse, facendo uso degli operatori di cui si parlerà nei prossimi paragrafi.

1.4.2.

Gli operatori booleani

La stringa di ricerca può essere costituita da un solo termine o da più termini. Nel primo caso, l’interrogazione viene effettuata mediante la specificazione di una sola condizione, data dalla ricorrenza nel documento del termine che costituisce la stringa di ricerca. Così, una stringa di ricerca come “abigeato” produrrà come risultato tutti i documenti presenti nella base dati che soddisfino la condizione data dalla ricorrenza della parola “abigeato”. L’uso di stringhe di ricerca costituite da un solo termine, tuttavia, è solitamente sconsigliato, giacché la possibile presenza di sinonimi e di significati diversi espone la ricerca al rischio, congiunto, di silenzio e di rumore 2. È dunque possibile formulare delle stringhe di ricerca facendo uso di più dati-esca, con lo scopo di precisare e rendere più completo il risultato dell’interrogazione. Questi dati-esca, inoltre possono essere combinati in vario modo attraverso alcune parole speciali, note come operatori di relazione. Tali parole vengono inserite tra i termini che compaiono nella stringa di ricerca, e consentono di specificare una serie di condizioni logiche relative ai documenti che ne costituiscono il risultato. I più importanti operatori di relazione sono i cosiddetti operatori logici o booleani 3: AND, OR e NOT. L’operatore AND viene inserito tra due o più termini quando si vuole che questi siano tutti presenti in ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi tramite la stringa di ricerca affitto AND locazione

produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono sia il termine «affitto» sia il termine «locazione». Non vengono invece compresi nel risultato della ricerca: a) I documenti che non contengono né il termine «affitto» né il termine «locazione»; b) I documenti che contengono il termine «affitto» ma non il termine «locazione»; c) I documenti che contengono il termine «locazione» ma non il termine «affitto». L’uso dell'operatore AND restringe la selezione dei documenti prodotti in risposta dal sistema. Tanti più termini vengono combinati in AND, tanto meno numerosi saranno i documenti selezionati. Si tratta dunque, tipicamente, di un operatore adoperato per limitare il rumore della ricerca, e/o per contrastare gli effetti della polisemia. Una ricerca sulla nozione di “sana e robusta costituzione”, ad esempio, potrà essere resa meno rumorosa se la stringa di ricerca, in luogo del solo termine polisemico “costituzione”, contiene anche, combinati in AND, i termini “sana” e “robusta”. Una stringa come: sana AND robusta AND costituzione

invero, produce in risposta tutti, e solo, i documenti in cui ricorrono contemporaneamente le parole “sana”, “robusta” e “costituzione”; vi saranno pertanto maggiori probabilità di reperire tra i primi risultati della ricerca i documenti che riguardino la costituzione intesa come salute fisica dell’individuo, piuttosto che quei documenti che attengono alla costituzione intesa come atto processuale, legge fondamentale o creazione di una società. L’operatore OR viene inserito tra due o più termini quando si vuole che almeno uno di essi sia presente in ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi tramite la stringa di ricerca affitto OR locazione

produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorre il termine «affitto», tutti i documenti presenti nella base dati in cui ricorre il termine «locazione» oltreché naturalmente tutti i documenti in cui ricorrono sia il termine «affitto» sia il termine «locazione». Non vengono invece compresi nel risultato della ricerca i documenti in cui non compaiono né il termine «affitto» né il termine «locazione». L'uso dell'operatore OR estende la selezione dei documenti prodotti in risposta dal sistema: tanto maggiore è 2

Un risultato può essere, al tempo stesso, silenzioso e rumoroso quando ricomprende solo una parte dei documenti rilevanti presenti nella base dati e tuttavia include una mole di documenti non rilevanti. 3 Da George Boole, filosofo e matematico inglese del XIX secolo, cui si deve l'invenzione del calcolo logico noto come algebra proposizionale di Boole. Boole notò che le combinazioni tra proposizioni obbediscono a leggi ben definite, di cui si può dare una formulazione precisa tanto quanto la definizione delle regole che governano le operazioni dell'aritmetica.

il numero dei termini combinati in OR, tanto più elevato è il numero dei documenti prodotti in risposta dal sistema. OR, pertanto, permette di contrastare il silenzio della ricerca e/o gli effetti della sinonimia. Una ricerca sull’istituto della compravendita effettuata mediante l’introduzione di una stringa di ricerca come compravendita

infatti, è silenziosa nella misura in cui esclude dai risultati della ricerca tutti quei documenti in cui quell’istituto è designato tramite il termine sinonimo “vendita”, documenti che pure erano rilevanti ai fini della ricerca. L’uso della combinazione vendita OR compravendita

consente di eliminare questo problema, giacché produce un risultato che comprende tutti, e solo, quei documenti in cui ricorrono, anche disgiuntamente, il termine “vendita” e il termine “compravendita”. L’operatore NOT viene inserito prima di un termine quando si vuole che la ricerca produca in risposta dei documenti in cui non compare quel termine. Ad esempio, un’interrogazione che operi tramite la stringa di ricerca affitto NOT locazione

produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorre il termine «affitto» ma non il termine «locazione». Non vengono invece compresi nel risultato della ricerca: a) I documenti in cui non compaiono né il termine «affitto» né il termine «locazione»; b) I documenti in cui compaiono sia il termine «affitto» sia il termine «locazione»; c) I documenti in cui non compare il termine «locazione» ma compare il termine «affitto». Anche l’operatore NOT viene solitamente adoperato per contrastare il rumore delle ricerche e/o il fenomeno della polisemia delle parole. Si supponga ad esempio che un ricercatore intenda reperire documenti riguardanti la nozione di inquinamento inteso come degrado ambientale. Una stringa di ricerca come: inquinamento

tuttavia, produrrebbe un risultato che include anche documenti in cui il termine “inquinamento” viene associato al termine “probatorio”, e quindi inteso come attentato all’acquisizione o alla genuinità della prova in sede processuale. Per evitare questo rumore, è possibile adoperare una stringa come: inquinamento NOT probatorio

che esclude dal risultato della ricerca tutti i documenti in cui ricorre il termine “probatorio”, che assai probabilmente contengono informazioni non rilevanti ai fini della ricerca. La sintassi corretta delle stringhe di ricerca prevede che due termini possano essere combinati da un solo operatore booleano. È dunque sintatticamente scorretta (e quindi nulla) la stringa di ricerca affitto OR AND locazione

mentre sono sintatticamente corrette le stringhe: affitto AND locazione affitto OR locazione affitto OR locazione AND immobiliare

1.4.3.

L’uso delle parentesi

È possibile elaborare stringhe di ricerca complesse, che includano più dati-esca combinati in vario modo. Sorge però l’esigenza di comprendere l’ordine in cui il software di interrogazione combina i termini inseriti in stringa di ricerca. In mancanza di una specificazione di tale ordine, infatti, una stringa come: affitto OR locazione AND immobiliare

sarebbe ambigua, in quanto potrebbe essere interpretata come: 1) “trova tutti e solo i documenti in cui compare il termine «affitto», i documenti in cui compaiono sia il termine «locazione» sia il termine «immobiliare», e i documenti in cui compare sia il termine «affitto», sia il termine «locazione» sia il termine «immobiliare»”; 2) “trova tutti e solo i documenti in cui compaiono sia il termine «affitto» sia il termine «immobiliare», i documenti in cui compaiono sia il termine «locazione» sia il termine «immobiliare», e i documenti in cui compare sia il termine «affitto», sia il termine «locazione» sia il termine «immobiliare»; La differenza tra le due interpretazioni è evidente: nel secondo caso, infatti, vengono esclusi dal risultato della ricerca i documenti in cui compare il termine «affitto» ma non compare il termine «immobiliare». Per evitare queste ambiguità, i software di interrogazione, prendono in considerazione le operazioni secondo un ordine prestabilito per default. Solitamente, l’ordine in cui il sistema raggruppa le operazioni è il seguente: prima vengono considerate le combinazioni in AND, poi le combinazioni in NOT e infine le combinazioni in OR 4. Più precisamente: a) Tra AND e OR prevale AND. Il sistema, cioè, combina per prima cosa i termini combinati in AND, trattandoli come se fossero inclusi tra parentesi. Ciò indipendentemente dalla posizione che la combinazione occupa nella stringa di ricerca. Ad esempio, una stringa come: atto AND vendita OR compravendita

viene interpretata dal sistema come: (atto AND vendita) OR compravendita

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono: 1) Sia la parola “atto” sia la parola “vendita”; 2) La parola “compravendita”; 3) Sia la parola “atto,” sia la parola “vendita” sia la parola “compravendita. La stringa non viene invece interpretata dal sistema come: atto AND (vendita OR compravendita)

giacché la combinazione in AND è prioritaria rispetto alla combinazione in OR. Quest’interpretazione avrebbe prodotto un risultato di ricerca diverso giacché, diversamente dall’interpretazione precedente, non avrebbe incluso i documenti in cui compare la parola “compravendita” ma non compare la parola “atto”. Allo stesso modo, una stringa come: atto OR vendita AND compravendita

viene interpretata dal sistema come: atto OR (vendita AND compravendita)

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono: 1) Sia la parola “vendita” sia la parola “compravendita”; 2) La parola “atto”; 3) Sia la parola “atto,” sia la parola “vendita” sia la parola “compravendita.

4

Ciò, almeno, è quanto accade nella maggior parte delle banche dati presenti in commercio. Poiché peraltro questa regola sortisce numerose eccezioni, è opportuno disambiguare le stringhe di ricerca inserendo manualmente le parentesi (vedi infra, questo stesso paragrafo).

b)

Tra NOT e AND, prevale quello più a sinistra. Il sistema, cioè, combina per prima cosa le coppie di termini che compaiono più a sinistra nella stringa di ricerca, trattando i termini come se fossero inclusi tra parentesi. Ad esempio, una stringa come: atto AND vendita NOT compravendita

viene interpretata dal sistema come: (atto AND vendita) NOT compravendita;

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono sia la parola “atto” sia la parola “vendita”, a patto che non compaia anche la parola “compravendita”. D’altro canto, una stringa come: atto NOT vendita AND compravendita

viene interpretata dal sistema come: (atto NOT vendita) AND compravendita

c)

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono sia la parola “atto” sia la parola “compravendita”, a patto che non compaia anche la parola “vendita”. Tra NOT e OR prevale NOT. Il sistema, cioè, combina per prima cosa le coppie di termini combinati in NOT, trattando i termini come se fossero inclusi tra parentesi. Ad esempio, una stringa come: atto OR vendita NOT compravendita

viene interpretata dal sistema come: atto OR (vendita NOT compravendita)

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono: 1) I documenti in cui compare la parola “atto”; 2) I documenti in cui compare la parola “vendita”, a patto che non compaia anche la parola “compravendita”; 3) i documenti in cui compaiono sia la parola “atto” sia la parola “vendita”, a patto che non compaia anche la parola “compravendita”. Similmente, una stringa come: atto NOT vendita OR compravendita

viene interpretata dal sistema come: (atto NOT vendita) OR compravendita

e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono: 1) I documenti in cui compare la parola “atto”, a patto che non compaia anche la parola “vendita”; 2) I documenti in cui compare la parola “compravendita”; 3) i documenti in cui compaiono sia la parola “atto” sia la parola “compravendita”, a patto che non compaia anche la parola “vendita”. Per specificare un ordine diverso da quello predefinito dal software di interrogazione, il ricercatore può fare uso delle parentesi: i termini racchiusi tra parentesi vengono infatti combinati con un ordine prioritario rispetto alle altre combinazioni presenti nella stringa di ricerca. Ad esempio, si è detto che una stringa come: atto AND vendita OR compravendita

viene interpretata dal sistema come un’istruzione volta a selezionare tutti, e solo: 1) I documenti che contengono sia il termine “atto” sia il termine “vendita”; 2) I documenti che contengono il termine “compravendita” 3) I documenti che contengono sia il termine “atto” sia il termine “vendita” sia il termine “compravendita”. Se invece, tramite l’uso delle parentesi, si istruisce il sistema a combinare per primi i termini collegati in OR, scrivendo: atto AND (vendita OR compravendita)

allora il risultato della ricerca comprenderà tutti, e solo:

1) I documenti che contengono sia il termine “atto” sia il termine “vendita”; 2) I documenti che contengono sia il termine “atto” sia il termine “compravendita”; 3) I documenti che contengono sia il termine “atto” sia il termine “vendita” sia il termine “compravendita”. La seconda stringa, diversamente dalla prima, lascia fuori dalla selezione i documenti che contengono la parola “compravendita” ma non contengono la parola “atto”. Alla luce di quanto detto sopra, le parentesi sono superflue quando i termini tra esse racchiusi sono collegati mediante AND, dato che il sistema tratta i termini collegati in AND come se fossero comunque compresi tra parentesi. Pertanto, una stringa come: inadempimento AND (impossibilità AND sopravvenuta)

individua esattamente gli stessi risultati di una stringa come: inadempimento AND impossibilità AND sopravvenuta. 1.4.4.

Altri operatori per la ricerca

Gli operatori AND, OR e NOT sopra esaminati sono gli operatori di relazione più classici. Vi sono peraltro degli altri operatori di relazione, denominati operatori di prossimità, che operano come degli AND rafforzati, nel senso che non si limitano a richiedere la compresenza dei dati-esca nei documenti che costituiscono il risultato della ricerca, ma vengono utilizzati per chiedere al sistema di fornire soltanto i documenti in cui i dati-esca sono presenti ad una certa distanza tra loro, cioè adiacenti o vicini. Questi operatori di prossimità sono: ADJ (operatore di adiacenza). Viene inserito tra due o più termini quando si vuole che questi siano tutti presenti, in posizione di adiacenza, in ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi tramite la stringa di ricerca ordine ADJ pubblico

produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono i termini «ordine» e «pubblico» l’uno accanto all’altro, ossia i documenti in cui compare la frase «ordine pubblico»5. Se i due termini dell'esempio fossero stati combinati in AND, la ricerca avrebbe selezionato tutti i documenti che contengono in qualsiasi parte del testo i termini «ordine» e «pubblico». sarebbero dunque stati inclusi nel risultato della ricerca non solo documenti che contengono riferimenti al concetto di ordine pubblico, ma anche documenti relativi, ad esempio, all'ordine impartito da un pubblico ufficiale, all'ordine del disbrigo delle pratiche in un ufficio pubblico, e così via.

5 In alcune banche dati, l’operatore ADJ non tiene conto dell’ordine in cui vengono inseriti i termini combinati; di conseguenza, se si impiega una stringa come quella riportata nell'esempio, i documenti prodotti in risposta sono sia quelli in cui compare la frase «ordine pubblico» sia quelli in cui compare la frase «pubblico ordine». È buona norma consultare il manuale della banca dati per accertare le modalità di funzionamento dell'operatore ADJ.

NEAR (operatore di vicinanza) 6. Viene inserito tra due o più termini quando si vuole che questi siano tutti presenti, in posizione di vicinanza, in ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi tramite la stringa di ricerca: impossibilità NEAR sopravvenuta

produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono i termini «impossibilità» e «sopravvenuta» in posizione di vicinanza, ossia i documenti in cui quei termini compaiono intervallati da un certo numero di altre parole (solitamente 5, 7 o 15: dipende dalla banca dati utilizzata) 7. Saranno pertanto compresi nel risultato della ricerca documenti relativi alla “sopravvenuta impossibilità”, all’“impossibilità sopravvenuta”, all’“impossibilità non sopravvenuta”, all’“impossibilità di adempiere per causa sopravvenuta” e via dicendo. “…” (virgolette, ricerca per frase esatta). Quando nel campo di ricerca testuale viene inserita una frase racchiusa da virgolette, il risultato della ricerca comprenderà tutti, e solo, i documenti che contengono quella frase così com’è stata digitata, comprensiva di articoli e preposizioni. Ad esempio, un'interrogazione che operi tramite la stringa di ricerca "cessazione degli effetti civili del matrimonio"

produce in risposta a tutti, e solo, documenti che contengono la frase “cessazione degli effetti civili del matrimonio”. La ricerca per frase esatta è molto utile per evitare il fenomeno del rumore, tuttavia produce qualche rischio di silenzio, giacché il sistema produce in risposta solo i documenti in cui la frase ricorre nella sua esatta formulazione. Un'interrogazione che operi tramite la stringa di ricerca appena riportata, ad esempio, non includerà nella risposta quei documenti in cui, in luogo della frase “cessazione degli effetti civili del matrimonio”, compare la frase “cessazione dell’efficacia civile del matrimonio”, che evidentemente si riferisce allo stesso fenomeno oggetto dell’interesse del ricercatore. 1.4.5.

la ricerca per radice e il mascheramento

Alcuni strumenti di ricerca consentono di ridurre i rischi di silenzio dati dal modo in cui i termini immessi nelle stringhe di ricerca vengono declinati o coniugati. Se noi ad esempio immettiamo in stringa di ricerca il termine «prescrizione» con l'intento di selezionare tutti i documenti che trattano di quest'istituto, otteniamo una ricerca silenziosa nella misura in cui il risultato non comprendere tutti quei documenti, potenzialmente rilevanti, che contengono le parole «prescritto», «prescritti», «prescrittibile» ecc. per ovviare a questa difficoltà è possibile utilizzare lo strumento della ricerca per radice, che opera attraverso l’immissione dei primi caratteri che compongono il termine, seguiti dal simbolo “*”. Ad esempio, un'interrogazione che operi tramite la stringa di ricerca prescri*

produce in risposta a tutti, e solo, documenti che contengono delle parole che cominciano con la sequenza di caratteri «prescri», e dunque «prescrizione», «prescritto», «prescritti», «prescrittibile», «prescrittività», ecc. È ovvio che più la radice è allungata, più mirata è la ricerca. Un troncamento limitato alla sillaba «pre» è ben poco utile, giacché questa radice è presente ad esempio in parole come preside, prete, pretore, prevenzione, previdenza eccetera. Per molti versi analoga alla ricerca per troncamento è la tecnica per mascheramento, che solitamente opera tramite l'immissione del simbolo “?”, e che rende possibile effettuare ricerche impiegando termini che presentano un carattere o un numero intercambiabile. Ad esempio, un'interrogazione che operi tramite la stringa di ricerca fide?ussione

6

Talvolta l'operatore di vicinanza è denominato WITH. Consultare il manuale della banca dati per accertare la notazione in uso. È buona norma controllare il manuale della banca dati per accertare il numero di parole che determina la distanza massima dei termini reperiti con una combinazione in NEAR. 7

produce in risposta a tutti, e solo, i documenti che contengono termini come “fideiussione” e “fidejussione”; un’interrogazione che operi tramite la stringa di ricerca azion?

Produce in risposta tutti, e solo, i documenti che contengono termini come “azione”, “azioni”, “aziona”, “azionò”, e cosi via. Anche in questo caso, i problemi che si risolvono sono legati al silenzio di ricerche che producono in risposta soltanto i documenti in cui il termine oggetto dell’interesse del ricercatore ricorre scritto, o declinato in un certo modo.

Related Documents