Search

Caricamento in corso...
27.5.08

Searching e finding: le caratteristiche di un sistema di information retrieval

Il capitolo dedicato al search e al finding del libro Information Architecture for Information Professional di Sue Batley comincia con questa considerazione: dato che durante la ricerca e il finding l’utente attua molteplici strategie-tattiche e che maggiori sono le sue competenze per performarle maggiore sarà la probabilità di ottenere risposte soddisfacenti allora il migliore sistema di information retrieval è quello che supporta il maggior numero e tipo di strategie in modo user friendly.
Il modello detto 'berrypicking' proposto da Marcia Bates (The design of browsing and berrypicking techiques for on-line search interface) infatti incorpora sia le strategie di analytical searching che quelle di finding (browsing or foreging).
Le strategie di analytical searching sono ulteriormente descritte nell’approccio building block e pearl-growing di Harter, e la tecnologia a supporto di questo tipo di strategia è il motore di ricerca, Google ad esempio. E’ una strategia iterativa e il successo dipende sia dai feedback del motore di ricerca che, come già accennato, dalla capacità del searcher di interagire col sistema. 
Le tecniche base che un motore di ricerca deve consentire sono
A) Poter combinare i termini (ricerca logica, di frase e prossimità)
B) Modificare i singolo termini:wildcards e troncamento
C) Restringere il campo della ricerca: campi e limiti
Queste sono discusse tutte in modo esaustivo dall’autrice attraverso esempi.
Il finding, il trovare, è invece basato sulla struttura che organizza l’informazione. L’informazione e i contenuti vengono organizzati in strutture e navigando tra queste noi troviamo ciò che cerchiamo. Le strutture si basano sui sistemi di classificazione o-e sulle tassonomie o ontologie, possiamo affermare dunque la tecnologia che supporta questo tipo di strategie è appunto la tassonomia o l'ontologia: quanto migliore è la sua costruzione tanto più alta la possibilità di trovare ciò che cerchiamo. 

Un esempio è Open Directory, ‘the most widely distributed data base of Web content classified by humans’, un altro esempio sono i menu che consultiamo in quasi tutti i siti web.
Una delle possibili strategie del finding è il browsing, termine derivato dalla esplorazione degli scaffali disposti nelle biblioteche, la Batley preferisce invece riferirsi al ‘foraging’ (NdR:modello si strategie formalizzato da Peter Pirolli in Information Foraging: A Theory of Adaptive Interaction With Information).
Secondo la teoria del foraging, il browsing è precisamente una delle possibili strategie di ricerca, attività razionale e sistematica: esiste dunque il browsing esploratorio, il browsing per serendipità (cioè guidato dal caso e dall’intuizione), il purposeful browsing (che di potrebbe tradurre con intenzionale ovvero attivato dal bisogno di trovare informazione su un soggetto specifico.
L’architetto dell’informazione deve essere consapevole della complessità dei meccanismi coinvolti per fornire i tools più adatti a supportare il foreging.
Dunque è importante considerare le caratteristiche dei diversi sistemi di classificazione poiché ogni sistema possiede pregi e difetti rispetto all’espressività e all’ospitalità, proprietà vitali della classificazione, ma purtroppo affermarla Bates, mutualmente esclusive.
I sistemi di classificazione possono essere:
  • enumerativi per esempio, Library of Congress (difetti: 1. quelli puri non gestiscono le multidisciplinarietà, la possibilità che uno stesso oggetto possa appartenere a diverse classi, nella tassonomia digitale invece un oggetto può avere differenti link da diversi punti della struttura ad albero, l’importante che sia organizzati logicamente, sequenzialmente o alfabeticamente 2. non sono ospitali, ma NB LLC non è puro cioè non è gerarchico )
  • a faccette, sono dotate di ospitalità, nuovi soggetti possono essere inseriti: Universal Decimal Classification, le faccette sono usate per indicare la relazione tra i concetti classificati indipendentemente; Bliss Bibliographic Classification dove lo stesso soggetto è accessibile da percorsi differenti. Può fallire sul fronte dell’espressività
  • ibridi, enumerativi + faccette, per esempio la Dewey Decimal Classification soddisfa l’ospitalità, ma ha una gerarchia troppo profonda e quindi non ideale per il browsing (lo schema è reperibile nel sito Online Computer Lybrary Center, OCLC). Si rischia anche di avere tassonomie troppo sbilanciate con l’aggiunta di nuovi soggetti perdendo efficienza quale tool per trovare l’informazione.
Inoltre anche se la tassonomia, come della Open Directory Project, facilita il finding, l’utente infatti, deve semplicemente riconoscere tra i link proposti quello più interessante, tuttavia emergono alcuni limiti dovuti all ‘indicizzatore’ umana quando assegna i documenti ad una data categoria (lentezza-costi e consistenza), o dovuti all’uso del poli-gerarchia quindi al disorientamento dell’utente.
Si sta tentando dunque di sostituire il lavoro umano con la classificazione automatica (come nel progetto OCLC), ma sembra che una alternativa soddisfacente alla classificazione manuale non sia stata ancora trovata, in particolare per quanto riguarda l’indicizzazione e la classificazione di tutte le informazione che passano nel web.

I sistemi migliori per la findability
Si stanno diffondendo sistemi ibridi che minimizzino cercano di minimizzare i limiti e massimizzare i vantaggi primi discussi. La faceted classification offre un supporto alla foreging o browsing più adatto quando il dominio della conoscenza è abbastanza omogeneo o quando per diversi domini si possono adottare diverse faccette. (Per approfondire la classificazione a faccette si consiglia la lettura del saggio di Claudio Gnoli, Vittorio Marino e Luca Rosati ‘Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il web’ )
Un sistema di information retrieval ideale risponde ai requisiti suggeriti dalla Bates quando: 

  • fornisce all’utente il maggior numero di supporti alle strategie di searching e finding integrando la funzionalità di ricerca analitica con quella deputata al browsing-foreging, nel nostro caso con classificazione-navigazione a faccette (analitico-sintetica)
  • adotta per la classificazione un sistema ibrido cioè è presente sia classificazione gerarchico enumerativo che a faccette
  • i limita i problemi di consistenza adottando vocabolari controllati e thesaurus
  • consente un certo livello di classificazione automatica dei contenuti per mezzo del mapping semantico
  • progetta i sistemi adattandoli a specifici bisogni degli utenti e delle organizzazioni e migliorandoli costantemente

1 commenti:

CIX (Luca Ciciriello) ha detto...

Stavo vagabondando per la rete con tante idee, ma con niente di particolare da cercare, quando mi sono imbattuto in questo blog. L'ho letto, prima un po' svogliatamente, poi con sempre più interesse. Mi ricordava qualcosa che avevo letto parecchio tempo fa e poi mi sono ricordato cosa. Era un articolo di Tim Bray (co-fondatore dell'open text corporation) comparso sul bellissimo libro "Beautiful Code" della O'Reilly (2007). Questo articolo si intola "Finding Things" e mi aveva colpito, fra le altre cose, per una accurata anilisi dell'algoritmo di Binary Search. Ora non mi ricordo approfonditamente tutta la trattazione dell'approccio alla ricerca di un "qualcosa" in uno "spazio di ricerca", ma ricordo che mi aveva interessato. E proprio da quell'interesse era partita una mia idea idea per la ricerca di immagini sul web a partire da un'immagine campione. Nulla di testuale. Io do un'mmagine al mio motore di ricerca e lui mi tira fuori tutte le immagini che possono essere considerate "simili" per proporzioni degli oggetti contenuti ecc. Poi questo è rimasto un progetto solo appena abbozzato e nulla più. Il mio lavoro (quello che mi dà da vivere) mi ha richiesto la massima concentrazione e quindi non ho potuto continuare con il mio motore di ricerca visuale. Comunque, appena posso (tempi permettendo) ogni tanto ritorno a spolverare il vecchio codice aggiungendo qua e la qualche riga e qualche funzionalità.
Nulla, tutto qui.
Ho visto questo blog, mi è piaciuto e ho voluto lasciare un commento.

Bye.

Luca Ciciriello -- Programmatore.
luca_ciciriello@hotmail.com
http://ilprogrammatore.blogspot.com