Skip to content

Latest commit

 

History

History
376 lines (310 loc) · 17.9 KB

DM5-FlussiLavoroEditoriale-Metadati.md

File metadata and controls

376 lines (310 loc) · 17.9 KB

Flussi di Gestione Documentale

Gestione documentale

Nella produzione editoriale possono esistere diversi flussi di creazione e gestione dei documenti.

Differiscono in base a:

  • Flusso di lavoro
    • Qualità contenuti
    • Qualità formati (Es. citazioni)
  • Tecnologie
    • Creazione
    • Condivisione
    • Produzione

Metadati

I metadati sono ovunque, a volte invisibili ma presenti.

Esempi

  • Questa lezione ha un titolo, un docente, una durata, dei CdL

  • Un video su YouTube

    • Titolo, autore, data, durata, categorie e licenze
    • Metadati generati dall’autore, scelti da una lista limitata, i commenti creati da altri, metadati generati automaticamente dal sistema
  • Una risorsa di archivio

  • Alcuni descrittori sono comuni a diverse categorie di oggetti.

    • Autore, titolo, data
  • Altri sono specifiche del tipo dell’oggetto.

    • Durata di un video, il numero delle pagine di un libro
  • Alcuni sono stabili nel tempo altri variano

    • Autore, soggetto vs commenti, voci correlate, recensioni
  • Alcuni valgono per ogni tipo di interazione altri dipendono dall’interazione

    • Titolo del corso vs Corso di Laurea
  • Alcuni dipendono dal processo di raccolta

    • Tabulati telefonici

Il caso dei tabulati telefonici

  • Nei tabulati telefonici non si raccoglie il contenuto delle telefonate
  • Si raccolgono i metadati di queste telefonate
    • Il numero da cui parte la telefonata
    • Il numero cui si telefona
    • Il ripetitore che trasmette la telefonata e che consente di definire l’area geografica
    • L’ora e la durata della telefonata​

Mappa con il tracciamento di cellulari

(A) Traccia di un utente di telefonia mobile anonimizzato durante un giorno. I punti rappresentano gli orari e i luoghi in cui l'utente ha effettuato o ricevuto una chiamata. Ogni volta che l'utente ha un'interazione di questo tipo, viene registrata l'antenna più vicina che instrada la chiamata.
(B) La traccia dello stesso utente registrata in un database della mobilità. Il reticolo di Voronoi, rappresentato dalle linee grigie, è un'approssimazione delle aree di ricezione delle antenne, l'informazione di localizzazione più precisa a nostra disposizione. I tempi di interazione dell'utente sono qui registrati con una precisione di un'ora.
(C) La traccia dello stesso individuo quando abbassiamo la risoluzione del nostro set di dati attraverso l'aggregazione spaziale e temporale. Le antenne vengono aggregate in cluster di dimensione due e le regioni associate vengono unite. Le interazioni dell'utente sono registrate con una precisione di due ore. L'aggregazione spaziale e temporale rende indistinguibili le interazioni delle 8:32 e delle 9:15 del mattino.

Source: Unique in the crowd: the privacy bounds of human mobility

Metadati sono dati

  • Metadati sono dati sui dati
    • Metadati sono descrizioni di un oggetto
    • Le descrizioni sono affermazioni su un oggetto, informazioni sull’oggetto
    • Siccome possiamo collegare oggetti a risorse informative che li descrivono e identificano possiamo dire che i metadati possono riferirsi a qualsiasi oggetto
      • Questa risorsa è un libro
      • Questo libro ha un autore
      • Questo autore ha un nome

Ho dei dati che riguardano altri dati

Cosa sono i dati e cosa i metadati

Il censimento raccoglie metadati descrittivi sulla famiglia

  • Queste info rese pubbliche diventano dati
    • I metadati sono diventati dati
  • Conclusione: cosa siano i dati e cosa siano i metadati dipende dal punto di vista

Perché i metadati

  • Per potere catalogare e concettualizzare i dati
    • Necessità di punti di accesso per ritrovare i dati
    • Necessità di un vocabolario condiviso per rendere interoperabile lo scambio di informazioni e per attivare processi di automazione
      Documentazione crossref
  • Per potere disporre l’uso dei dati
    • Necessità di gestire il ciclo di vita di un dato: revisioni, versioning, autorizzazioni, diritti d’uso
    • Necessità di strumenti di validazione per verificare l’integrità del dato, la sua compatibilità con altri dati, l’autenticità

Tipi di metadati

Ci sono diverse tipologie di metadati

  • Descrittivi
  • Strutturali
  • Amministrativi
  • Tecnici
  • Utilizzo

Esempi

Oggetto vs. Collezione

Classificazione multiple

Ogni oggetto può essere classificato da diversi punti di vista e quindi essere descritto con diversi vocabolari controllati.

  • Un monumento classificato dal punto di vista della locazione geografica, dello stile architettonico, dell’uso, dei materiali usati...
  • Un esempio di classificazione multipla è dato dall’Art & Architecture Thesaurus del Paul Getty Institute che si trova online: http://www.getty.edu/vow/AATHierarchy

Standard per metadati

Standard di strutturazione dei dati MARC (Machine-Readable Cataloging) Format, Encoded Archival Description (EAD), BIBFRAME (Bibliographic Framework), Dublin Core Metadata Element Set, Categories for the Description of Works of Art, VRA Core
Standard di valori dei dati (vocabolari controllati, thesauri, liste controllate) Library of Congress Subject Headings, Name Authority File, and Thesaurus for Graphic Materials; Getty Art & Architecture Thesaurus, Union List of Artist Names (ULAN), and Thesaurus of Geographic Names; ICONCLASS; Medical
Standard di organizzazione sintattica dei dati (regole e codici di catalogazione) Anglo-American Cataloguing Rules, Resource Description and Access, International Standard Bibliographic Description, Cataloging Cultural Objects, Describing Archives: A Content Standard
Formato dei dati/standard tecnici di interscambio Resource Description Framework, MARC21, MARCXML, EAD XML DTD, METS, BIBFRAME, LIDO XML, Simple Dublin Core XML, Qualified Dublin Core XML, VRA Core 4.0 XML

Standard MARC

Un formato di catalogazione introdotto negli anni ‘60 dal US Library of Congress.

  • Divenuto standard internazionale negli anni ’70
  • Evoluto in una famiglia di standard: http://www.loc.gov/marc/umb/
  • Una tipica scheda include:
    • La descrizione dell’oggetto
    • I campi principali, access point
    • Le parole chiave per soggetto
    • La classificazione e il numero di catalogazione
    • Molte altre informazioni

Esempio di una classificazione con lo standard MARC

Lo standard Dublin Core

  • Dublin, Ohio; quartier generale di OCLC – Online Computer Library Center
    • Non profit org., proprietari del sistema decimale Dewey; FirstSearch e WorldCat, portali a diversi cataloghi
    • Workshop, marzo 1995. Come descrivere, organizzare e dare accesso all’informazione attraverso la rete
    • Mosaic, 1993: quindi il contesto web era poco conosciuto
  • Definire uno standard per descrivere oggetti su scala web: a livello core cioè il minimo insieme di descrittori necessario per descrivere qualunque risorsa in rete

Scopo del Dublin Core

  • Semplicità
    • Basso costo di adozione tanto da non avere scuse
    • Basso costo per implementarla in applicativi di ricerca che la usano
    • Solo 15 elementi di metadati
  • Semantica condivisa
    • Generalista e di conseguenza con perdita di specializzazione ma incremento di usabilità
  • Estendibile
    • Anche per ovviare alla perdita di specializzazione
  • Internazionale
    • Con possibilità di traduzione in più lingue, ma per lo più sviluppata in lingua inglese

Gli elementi di Dublin Core

  • Contributor
  • Publisher
  • Coverage
  • Relation
  • Creator
  • Rights
  • Date
  • Source
  • Description
  • Subject
  • Format
  • Title
  • Identifier
  • Type
  • Language

Documentazione Dublin Core

Elementi, Valori, Records

Quando si descrive qualcosa si formula una frase. Uno schema di metadati controlla il tipo di frasi che si possono formulare e come. Un vocabolario controllato per controllare i termini che si possono usare nella frase

  • Elemento
    • La categoria di frase che si può usare in uno schema di metadati per descrivere un oggetto
    • DC usa solo 15 elementi per formulare frasi ben formate
  • Valore
    • Le informazioni, i parametri che si passano all’elemento
    • DC spesso suggerisce di usare specifici vocabolari controllati
  • Record
    • L’insieme delle coppie Elemento/Valore, cioè le frasi che si possono usare per descrivere la risorsa

Esempio

Title: Monna Lisa
Creator: Leonardo da Vinci
Subject: Lisa del Giocondo
Description: ritratto di donna
Date: c. 1503-1506
....
....

Le coppie elemento/valore sono ripetibili e in qualunque ordine

Principi di rilevanza

  • Includere solo informazioni rilevanti – semplificare (principio dumb-down )
    • Subject non è rilevante per la descrizione di uno spartito?
    • Language non è rilevante per descrivere un dipinto?
      Tralasciamo...
  • Per ogni risorsa ci deve essere uno e un solo record che la descrive
    • No allo stesso record per due risorse
    • No a due record per la stessa risorsa

Esempio

Title: Monna Lisa
Creator: Leonardo da Vinci
Subject: Lisa del Giocondo
Description: ritratto di donna
Publisher:
Contributor:
Date: c. 1503-1506
Type:
Format: olio su legno di pioppo
Identifier:
Source:
Language:
Relation:
Coverage:
Rights: Musée du Louvre

DC in HTML

<html>
 <head>
 <title>Record del dipinto di Leonardo</title>
 <meta name=“DC.creator” content=“Leonardo, da Vinci, 
  1452-1519”>
 
 
 <meta name=“DC.date” content=“c. 1503-1506”>
 <meta name=“DC.format” content=“olio su legno”>
 </head>
 <body> contenuto della pagina web </body>
</html>

Esempio

Title: Monna Lisa
Creator: Leonardo da Vinci
Subject: Lisa del Giocondo
Description: ritratto di donna
Date: c. 1503-1506
Format: olio su legno di pioppo
Rights: Musée du Louvre



Title: Monna Lisa
Creator: chi ha creato img digitale
Subject: Lisa del Giocondo
Description: ritratto di donna
Contributor: Leonardo da Vinci
Publisher: Musée du Louvre
Type: image
Date: 2014
Format: JPEG
Identifier: URI dell’immagine
Relation: URI ad altra risorsa
Rights: Musée du Louvre

Un record per l’originale, un record per l’immagine digitale e la relazione tra i due. L’immagine digitale è una rappresentazione dell’originale

Schema.org

  • Diversi motori di ricerca come Google, Bing, Yahoo sono in grado di interpretare le descrizioni di alcune tipologie di contenuti se seguono lo schema definito da schema.org
  • Queste descrizioni possono essere associate ad una pagina HTML usando diversi formati, il più diffuso sta diventando JSON-LD
    Introduzione al markup dei dati strutturati nella Ricerca Google
    JSON-LD Playground
  • In questo modo i motori di ricerca possono costruire strutture dati più significative come Breadcrumbs, Sitelinks Search Box, Rich Card, Rich Snippets o (Google Knowledge Graph)

Esempio

Sito con metadati

Le informazioni relative alle diverse aree di un sito sono costruite grazie ai metadati.

Vocabolari non controllati

Ogni parola e ogni frase può essere usata per classificare

  • Al contrario dei vocabolari controllati in cui le parole usate per descrivere sono limitate
  • I tag delle reti sociali sono un esempio di vocabolario non controllato:
  • YouTube non limita nell’uso di parole chiave
  • FaceBook limita a termini che devono già essere stati coniati nell’universo FB
  • Twitter usa gli hashtag, non tutti i tag sono descrittivi. A metà strada tra contenuto e metadato
  • Flicker usa tag completamente liberi

Esempio: Metadati di Youtube

Pagina di caricamento video di Youtube, puoi scrivere la maggior parte dei metadati nel titolo, descrizione e tag del video

Tesauro o vocabolario controllato

  • Definisce le entità dell’universo che trattiamo e indica le parole che dobbiamo usare per parlarne
  • LCSH (Library of Congress Subject Headings) fornisce la struttura di parole per definire i soggetti, che può essere modificata ed estesa, mediante un vocabolario controllato e strutturato
  • Un elenco strutturato di parole, raggruppate per semantica, con alcune relazioni:
    • BT: broader term, il termine più generale
    • NT: narrower term, il termine più specifico
    • RT: related term, un termine associato
    • USE: rimando a un termine da usarsi
    • UF: use for, rimando a un termine da non usarsi

Il vocabolario controllato LCSH

LCSH dal 1898 il prototipo di un sistema di metadati per la catalogazione del materiale librario.

  • Da non confondere con la classificazione per collocare gli oggetti sugli scaffali, Library of Congress Classification
  • Fornisce l’identificativo alfa-numerico, call number, o collocazione, che viene posto sul dorso dei libri per poterli ritrovare negli scaffali
  • Definito da Putnam nel 1897

Vocabolario LCSH

Ontologie

Nell’ingegneria della conoscenza, la rappresentazione formale di un insieme di concetti in un determinato ambito.

Un insieme di termini di relazioni più complesse di quelle nei vocabolari controllati

Tesauri vs Ontologie

Le ontologie sono tesauri con relazioni formali: esprimono sottoinsiemi della logica del primo ordine.

Nelle ontologie entità, relazioni e inferenze consentono di dedurre fatti non esplicitamente asseriti.

Le ontologie possono quindi essere usate in algoritmi, alcuni linguaggi

Esempio di concettualizzazione

Esempio di concettualizzazione

  1. Identifichiamo Fabio Fazio e Luciana Littizzetto
  2. Che sono un maschio e una femmina
  3. Che sono persone
  4. Che collaborano tra loro
  5. Fabio Fazio usa degli occhiali

Identificare

Identificare un oggetto:

https://it.wikipedia.org/wiki/Fabio_Fazio https://it.wikipedia.org/wiki/Luciana_Littizzetto

Si tratta di associare un oggetto o risorsa ad un identificatore che potrà essere utilizzato in modo univoco all’interno del vocabolario.

Molti sono i criteri che si possono usare per decidere cosa considerare individuo:

  • un oggetto indivisible
  • un’unità che non ammette riduzioni nel sistema di riferimento
  • un oggetto che ha una condizione di identità
  • un oggetto che è associato ad un identificatore

Solitamente si considera individuo qualche cosa che permane (che identifichiamo all’interno di uno sfondo mutevole, o irrilevante, o composto da altri oggetti identificati)

Classificare

https://it.wikipedia.org/wiki/Fabio_Fazio type https://it.wikipedia.org/wiki/Maschio https://it.wikipedia.org/wiki/Luciana_Littizzetto type https://it.wikipedia.org/wiki/Femmina

Si tratta di affermare che un oggetto appartiene ad una classe di oggetti: ovvero condivide con altri oggetti uno stesso insieme di proprietà. In una buona classificazione l’insieme di proprietà definito dalle classi dovrebbe essere:

  • reciprocamente esclusivo
  • congiuntamente esaustivo
  • pertinente

In realtà quasi tutti i vocabolari includono diversi criteri di classificazione, diverse dimensioni o punti di osservazioni; quindi, ammettono intersezioni tra le classi che appartengono a dimensioni diverse.