Skip to content

Pubblicare i metadati di un Albo POP in DCAT_AP_IT

Cristiano Longo edited this page Aug 12, 2017 · 18 revisions

Introduzione

Questo documento è stato realizzato nell'ambito dell'evento Open Data Fest 2017 da un lavoro di Alessio Cimarelli, Francesca Glera e Cristiano Longo. Illustra come descrivere un albo pop usando la specializzazione dcat_ap_it dello standard DCAT. Data Catalog Vocabulary (in breve DCAT) è una specifica per la pubblicazione di metadati relativi a dataset disponibili in rete. DCAT_ap_it è il profilo DCAT specializzato per la rappresentazione di dataset di pubbliche amministrazioni italiane.

Si ricorda che DCAT e DCAT_ap_it sono vocabolari RDF. Gli esempi presentati in questo documento saranno riportati solo con la serializzazione RDF/XML.

Inoltre molte scelte di disegno sono state mutuate dalle specifiche dei feed RSS di Albo POP.

Namespace

Nel seguito di questo documento, così come nell'esempio, verranno utilizzati i seguenti namespace:

Prefisso Namespace
dcat http://www.w3.org/ns/dcat#
dcatapit http://dati.gov.it/onto/dcatapit#
foaf http://xmlns.com/foaf/0.1/
locn http://www.w3.org/ns/locn#
geo http://www.w3.org/2003/01/geo/wgs84_pos#
dct http://purl.org/dc/terms/

Elementi Caratterizzanti di un Albo POP

Una descrizione DCAT contiene informazioni relative alle modalità di accesso ad un dataset, ma anche metainformazioni sul dataset stesso quali, ad esempio, l'autore e la data di ultima modifica. Nel caso di una rappresentazione di Albi POP abbiamo ritenuto importante segnalare le seguenti informazioni: la pubblica amministrazione cui l'albo pop fa riferimento, in termini di codice IPA, e chi ha sviluppato, messo a disposizione e attualmente gestisce l'albo pop. Viene ovviamente riportato anche l'indirizzo del feed RSS attraverso il quale accedere all'albo pop. Altre modalità di accesso agli albi (ad esempio bot Telegram) non sono state analizzate.

Metadati Generali

Ogni albo pop viene visto come un dataset, derivato dall'albo pretorio ufficiale della pubblica amministrazione di riferimento, e distribuito (dopo essere stato opportunamente tradotto) in formato RSS. Ricordiamo che in RDF/XML ogni istanza è univocamente identificata da una URI. Nel caso di dataset in DCAT_ap_it è opportuno anche specificare un identificativo univoco testuale del dataset. In questa proposta si la URI che identifica l'albo pop, che l'idenitificativo vengono ricavati in maniera univoca dal codice IPA della pubblica amministrazione cui l'albo si riferisce. Il frammento che segue si riferisce all'albo pretorio del
Comune di Bagheria, il cui codice IPA è c_a546.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
  <dct:identifier>albopop:c_a546</dct:identifier>
...
</dcat:Dataset>

Titolo e descrizione riportano il nome della pubblica amministrazione, ma esplicitano anche che non si tratta di un dataset fornito dalla pubblica amministrazione stessa bensì di un albo pop. Inoltre, come landingPage non indichiamo una pagina sul sito della pubblica amministrazione ma la pagina della pubblica amministrazione sul sito di Albo POP.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dct:title>AlboPOP - Comune - Bagheria</dct:title>
  <dct:description>*non ufficiale* RSS feed dell'Albo Pretorio del Comune di Bagheria</dct:description>
  <dcat:landingPage rdf:resource="http://albopop.it/comune/bagheria/"/>                
...
</dcat:Dataset>

Come tema del dataset è stato scelto Governo e settore pubblico tra quelli indicati nella pagina Temi e Dati delle Linee Guida per i cataloghi dati rilasciate dall'AGenzia per l'Italia Digitale. Analogamente sono state indicate frequenza di aggiornamento giornaliera e linguaggio Italiano. Per tutti i dataset di Albo POP consigliamo di lasciare invariati questi metadati.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dcat:theme>http://publications.europa.eu/resource/authority/data-theme/GOVE</dcat:theme>
  <dct:accrualPeriodicity rdf:resource="http://publications.europa.eu/resource/authority/frequency/DAILY"/>
  <dct:language rdf:resource="http://publications.europa.eu/resource/authority/language/ITA"/>
...
</dcat:Dataset>

Tra i metadati generali indichiamo con la proprietà issued la data di rilascio dell'albo pop. Attenzione, questa data non riguarda la pagina ufficiale dell'albo pretorio ma è la data in cui è stato reso disponibile e pubblicizzato sul sito di albo pop il feed RSS.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dct:issued rdf:datatype="&xsd;date">2017-01-01</dct:issued>
...
</dcat:Dataset>

L'Albo Pretorio Ufficiale e la Pubblica Amministrazione

Per indicare che il dataset è generato a partire dalla pagina web dell'albo pretorio colleghiamo questa pagina al dataset attraverso la proprietà source. La pubblica amministrazione viene indicata come responsabile dei dati attraverso la proprietà rightsHolder. La pubblica amministrazione viene rappresentata come istanza della classe dcatapit:Agent. Come indicato nella pagina Soggetto o Organizzazione delle linee guida dcat_ap_it. Inoltre il codice IPA concorre alla creazione della URL che identifica l'individuo che rappresenta la pubblica amministrazione nell'ontologia. Oltre all'identificativo, della pubblica amministrazione vengono indicati il nome ed il sito web. Queste informazioni in realtà sono già disponibili nel registro IPA la necessità della loro presenza qui necessita di essere investigata ulteriormente.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dct:source rdf:resource="http://comune.bagheria.pa.it/albo-pretorio/albo-pretorio-online/"/>
  <dct:rightsHolder>
    <dcatapit:Agent rdf:about="http://albopop.it/pa/c_a546/agent">
      <dct:identifier>c_a546</dct:identifier>
      <foaf:name xml:lang="it">Comune di Bagheria</foaf:name>
      <foaf:homepage rdf:resource="http://www.comune.bagheria.pa.it"/>
    </dcatapit:Agent>
  </dct:rightsHolder>
...
</dcat:Dataset>

Il Feed RSS e il suo Autore

Come detto in precedenza, il feed RSS viene visto come una distribution dell'albo pop. Per completezza ricordiamo che, per alcuni albi pop, esistono altre modalità oltre la pagina web ed il feed RSS per accedere agli avvisi, ad esempio un canale telegram dedicato. Queste modalità non vengono esaminate in questo documento. La URL dell'istanza di dcat:Distribuition viene generata a partire dal codice IPA, e all'interno della distribution viene indicato l'indirizzo del feed RSS e il tipo mime dello stesso applications/rss+xml. Inoltre viene specificata la licenza libera Creative Commons Attribuzione 4.0 che noi consigliamo caldamente.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dcat:distribution>
    <dcat:Distribution rdf:about="http://albopop.it/pa/c_a546/rss">
      <dct:title>AlboPOP - Comune - Bagheria - RSS</dct:title>
      <dcat:accessURL rdf:resource="http://feeds.feedburner.com/BagheriaAlboPretorio"/>
      <dct:license rdf:resource="https://creativecommons.org/licenses/by/4.0/"/>
      <dcat:mediaType>applications/rss+xml</dcat:mediaType>
    </dcat:Distribution>
  </dcat:distribution>
...
</dcat:Dataset>

L'autore dell'albo POP (chi ha sviluppato e messo su lo scraper e il convertitore RSS) viene indicato come publisher. Per modellare questa persona è possibile utilizzare il vocabolario Friend Of A Friend (FOAF).

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dcat:publisher>
    <dcatapit:Agent>
       <dct:identifier>Mario Rossi</dct:identifier>
       <foaf:name xml:lang="it">Mario Rossi</foaf:name>
       <foaf:mail>mario.rossi@mail.com</foaf:mail>
     </dcatapit:Agent>
  </dcat:publisher>
...
</dcat:Dataset>

Georeferenziazione

DCAT fornisce delle funzionalità per indicare l'area geografica di riferimento del dataset attraverso la proprietà dct:spatial. In questa proposta si utilizza questa proprietà per fornire le coordinate di un punto che indichi dove la pubblica amministrazione si colloca. Ad esempio, nel caso di un comune sarebbe opportuno indicare le coordinate del municipio. Queste informazioni vengono codificate attraverso i vocabolari ISA Programme Location Core Vocabulary (LOCN) e Basic Geo (WGS84 lat/long) Vocabulary. In particolare, il vocabolario LOCN permette anche di fornire ulteriori indicazioni relative, ad esempio, all'indirizzo, che non vengono prese in considerazione nell'esempio che segue.

<dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
...
  <dct:spatial>
    <dct:Location rdf:about="http://www.istat.it/082006">
      <locn:geometry>
        <locn:Geometry>
          <geo:lat>38.07892</geo:lat>
          <geo:long>13.51237</geo:long>
        </locn:Geometry>
      </locn:geometry>
    </dct:Location>
  </dct:spatial>
...
</dcat:Dataset>

Si noti inoltre che il codice istat (nel caso di un comune, nell'esempio quello del comune di Bagheria 082006) viene utilizzato per formare la URL della istanza di Location. Questa è una soluzione provvisoria per tenere traccia comunque di questa informazione.

Parole Chiave e Contatti

TODO

Catalogo

Il vocabolario DCAT permette di raggruppare i dataset in cataloghi. Si noti che un catalogo è un elenco di dataset, ma i singoli dataset esistono a prescindere dal catalogo (un po come il catalogo di una biblioteca) e lo stesso dataset può comparire in diversi cataloghi. I dataset sono collegati ai cataloghi attraverso la proprietà dcat:dataset.

<dcatapit:Catalog>
    ...
    <dcat:dataset>
        <dcat:Dataset rdf:about="http://albopop.it/pa/c_a546/dataset">
        ....
        </dcat:Dataset>
    </dcat:dataset>
    <dcat:dataset>
        <dcat:Dataset rdf:about="http://albopop.it/pa/c_a547/dataset">
        ....
        </dcat:Dataset>
    </dcat:dataset>
    ...
</dcatapit:Catalog>