Verrijkingen

Uit DERA
Ga naar: navigatie, zoeken

Synoniemen

  • Annotaties

Inleiding en aanleiding

Het normatieve deel van de DERA onderkent als onderdeel van erfgoedinformatie ook verrijkingen van die informatie. Verrijkingen zijn gedefinieerd als “informatie die niet expliciet voorkomt in het oorspronkelijke erfgoedinformatieobject”. We hanteren hier een ruimere definitie, namelijk: “Een verrijking maakt informatie die voorkomt in het oorspronkelijke erfgoedobject of anderszins hoort tot de context expliciet(er)”, zodat ook transcripties binnen de definitie passen. Verrijkingen kunnen na goedkeuring door een bronhouder worden overgenomen. Ze kunnen ook los van de oorspronkelijke bron bestaan, bijvoorbeeld via community-sites als Wikidata of als annotaties in aanvulling op de ‘formele’ (goedgekeurde) informatie.

Werkingsgebied

Dit patroon is van toepassing voor alle erfgoedinstellingen die werken met verrijkingen.

Toepassingsgebied

Verrijkingen van erfgoedinformatie.

Status

Dit patroon beschrijft requirements die in praktijk nog (verder) getoetst moeten worden.

Voorbeelden

  • Handschriftherkenning; zoeken en tonen van transcripties (Nationaal Archief, project De ijsberg zichtbaar maken)
  • Termextractie en transcriptie vanuit audiovisuele data (Beeld en Geluid)
  • Netwerk Oorlogsbronnen; verrijkt informatie met (URI’s van) termen uit terminologiebronnen en stelt die in nieuwe datasets beschikbaar.

Architectuur

Het architectuurpatroon raakt vier lagen in de architectuur:

  1. In de bedrijfslaag is het beheren van verrijkingen een bedrijfsfunctie. Het goedkeuren van verrijkingen kan leiden tot het overnemen van die verrijkingen bij de oorspronkelijke bron.
  2. Omdat verrijkingen, zeker zolang ze niet goedgekeurd zijn en overgenomen door de bronhouder, een eigen levenscyclus kennen, dienen ze ook apart geregistreerd en beheerd te kunnen worden. Dit kan gedaan worden in de applicatielaag in een afzonderlijk Annotatiebeheersysteem.
  3. In de informatielaag worden verrijkingen als annotaties bij de oorspronkelijke (meta)data beschouwd. Ook bij deze annotaties kunnen termen uit terminologiebronnen worden gebruikt (mogelijk zijn dat andere/aanvullende terminologiebronnen ten opzichte van de bronnen die door de bronhouder vanuit het bronsysteem zijn gebruikt).
  4. In de technologielaag bestaat het architectuurpatroon uit een IT-infrastructuur die de verbinding tussen Collectiebeheersysteem en Annotatiebeheersysteem ondersteunt.



ArchiMate basiskleuren
   
   

De use case voor dit architectuurpatroon ziet er op hoofdlijnen als volgt uit:

Startconditie: een bronhouder beheert erfgoedinformatie die door de bronhouder en/of derden verrijkt moet kunnen worden.

  1. De bronhouder stelt de oorspronkelijke metadata beschikbaar aan het Annotatiebeheersysteem.
  2. In het Annotatiebeheersysteem worden verrijkingen vastgelegd. Elke verrijking heeft ook eigen metadata. De gebruiker moet in staat zijn de herkomst en bewerkingen van de gepubliceerde, verrijkte metadata vast te stellen (data lineage / data provenance). Daarom dienen bij een verrijking ook de metadatering en provenance van die verrijking te worden vastgelegd, waaronder de auteursrechtelijke status van de verrijking.
  3. Bepaalde vormen van erfgoedinformatie – zoals handschriften en audiovisuele data – kunnen omgezet worden naar een tekstuele representatie (een transcriptie). Transcripties worden in de DERA beschouwd als een vorm van verrijking. Eventuele beperkende rechten i.v.m. auteursrecht of openbaarheid die voor het originele stuk gelden, gelden ook voor transcripties en worden in de metadata van de transcripties overgenomen. Het doorzoeken van bijvoorbeeld een metadataveld dat een tekstrepresentatie van een beeldfragment bevat, kan derhalve beperkt (moeten) worden.
  4. De transcriptie kan als basis dienen om nieuwe informatie uit te destilleren. Bijvoorbeeld door met Named Entity Recognition (NER) de wie/wat/waar/wanneer-entiteiten er uit te halen. Dit is te beschouwen als een nieuwe laag van verrijking met zijn eigen metadata en provenance-informatie, bijvoorbeeld de algoritmes die gebruikt zijn en de mate van betrouwbaarheid van de NER. Deze informatie zou door de bronhouder kunnen worden gecontroleerd en geautoriseerd en “officieel” in beheer kunnen worden genomen. In dat geval wordt de verrijking omgezet naar metadata en hoort het thuis in het Collectiebeheersysteem.

Er is een W3C recommendation op basis van Linked Data: de Web Annotation-standaard die gebruikt kan worden voor transcripties c.q. verrijking van tekstrepresentaties.

Positionering in DERA

Verrijkingen.png

Het architectuurpatroon raakt de DERA-bedrijfsfunctie Beheren metadata verrijking. Hieraan wordt onder andere de eis gesteld dat verrijkingen onafhankelijk opgeslagen zijn van website of collectiebeheersysteem. In dit patroon is daarvoor de functionele component ‘Annotatiebeheersysteem’ gebruikt. Er dienen bij gebruik van dit patroon nog nadere afspraken gemaakt te worden over structurering en standaarden zodat verrijkingen geautomatiseerd kunnen worden overgenomen (dat wil zeggen: beschikbaar gesteld en ingewonnen). Zie voor het vastleggen van de auteursrechtelijke status van een verrijking het patroon Auteursrechten en licenties.

Bij dit patroon hoort de dienst Gepubliceerde metadata verrijkingen. Het Annotatiebeheersysteem moet invulling kunnen geven aan de functionele en niet-functionele requirements die horen bij die dienst.