Wasstraat
Synoniemen[bewerken]
- Extractie en transformatie
Inleiding en aanleiding[bewerken]
Bronhouders gebruiken bronsystemen om informatie over hun erfgoedcollectie vast te leggen. Deze bronsystemen gebruiken interne informatiemodellen om de erfgoedinformatie te registreren. Die informatie kan vervolgende beschikbaar worden gesteld in door het bronsysteem ondersteunde uitvoerformaten. Vaak zijn die gebaseerd op standaarden gericht op een specifiek werkingsgebied (bijvoorbeeld EAD voor archieven, of MARC 21 voor bibliotheken). Er zijn ook gevallen waarin het uitvoerformaat niet is gestandaardiseerd en de erfgoedinformatie bijvoorbeeld als CSV beschikbaar wordt gesteld.
Het architectuurpatroon “Wasstraat” is erop gericht erfgoedinformatie als RDF beschikbaar te stellen, waarna aansluitend middels een publicatiefunctie de erfgoedinformatie als Linked Data gepubliceerd kan worden. Het patroon is een onderdeel van wat in generieke zin ook wel ‘ETL’ (Extract/Transform/Load) wordt genoemd en omvat extract en transform.
Werkingsgebied[bewerken]
Het architectuurpatroon is generiek toepasbaar en niet specifiek voor een bepaald werkingsgebied.
Toepassingsgebied[bewerken]
Het architectuurpatroon wordt toegepast om erfgoedinformatie die beschikbaar wordt gesteld in diverse uitvoerformaten om te zetten naar RDF zodat die gepubliceerd kan worden in Linked Data, conform de uitgangspunten van de DERA.
Status[bewerken]
Tijdelijk patroon. In de ideale situatie wordt erfgoedinformatie vanuit het bronsysteem beschikbaar gesteld als Linked Data. Zolang deze situatie niet is bereikt, kan het patroon Wasstraat worden gebruikt om erfgoedinformatie toch als Linked Data te kunnen publiceren. Op langere termijn zal dit patroon worden uitgefaseerd ten gunste van Linked Data-publicatie direct aan de bron.
Voorbeelden[bewerken]
Verschillende organisaties maken gebruik van een Wasstraat om erfgoedinformatie om te zetten naar RDF. Voorbeelden van organisaties die een Wasstraat gebruiken zijn:
- Nationaal Archief (omzetten van beeldbeschrijvingen en indexen/nadere toegangen uit het eigen collectiebeheersysteem naar Linked Data)
- Netwerk Oorlogsbronnen (omzetten van door deelnemende instellingen aangeleverde erfgoedinformatie naar Linked Data).
Architectuur[bewerken]
Het architectuurpatroon raakt vier lagen in de architectuur:
- In de bedrijfslaag is het patroon herkenbaar als een bedrijfsproces dat de transformatie van aangeleverde metadata naar Linked Data verzorgt. Dit kan handmatige acties vergen, maar kan ook volledig geautomatiseerd verlopen via een Wrapper.
- In de applicatielaag bestaat het architectuurpatroon uit systemen die metadata beschikbaar stellen, transformeren en daarmee geschikt maken voor publicatie als Linked Data – en raakt langs die weg (diensten op de) bedrijfslaag.
- In de informatielaag is het patroon onafhankelijk van het beoogde (genormaliseerde) informatiemodel. De aan de Wasstraat aangeleverde metadata dienen uniek en persistent identificeerbaar te zijn.
- In de technologielaag bestaat het architectuurpatroon uit een IT-infrastructuur met afdoende capaciteit om de aangeleverde data te verwerken.
Er zijn twee soorten functionele (referentie)componenten betrokken bij dit architectuurpatroon:
- Bronsysteem – het systeem dat de oorspronkelijke bron is voor te ontsluiten erfgoedinformatie
- Wrapper – de functionele component die verantwoordelijk is voor het transformeren van erfgoedinformatie uit het Bronsysteem naar Linked Data.
De Wasstraat als bedrijfsproces wordt geheel of gedeeltelijk ingevuld door de technische en functionele capaciteiten van de Wrapper.
De use case van het architectuurpatroon ziet er op hoofdlijnen als volgt uit:
Startconditie: een bronhouder beheert in zijn bronsysteem een dataset met metadata van objecten. De metadata kan uit het bronsysteem worden opgehaald in een voor het systeem specifiek uitvoerformaat, maar niet in RDF of Linked Data.
- Tussen het bronsysteem en de Wasstraat bestaat een update- of synchronisatiemechanisme dat ervoor zorgt dat nieuwe of gewijzigde metadata uit het Bronsysteem bekend wordt bij de Wasstraat. Dat kan een ‘push’-mechanisme zijn vanuit het Bronsysteem naar de Wasstraat (bijvoorbeeld via een upload), of een ‘pull’-mechanisme waarmee de Wasstraat zelf gegevens ophaalt bij het Bronsysteem (bijvoorbeeld via harvesting).
- De Wasstraat normaliseert zo nodig de metadata en zet deze om naar RDF. Voor een goede werking van de Wasstraat dient de identiteit van gegevens uit het oorspronkelijke Bronsysteem herkenbaar te zijn in de uitwisseling en persistent over uitwisselingen heen. Dat wil zeggen: als een bepaald gegeven eenmaal onder een bepaalde identifier is uitgewisseld, dient deze identifier bij een volgende uitwisseling/update opnieuw gebruikt te worden. Op die manier kan de Wasstraat incrementele wijzigingen verwerken in de gegenereerde RDF. Als er geen sprake is van persistente identifiers, leidt elke transformatie via de Wasstraat tot een nieuwe RDF-dataset – met nieuwe identifiers – die de vorige dataset in zijn geheel vervangt.
Eindconditie: de metadata uit het bronsysteem is beschikbaar gesteld als RDF en kan in een vervolgstap verder verwerkt worden om uiteindelijk gepubliceerd te worden als Linked Data. De uitvoer van de Wasstraat is beschikbaar voor een afnemer, zoals een aggregator (zie architectuurpatroon Aggregator).
Positionering in DERA[bewerken]
Het architectuurpatroon kan verbonden worden aan de bedrijfsfuncties Beheren metadata, Publiceren metadata van datasets en Publiceren metadata van informatieobjecten. Aan het beheren van metadata wordt in de DERA de eis gesteld dat de metadatering voldoet aan nog nader te bepalen minimale kwaliteitseisen. Dit patroon vult die eis verder in door te stellen dat de aan de Wasstraat aangeleverde metadata-elementen uniek en persistent identificeerbaar dienen te zijn.
Voor het publiceren van metadata gaat de DERA uit van de eis dat er gebruik gemaakt wordt van Linked Data. De Wasstraat bereidt erfgoedinformatie die beschikbaar wordt gesteld vanuit bronsystemen voor op publicatie als Linked Data, ook als het oorspronkelijke bronsysteem zelf de informatie niet als Linked Data beschikbaar kan stellen. Daarmee vult dit patroon een deel van de eisen in die de DERA stelt aan de publicatiefunctie en aan de bijbehorende diensten Gepubliceerde metadata van datasets, Gepucliceerde metadata van cultuurhistorische objecten en Gepubliceerde metadata van informatieobjecten.