Over het delen van metadata.
Waar waren we gebleven?
In het probleem met metadata-aggregatie stelden we: “De data is buiten het systeem niet volledig!”. Terecht vroeg Bob Coret op Twitter: “Maar is dat ook belangrijk voor de hergebruiker/aggregator?”
Ja. In deze blog leggen we uit wat er extra nodig is, en waarom.
Primaire proces: beheren
Bob merkte ook op dat metadata gepubliceerd wordt door er een rol aan toe te kennen. Dat toekennen van die rol gebeurt in de context van een primaire proces. Dit is gericht op het bewaren, tentoonstellen, onderhouden, uitlenen e.d.
Secundaire proces: hergebruiken
Het delen van data om het te kunnen gebruiken in interessante portals is een proces op zich, met eigen doelen. De overgang van het ene proces naar het andere is waar het probleem zit: daar gaat cruciale informatie verloren voor het secondaire proces.

Lineair of niet?
Het lijkt er op dat we nog vaak uitgaan van lineaire processen. Dat is meestal niet realistisch voor het primaire proces, maar ook niet voor het secundaire proces: het aggregeren. In de praktijk is er vaak beweging: verbetering, aanvulling etc.
Intermezzo: een document delen
Stel dat je een document deelt met anderen om feedback te verzamelen. Je stuurt ze alle 10 een e-mail met jouw document. Zij gaan aan de slag, en jij werkt ook lekker door. Dan komen er vrijdag om 1 minuut voor twaalf tien documenten per e-mail binnen, allemaal voorzien van uitgebreid commentaar. Hoe ga je nu de elf documenten die je hebt integreren tot één consistent eindrapport?
Cyclische Processen
Het voorbeeld maakt duidelijk dat er twee processen zijn: jouw eigen schrijfproces en dat van delen en feedback verzamelen. Beide zijn cyclisch. Een Word-document ondersteunt wel het eerste proces, maar niet niet het tweede. Een e-mail helpt je wel met delen maar niet met integreren.

Koppeling tussen twee processen
Beide processen lopen anders en hebben andere doelen. De data die uitgewisseld wordt moet zo zijn dat het beide processen ondersteunt. Maar hoe dan?
Je kunt in het voorbeeld Google Docs gebruiken; dat ondersteunt beide processen door ze te integreren. Helaas zit je dan met een centrale oplossing en bovendien weer met een tool. We willen graag een decentrale oplossing en terug naar de bron: de data.
In het voorbeeld: welke data hebben we nodig i.p.v. een Word-document en een e-mail?
Delen
Als we data delen voor hergebruik moeten we rekening houden met de dynamiek:
- Het verschijnen van nieuwe metadata.
- Het verschijnen van updates op eerdere metadata.
- Het verdwijnen van eerdere metadata.
Helaas voorziet de huidige manier van delen daar vaak niet in. Metadata wordt op een bepaald tijdstip ‘gepubliceerd’, op een bepaald tijdstip gewijzigd, en is op een bepaald tijdstip verdwenen.
Alleen als je als toeschouwer permanent in real-time meekijkt kan je deze tijdstippen te weten komen.
Ai!
Van de metadata die in een geaggregeerde database zitten weten we dus niet wanneer het eigenlijk gepubliceerd is. (We weten wel wanneer iets verzameld is, maar dat is wat anders.) Maar het gaat nog verder: als er updates zijn weten we niets over die updates; het is een nieuw object, met dezelfde identifier als een die we al hebben, maar andere inhoud. Ai! Hiermee wordt het wel heel moeilijk het secundaire proces te ondersteunen.
Boeken
Stel dat we boeken, tijdschriften en artikelen op deze manier zouden publiceren. Wat zou een bibliothecaris vinden van een nieuwe druk met dezelfde ISBN als de oude? Waarom doen we dat met metadata dan wel?
Het kan wél, al heel lang
In de wereld van het boek zijn er al heel lang twee verschillende processen die uitstekend op elkaar aansluiten. Het ene proces van schrijven, drukken en verkopen ondersteunt het andere proces van verzamelen en catalogiseren. Dit steunt op een paar belangrijke principes:
- Elke publicatie krijgt zijn eigen identifier.
- Een nieuwe druk (versie) krijgt zijn eigen identifier.
- Elke update (erratum, addendum, corrigendum) krijgt zijn eigen identifier.
- Elke update verwijst naar waarop het van toepassing is.
- Een publicatie of update wijzigt nooit (beide zijn publicaties).
Hierin vallen een paar dingen op:
- Een publicatie is hier: data én metadata! Die gaan samen. De identifiers zijn dus (ook) van toepassing op de metadata!
- Er is een relatie tussen publicaties: de ene is gebaseerd op de andere.
- Geen enkele publicatie wijzigt; dat zou geschiedvervalsing zijn.
Opeenvolgende gerelateerde publicaties vormen een timeline van unieke en onvervalsbare gebeurtenissen.
Metadata Timeline
Je kunt dit ook doen met metadata. We noemen dat de Metadata Timeline. Hierdoor kan metadata gemakkelijk worden uitgewisseld (online of zelfs met USB-stick). Kopiëren, bewaren en consistentie zijn geen probleem meer.

Hoe die timeline precies werkt en hoe je hem kunt toepassen is het onderwerp voor de volgende blog: deelbare metadata in drie stappen.
Wil je ondertussen meer weten, of heb je ideeën, opmerkingen, suggesties? Neem dan contact op!