Een mooi idee
Het idee is fantastisch: gegevens uit allerlei databases bij elkaar leggen om daarmee een mooie site over Limburg, Vincent van Gogh, de Romeinen of WOII te maken. Het wordt ook volop gedaan. Maar metadata aggregeren kost veel; te veel eigenlijk.
Maar waarom kost het aggregeren van metadata zoveel moeite?
Het selecteren van gegevens die relevant zijn voor jouw doel en hoe die zich tot elkaar verhouden is het belangrijkste. Het datamodel in feite. Bovenop dat datamodel bouw je dan bijvoorbeeld een interessante website. Dát geeft energie, daarvoor doen we het!
Was het maar zo’n feest…
In de praktijk ben je druk met systemen en netwerken, de technische representatie van de data, de protocollen, API’s en het (niet) functioneren daarvan. Er zijn datastromen en aggregatielijnen en ketens. Aan het einde daarvan zitten enorme verzamelputten waarvan de inhoud sterk afhankelijk van het precies functioneren van allerlei processen: een uurwerk, waarvan elk tandwieltje door een ander beheerd wordt.
Één kleine hapering en je kunt weer opnieuw beginnen.
Inmiddels is het consistent houden van de data zo’n groot probleem dat sommigen ervoor kiezen voortdurend de data te hersynchroniseren. Data die niet actief aangeboden wordt, wordt uit de aggregatie gehaald. Zó afhankelijk is het dus al geworden van correct functioneren van de keten. Stel je eens een bibliotheek voor die boeken van niet langer bestaande uitgevers verwijdert… ondenkbaar, maar met metadata doen we het wel.
Dan maar federated search 4.0?
Anderen besluiten om de data helemaal niet meer op te halen en elke (zoek-) vraag door te zetten naar alle bronnen. Daarmee maak je niet alleen de data, maar zelfs je hele website afhankelijk van het functioneren van de keten(s). Want aan het begin van die ketens zitten collectiebeheersystemen die daarvoor helemaal niet bedoeld zijn qua beschikbaarheid en performance.
Maar wat te doen met al die 1001 ideeën
Ondertussen staat iedereen te trappelen om leuke dingen mee te doen met geïntegreerde data. Dat wordt allemaal serieus vertraagt doordat we zo afhankelijk zijn van die aggregatielijnen, en daarmee van technici en van grote projecten en van (zeer) draagkrachtige partijen om ze uit te voeren.
Het moet radicaal anders!
Terug naar de bron
We moeten terug naar de bron, de data! Onze kostbare tijd en aandacht moet gaan naar de data en de relaties. Niet naar systemen, protocollen, netwerken en dergelijke.
Hoe dan?
We moeten de oplossing niet zoeken in de processen maar in de data. Data betrouwbaar en consistent aggregeren (wij spreken liever van integreren) begint bij een andere manier van aanbieden, gericht op decentrale verwerking.
Als je dat doet dan blijkt dat de processen er opeens niet zoveel meer toe doen; een wekelijkse upload naar DropBox is dan net zo goed als semi-real-time synchronisatie of online publishing. Het eist niet meer alle aandacht op: kies maar een manier die je uitkomt.
Als we systematisch gaan kijken naar wat het betekent om data zo aan te bieden dat het geschikt is voor decentrale verwerking levert dat verrassende inzichten op. Zo is bijvoorbeeld het online publiceren als Linked Open Data (LOD) een doel wat je pas kunt bereiken als de basis op orde is.
Opeens is alles mogelijk
Met een fatsoenlijke manier om te aggregeren (integreren), die niet alle tijd en aandacht kost en zorgt dat je data consistent blijft hou je tijd over die 1001 ideeën.
Een volgend artikel gaat over waar het probleem precies zit. Wil je op de hoogte blijven en een notificatie krijgen als deze verschijnt, abonneer je dan op deze blog.
Wordt vervolgd op Het probleem met metadata-aggregatie.
Liever interactief van gedachten wisselen?