13. Synchronisatie van Anet-AAT met Getty-AAT

13.1. Situering

De Anet-AAT (authority type AAT) in Brocade combineert de officiële Getty thesaurus van de Art & Architecture Thesaurus (AAT) met een aantal eigen Anet concepten, die als zwevende concepten worden opgenomen, zonder relaties met andere concepten.

De officiële thesaurus is een levende thesaurus: concepten en termen worden toegevoegd of geschrapt of gemerged, scopenotes worden toegevoegd of aangepast, relaties worden gewijzigd, enz. Om aansluiting te blijven hebben met die officiële thesaurus, dienen de Brocade concepten en termen synchroon te blijven met Getty.

13.2. Uitdagingen

Dergelijke synchronisatie stelt een aantal uitdagingen aan Brocade en Anet:

  • De Getty thesaurus wordt frequent geactualiseerd. Is het mogelijk om zoveel mogelijk synchroon te lopen, zonder al te zware conversie-inspanningen?
  • Kunnen we er van op aan dat Getty hetzelfde bestandsformaat blijft behouden zodat onze importprocedures kunnen aangehouden worden?
  • De officiële Getty concepten worden soms aangevuld met eigen termen (vertalingen, bv.), scopenotes, enz. Hoe kunnen we er voor zorgen dat de zelf toegevoegde informatie verdwijnt als ze overbodig wordt, of essentiële gegevens behouden blijven bij een synchronisatie?
  • Indien records in Getty worden gemerged of geschrapt, dan zullen die termen in Brocade niet onmiddellijk verdwijnen. Hoe kunnen we processen voorzien om de nodige consolidaties te voorzien, of geschrapte Getty concepten op te sporen?
  • Wat is de invloed van de wijzigingen in de officiële Getty-AAT op de catalografische beschrijvingen in Brocade, waarin die termen gebruikt worden? Hoe kunnen we er voor zorgen dat de catalografische databank synchroon blijft lopen met de wijzigingen in de (authority) thesaurus?
  • Als er in de officiële Getty-thesaurus concepten (of termen) worden toegevoegd waarvoor ook al eigen Anet-AAT concepten (of termen) bestaan, hoe kunnen we die dan (opsporen en) eventueel consolideren?

13.3. Synchronisatie-issues toegelicht

Onderstaan hoofdstuk geeft een antwoord op bovenstaande vragen, of verdiept de vragen, zodat duidelijker wordt wat de complexiteit is.

13.3.1. Tijdstip van synchronisatie

Getty stelt op regelmatige tijdstippen updates beschikbaar van de AAT-data via Art & Architecture Thesaurus® Online. Daarnaast wordt eenmaal per jaar een volledig AAT-bestand gepubliceerd, dat alle wijzigingen bevat van het afgelopen jaar.

Aangezien een volledige synchronisatie een redelijk complex proces is, is het voor Anet praktisch onmogelijk om dergelijke operatie meermaals per jaar uit te voeren (als er al een volledig xml-bestand voorhanden zou zijn). Er is dan ook voor gekozen om de update jaarlijks uit te voeren.

Naast het globale bestand biedt Getty echter ook een webservice aan, waarmee ad hoc termen kunnen overgehaald worden.

In Brocade kan die webservice vanaf release 4.10 worden aangesproken als een zgn. Centaur target in het formulier voor een authority record. Op basis van een bestaand Getty concept-id kunnen concepten worden geïmporteerd die in Brocade nog niet bestaan (met al hun termen en de scopenote), en ze kunnen worden gerelateerd aan al in Brocade aanwezige AAT-concepten. Verdubbeling van al bestaande concepten is in deze import onmogelijk. Indien men een concept zou willen importeren dat al in Brocade gekend is, keert het authorityformulier terug met het bestaande Brocade record.

Waarschuwing

De importmogelijkheid via Centaur is alleen beschikbaar voor Brocade gebruikers die toegangsrechten hebben om AAT-termen te kunnen aanmaken. Die toegang wordt geregeld via toegangssloten.

Op die manier is het dus mogelijk om, tussen twee jaarlijkse updates in, nieuwe termen te importeren die nodig zijn voor het beschrijven van publicaties.

Bij de jaarlijkse synchronisatie worden die nieuwe concepten eveneens gesynchroniseerd en (indien dat nog niet gebeurd is) volledig ingebed in de hiërarchie.

13.3.2. Dataformaat

De eerste import in Brocade van de Getty thesaurus is gebeurd op basis van een (betaalde) licentie voor een xml-bestand. Ondertussen stelt Getty de data ook ter beschikking als linked open data (LOD) - maar in een ander dataformaat. De jaarlijkse updates zullen nog voor onbepaalde tijd in xml ter beschikking worden gesteld. Maar Getty heeft ons al enkele malen te kennen gegeven dat we beter zouden overstappen op het LOD formaat, omdat het xml-formaat mogelijk op termijn verdwijnt.

Voorlopig echter blijft de import gebaseerd op het xml formaat, omdat we anders opnieuw staan voor een tijdrovende conversie-operatie. Getty heeft zijn klanten beloofd om tijdig te informeren als het xml-formaat zou verdwijnen; op dat ogenblik dient Anet een nieuwe conversieslag in te plannen.

Ook de webservice, die we gebruiken om concepten “on te fly” te importeren, blijft onze aandacht houden. Dat formaat is zo goed als gelijk aan dat van het xml-bestand, maar is minder stabiel, en wordt soms, op vraag van klanten, aangepast. We zullen dus evengoed moeten zorgen dat onze importprocedures via Centaur niet verstoord worden.

13.3.3. De synchronisatie-operatie

Bij de synchronisatie van Brocade met de officiële Getty thesaurus wordt volgende procedure gevolgd:

  • Nog niet gekende concepten worden als nieuwe authority records aangemaakt, met de nodige relaties en scopenotes.

  • Alle records in het Getty bestand bevatten de volledige historiek van wijzigingen. De wijzigingen worden aangeduid met zgn. action-tags:

    • created: aanmaak van het record
    • added: toevoeging van een term, een relatie of een scopenote
    • updated: een niet gespecificeerde update
    • published: in het xml-bestand opgenomen
    • moved: verplaatst in de AAT-hiërarchie
    • deleted: term verwijderd
    • parent added: een ouder toegevoegd aan het concept
    • merged: samengevoegd met een ander concept
    • noncandidate: een kandidaatterm (bij Getty) die “bevorderd” wordt tot een officiële term
  • Bij de al bestaande concepten wordt gekeken naar de datum van de laatste wijziging in Getty. Ligt die na de datum van de vorige synchronisatie, dan dient het record te worden aangepast (voor de update 2015: na 26/02/2013. Voor de update van 2016: na 09/02/2015). Niet gewijzigde concepten blijven in Brocade dus ongemoeid.

  • Bij de gewijzigde concepten wordt alle informatie die niet van Getty afkomstig is (vertaalde hoofdvormen, verwijzingstermen, scopenotes), opzij gezet. De authority records worden dan volledig opnieuw opgebouwd, met de actuele termen, relaties, scopenotes, enz. Dan wordt de eigen Anet informatie vergeleken met die van Getty, en selectief teruggezet.

  • Selectief terugzetten betekent: de informatie van Getty wordt vergeleken met die van Anet. Scopenotes van Anet zijn per definitie altijd verschillend van die van Getty, omdat het om interne informatie gaat, en die wordt teruggezet. Toegevoegde termen worden effectief vergeleken. Indien Anet een nieuwe Nederlandse hoofdvorm had toegevoegd (omdat die in Getty nog niet beschikbaar was) en Getty heeft die ondertussen vertaald, en indien die termen identiek zijn, dan wordt de Anet term geschrapt. Indien ze niet identiek zijn, dan wordt de Anet term een verwijzingsterm (type synoniem). Indien een Anet verwijzingsterm identiek is aan een nieuwe Getty verwijzingsterm, dan verdwijnt die van Anet. Indien echter de term echter nog niet door Getty vertaald is, dient de Anet vertaling behouden te blijven.

Op die manier blijven de essentiële eigen Anet data behouden, en wordt tegelijkertijd verdubbeling van termen vermeden.

13.3.4. Geschrapt, gemerged?

Uit de Getty thesaurus kunnen er op twee manieren records verdwijnen:

  • omdat ze gemerged worden, een slave record naar een master record. Het slave record komt niet meer voor in de Getty data.
  • omdat Getty ze niet langer als valabele termen beschouwt. Ze komen niet meer voor in het Getty bestand.

Voor beide situaties worden in Brocade na de synchronisatie aparte lijsten geproduceerd. Bovendien krijgen die records een aangepast lidmaatschap:

  • AATDEL voor records door Getty geschrapt.
  • AATMERGE voor records die als slave gemerged werden met andere records.

Op basis daarvan kunnen operaties in naverwerking worden opgezet:

  • Gemergede records dienen te worden geconsolideerd met hun master record. Dat kan, eenvoudiger, door te werken met een vertaaltabel die in de catalografische records de slave records omzet naar de master records, of eventueel door een groepsbewerking (toevoegen van onderwerpstermen; schrappen van onderwerpstermen). De slave records worden nadien op basis van een lijst geschrapt. Deze operatie wordt uitgevoerd door Anet.
  • Over de geschrapte records dient de werkgroep AAT zich te buigen. Worden ze behouden als eigen Anet-AAT termen? In dat geval dienen ze te worden aangepast: schrappen van het lidmaatschap AAT, schrappen van de relaties, van de scopenote, enz. Of worden ze ook als authority record in Brocade geschrapt? En welke impact heeft dat op de catalografische records waarin ze gebruikt worden?
  • Er moet bovendien rekening mee gehouden worden dat records die niet meer in het xml-bestand voorkomen, toch nog aanwezig zijn in de Getty-thesaurus. Die zijn dus niet geschrapt en dienen ook in Brocade behouden te blijven. Het xml-bestand bevat blijkbaar af en toe fouten (en dat is bevestigd door Getty zelf), die dienen gecontroleerd te worden. Als de schrapping niet correct is, wordt lidmaatschap AATDEL vervangen door lidmaatschap AATCARE. Eventueel kan commentaar daarover worden opgenomen in een interne scopenote bij de aloi. Door het extra lidmaatschap is het mogelijk om deze records zo lang als nodig onder toezicht te plaatsen.
  • Ook moet er rekening mee gehouden worden dat er via Centaur concepten kunnen overgehaald worden uit de Getty thesaurus online, die nog niet voorkomen in het xml-bestand voor synchronisatie. Bij de synchronisatie zullen die ook als “geschrapt” worden aangeduid (lidmaatschap AATDEL), omdat het gaat om concepten die wel in Brocade voorkomen maar niet in het xml-bestand. Ze zijn herkenbaar door de Brocade login van de gebruiker die het record overhaalde, en dienen daarom niet extra gemarkeerd te worden.
  • Op de downloadpagina van Getty staat een spreadsheet die de wijzigingen bevat, in vergelijking met de vorige update (Changesspreadsheet). Die bevat een overzicht van de Getty-id’s van de nieuwe, geschrapte, aangepaste en gemergede concepten.

13.3.5. Invloed op de catalogafische records

Sommige operaties op de Anet-AAT kunnen impact hebben op de catalografische records.

  • Het aanpassen van relaties tussen termen kan gevolgen hebben voor de zoekresultaten (op basis van de bredere termen).
  • Het vervangen van de gemergede records wijzigt niet automatisch de indexingangen voor de OPAC’s.

Bij de verschillende operaties dienen de records, waarin Anet-AAT gebruikt wordt, geherindexeerd te worden via een manueel proces. Dat is een operatie die door Anet wordt uitgevoerd.

13.3.6. Officiële termen/concepten versus eigen termen/concepten

De moeilijkste oefening is te detecteren of de eigen Anet-AAT concepten en termen overbodig worden door het toevoegen van nieuwe concepten/termen in de officiële thesaurus. Want die nieuwe concepten zouden kunnen zorgen voor een verwarrende verdubbeling van onderwerpstermen.

Dergelijke verdubbeling kan op verschillende plaatsen voorkomen:

  • Nieuwe concepten van Getty, waarvoor al een (zo goed als) identiek eigen Anet concept bestaat.
  • Nieuwe termen van Getty bij een concept x, waarvoor ook al identieke eigen termen bestaan in een concept y.

De eerste situatie is zeker een complex gegeven, omdat het geen betrekking heeft op termen, maar op concepten. Termen kunnen immers vergeleken worden op basis van de gelijkenis in karakters/letters. Maar bij concepten gaat het om inhoudelijke begrippen die tot verschillende termen kunnen leiden, afhankelijk van de taal en de invalshoek. Bovendien zullen ze in Getty, in eerste instantie, misschien alleen in het Engels voorkomen, terwijl de eigen Anet-AAT termen in het Nederlands zijn opgesteld.

De vraag is ook of het haalbaar is om in de termijn van een jaar al de mogelijke verdubbelingen te remediëren. In de afgelopen jaren is gebleken dat er jaarlijks 1.000 of meer nieuwe concepten worden toegevoegd door Getty.

13.3.7. Overzicht van procedures, uit te voeren na elke synchronisatie

Actie Basislijst Initiatief? Stappen
geschrapte records lidm. AATDEL Karen kan ook gaan om ten onrechte geschrapt, of aangemaakt door Anet na xml-bestand van Getty. Correct geschrapt? Beslissing door werkgroep Niet correct? Schrap lm AATDEL en voeg toe lm AATCARE
gemergede records lidm. AATMERGE Karen vervang slave door master in catalografische records en schrap slaves
ten onrechte geschrapt lidm. AATCARE Karen nakijken: nog altijd ten onrechte geschrapt: schrap lm AATDEL en behoud lm AATCARE correct geschrapt? Beslissing door werkgroep
termcorrecties lidm. AATCORR Karen nakijken (moet gebeuren na upload op legato en voor upload op moto): aanpassing correct in sync: schrap lidm. AATCORR aanpassing niet correct: behoud lm AATCORR ; feedback Getty/RKD
scopenotes scope status ‘aatcheck’ Karen nakijken: aanpassing correct in sync: schrap scopenote status aanpassing niet correct: behoud scopenote ; feedback Getty/RKD