1. Een digitaal platform voor Brocade: technische documentatie

1.1. Inleiding

Deze tekst documenteert de werking en functionaliteiten van het nieuwe digitaal platform in Brocade. Een digitaal platform is het gezamenlijk inzetten van hardware, software en procedures om analoge materialen om te zetten in digitaal materiaal.

Het oude digitaal platform voldeed aan 90 % van de noden van onze gebruikers maar had toch een aantal tekortkomingen. Zo was het enkel gericht op catalografische objecten (o-lois) terwijl met de introductie van de archief- en objectenmodules in Brocade de nood deed ontstaan om ook deze objecten (tg-lois) te digitaliseren. Verder bleek dat het invoeren van scans te foutgevoelig was en het corrigeren van fouten te moeilijk. Door de ervaringen, opgedaan bij het vorige digitaal platform, kunnen we met nieuwe software de kans op fouten sterk doen dalen. En een occasionele fout rechtzetten kan vanaf heden gemakkelijk door de gebruiker zelf gedaan worden.

De nieuwe opzet wil dus zeker deze problemen remediëren maar tegelijkertijd willen we via het nieuwe digitaal platform een aantal zaken verbeteren en nieuwe mogelijkheden aanbieden. Hieronder een overzicht:

  • een uiterst snelle verwerking van scanbundels (creatie van afgeleide afbeeldingen en bundels)
  • de gebruiker kan zelf bepalen welke afgeleide afbeeldingen gecreëerd worden en zelf van elke afgeleide een aantal eigenschappen (dimensies, posities, etc..) vastleggen
  • toepassen van OCR op beeldmateriaal (in diverse talen, en mits training ook op handschriften). Vind meer info over OCR via deze link
  • het automatisch aanbrengen van een watermerk in een afbeelding. Hierbij kan zelf beslist worden over de positie en de helderheid van het watermerk
  • een gebruiksvriendelijke manier om de originele bestanden te transfereren naar een lokale folder
  • de mogelijkheid om te annoteren op het niveau van gehele digitalisering alsook op het niveau van een individuele scan
  • labelen van een digitalisering (context waarin gedigitaliseerd werd)
  • de kwaliteitscontrole van de gehele digitalisering kan gebeuren in Brocade
  • de gebruiker kan zelf bepalen welke scan van een digitalisering kan dienen een illustratie ter hoogte van de volledige beschrijving
  • het automatisch uitsturen van communicatie bij finaliseren van digitaliseringen (RSS-feeds of e-mails)
  • automatische aanmaak van scanbriefjes voor nieuwe scanopdrachten

1.2. Het scanproces

In grote lijnen kunnen we de volgende chronologische fasen onderscheiden:

  1. voorbereidend werk
  2. het aanmaken van de afbeeldingen
  3. het transport van de afbeeldingen naar een verwerk-omgeving
  4. het groeperen en verplaatsen van de afbeeldingen (indien nodig)
  5. het verwerken van de afbeeldingen
  6. het toekennen van meta informatie

Hieronder wordt per fase een woordje uitleg gegeven.

1.2.1. Voorbereidend werk

Uitprinten van een scanopdracht (Interne code: mt:up:digprintwork)

Deze toepassing laat toe om een aantal scan opdrachten op paper te zetten.

De basis is een lijst met beschrijvingen. Deze beschrijvingen kunnen zowel archiefobjecten als boekexemplaren zijn. Er wordt meteen ook aangestipt met welke scanner de digitalisering wordt uitgevoerd. Deze scanner moet wel zodanig zijn geparametriseerd dat dit soort object kan worden verwerkt.

Resultaat van dit proces is een html-pagina die afgedrukt kan worden. De papiertjes, die aan het in te scannen materiaal worden toegevoegd, geven aan wat benaming moet zijn van de scanopdracht (zie Label).

Parameters

Scanner (Interne code: mt:pup:digscanner)
Toont een lijst met de scanners die tot uw beschikking staan
Bronlijst (Interne code: mt:pup:lstsource)

Deze lijst bevat de nodes (beschrijvingen) die worden behandeld.

Deze lijst moet op voorhand worden gecreëerd.

Resultaat

Bestand (Interne code: mt:presult:docman)

Het resultaat is een docman identifier.

Technisch betekent dit:

  • CAresult(“docman”) bevat de docman identifier.
  • Optioneel: CAresult(“title”) bevat een lgcode (default: metaPresult.cgdocman)

1.2.2. Aanmaken van de afbeeldingen

Dit is een menselijke activiteit. Het resultaat van deze fase is een aantal afbeeldingen die tot stand komt door scanning of fotografie. Dit geheel manifesteert zich als een collectie bestandsnamen (TIFF of JPEG) in een directory van een computer. Elk bestand in deze directory behoort tot de afzonderlijke digitalisering.

De namen van de bestanden moeten bestaan uit elementen [a-zA-Z0-9_] en een extensie ‘.tif’, ‘.jpg’.

Deze bestanden worden impliciet gesorteerd op basis van het gedeelte van de naam dat voor de extensie staat.

Het sorteringsalgoritme is als volgt:

  • hoofdletters en kleine letters hebben geen invloed op de sorteervolgorde.
  • de namen worden gesplitst op het _ karakter. Gedeelten voor een _ heten prefixen
  • namen met eenzelfde prefix volgen op elkaar
  • de afbeeldingen worden gesorteerd in oplopende volgorde

Een voorbeeld:

dsc00002.jpg
DSC00002_01_05.jpg
DSC00003.JPG
DSC00001.JPG
DSC000013.JPG
DSC00002_01.JPG
DSC00002_01_01.jpg

Wordt als volgt gesorteerd:

DSC00001.JPG
DSC000013.JPG
dsc00002.jpg
DSC00002_01.JPG
DSC00002_01_01.jpg
DSC00002_01_05.jpg
DSC00003.JPG

Het is typisch voor deze fase dat dit een lokaal gebeuren is. Een scan omgeving wordt gekarakteriseerd door een basis directory in het lokale file systeem. Per bundel wordt in deze basis directory een nieuwe directory aangemaakt die uiteindelijk ook de verschillende afbeeldingen zal bevatten.

De naam van deze directory wordt het beste goed gekozen: de software van het digitaal platform bevat faciliteiten om deze naam om te vormen naar de bewuste record uit het bibliotheeksysteem (o-loi of tg-loi)

1.2.3. Het transport van de afbeeldingen

De bundels staan lokaal opgeslagen op een zogenaamd scan station. Ze kunnen pas binnen Brocade worden verwerkt indien de bestanden ook worden getransporteerd van dit scan station naar de Brocade omgeving (server). Dit transporteren verloopt vanzelfsprekend over het Internet. Brocade verwacht de bundels te vinden in een folder in de WebDAV omgeving.

Er zijn 2 mogelijke technieken: de eerste techniek maakt gebruik van het WebDAV protocol, de tweede techniek maakt gebruik van het SSH protocol.

1.2.3.1. WebDAV: digidav.exe

`digidav.exe`: zie Brocade ‣ Software archief [link]

Deze opzet vereist dat een personeelslid het transport initialiseert. Dit gebeurt nadat een scan moment is afgesloten: met andere woorden wanneer alle bundels compleet zijn.

De bibliotheekmedewerker start op dat ogenblik op het toestel - waar de scans zich op bevinden - een software. Dit kan heel makkelijk via een snelkoppeling op de desktop van de lokale PC.

Hetgeen de software doet is het volgende:

  • het markeert de bundels als afgewerkt (via de creatie van een CSV bestand),
  • transporteert de bundels naar een folder op WebDAV,
  • verplaatst de originele bestanden naar een backup folder.

Volgende parameters worden meegegeven met de instructie:

csvfile
Geef de naam van het csv bestand dat een bundel karakteriseert als afgewerkt
backup
Geef het pad in van de folder naar waar de bestanden na transport verschoven moeten worden
age
Geef hier aan hoe oud de bestanden minimaal dienen te zijn voor transport (uitgedrukt in seconden). Via deze parameter kan vermeden worden dat bundels niet getransporteerd worden op het ogenblik dat nog scans worden genomen
username
Uw Brocade UserID
password
Uw Brocade paswoord
method
Vul hier het webdav commando in. Is standaard “put”
recurse
true (= default; hier geef je de toestemming om te gaan zoeken in de subfolders van de source)
source
Geef het pad in van de folder waarin moet gezocht worden. Leeg = zoek in de folder waarin registry.edn staat
id
Geef hier een identifier in de aangeeft waar de bestanden vandaan komen. Wanneer leeg wordt de naam van het lokale werkstation gekozen.
uri
Geef hier het webdav path naar dewelke de bundels dienen getransporteerd te worden. Let hierbij op dat de images terecht komen in een subfolder van dit pad genaamd “images”. Vb. “https://dev.anet.ua.ac.be/webdav/digiplat/uacst2/images
pattern
Geef aan elke bestanden getransporteerd dienen te worden vb. *.tif

Bij een eerste transport dienen deze parameters 1 voor 1 ingevuld te worden.
Zie commando: digidav.exe --config

Resultaat van deze actie is een configuratiebestand registry.edn dat aangesproken wordt bij volgende transporten.
Door ter hoogte van de snelkoppeling vervolgens te verwijzen naar de folder waarin moet gezocht worden naar afgewerkte bundels, kan het transport steeds geïnitialiseerd worden via de snelkoppeling.

Notitie

Het transporteren van de bestanden kan verscheidene uren duren (de scans kunnen omvangrijk zijn: een afbeelding van 50 Mbyte is geen uitzondering en een boek zelf kan verschillende honderden pagina’s bevatten). Tot zolang de transfer bezig is, mag het toestel niet worden uitgezet. Het is aan te raden, na elke scan, deze procedure op te starten. Hou er ook mee rekening dat de Brocade server ‘s nachts niet operationeel kan zijn.

1.2.3.2. Webdav: SSH

Zie commando: digiplat -transfer

Werken met het SSH wordt geïnitialiseerd door Brocade zelf. Daartoe moet het toestel waarop de scan bundels worden aangemaakt, worden uitgerust als een SSH server. Het voordeel van deze operatie is dat het transport geruisloos verloopt. Het nadeel is echter dat het geruime tijd kan duren vooraleer de bestanden zijn verwerkt. Ook met deze techniek is er een moment dat er moet beslist worden dat een scan bundel compleet is.

De SSH techniek is de geprefereerde oplossing maar het stelt wel eisen aan het toestel waarop de scan bundels zich bevinden:

  • het moet steeds aan staan
  • het moet adresseerbaar zijn over het Internet heen (geen class A address)
  • het moet toegang toelaten van de Brocade server (denk aan firewall settings)

Brocade stelt software ter beschikking die dit proces kan uitvoeren.

Notitie

Bij het karakteriseren als afgewerkt wordt een bestand geplaatst met de naam scan.csv in dezelfde directory. In dit bestand staan 3 kolommen (gescheiden door een ‘;’). De eerste kolom bevat het aantal bytes van de bestanden, de tweede kolom bevat de naam van de bestanden, de derde kolom is het id van het scan station. Dit bestand is meteen een signaal voor de software dat de bundel klaar staat om getransporteerd te worden.

Met elk scan station wordt een webdav path geassocieerd. Dit webdav path wordt opgezet in de Brocade software die voor het transport zorgt.

Bij het begin van het transport krijgt het bestand scan.csv de naam transport.csv. Op het einde van een geslaagd transport (na het vergelijken van de bestandsgrootte), krijgt het bestand de naam final.csv. Desgewenst kan de directory met de scan bundel worden opgeruimd.

Nog op het einde van de transport fase wordt in de WebDAV omgeving het getransporteerde bestand transport.csv de naam convert.csv gegeven.

Alle afbeeldingen die behoren bij een zelfde werk (o-loi of tg-loi) komen in dezelfde directory terecht, samen met convert.csv

1.2.4. Het groeperen en verplaatsen van de afbeeldingen

Zie commando: digiplat -shuffle_folders

Afbeeldingen (gemaakt vanuit hetzelfde of verschillende scan stations) kunnen toch een eigen verwerking vereisen. Daarom wordt (indien nodig) een preselectie gemaakt op basis van patronen (in de naam van de scanopdracht = in de naam van de Webdav folder) vooraleer deze afbeeldingen kunnen verwerkt worden. Op deze manier komen afbeeldingen automatisch terecht in de juiste Webdav folder (die bepaalt welke afgeleiden worden aangemaakt en waar het geheel wordt opgeslagen )

In Brocade ‣ Digitaal platform - Beheersfuncties ‣ Upload omgevingen [link] worden python patronen gedefinieerd met daaraan gekoppeld de definitieve WebDAV folder als eindbestemming. Anders gezegd, voldoet een WebDAV folder aan dit patroon, dan wordt deze folder verplaatst naar zijn definitieve bestemming in WebDAV.

1.2.5. Het verwerken van de afbeeldingen

Zie commando: digiplat -process_folders

Zie commando: digiplat -images

Dit is het werk van software binnen Brocade en bestaat uit verschillende fasen. Brocade beheert een collectie van webdav paths die worden voorbehouden als tussentijdse opslag voor scan bundels. De afbeeldingen komen in de webdav omgeving terecht door middel van de hoger vernoemde transporttechnieken.

Elke webdav path komt met meta informatie. Deze meta informatie bevat een aantal gegevens die worden gebruikt bij het verwerken van de afbeeldingen:

  • formaat van de afbeeldingen
  • grootte van de thumbnails
  • grootte van het gereduceerd formaat
  • aantal afbeeldingen in een ODF, PDF, ZIP
  • geassocieerde docman databank

De verschillende fasen van het conversie proces:

  1. Opslag in docman en wegschrijven van de docman identificatie in de derde kolom van docman.csv. De SHA-256 hash komt in de vierde kolom.
  2. Constructie van het gereduceerde formaat en wegschrijven van de docman identificatie in de vijfde kolom
  3. Constructie van het thumbnail formaat en wegschrijven van de docman identificatie in de zesde kolom
  4. Aanmaak van de diverse ZIP, PDF en ODF files en opslag van hun docman id in een bestand docman.csv
  5. Opladen van docman.csv in M
  6. Schrappen van de directory in het webdav path

Start verwerking: Een automatisch proces gebruikt deze informatie om de scan bundel passend te transformeren. Deze conversie begint met het opzoeken van alle directories waarin het bestand convert.csv staat. Bij de aanvang van de transformatie wordt de naam van dit bestand omgevormd tot docman.csv.

Resultaat verwerking: Bij het verwerken van de afbeeldingen wordt ook een spreadsheet aangemaakt met daarin een technische beschrijving van de afbeeldingen. De eerste rij bevat de legende, de volgende rijen bevatten per afbeelding 1 rij met de corresponderende informatie:

mode

Het type van bestand:

  • thumbnail
  • reduced
  • original
  • zip
  • odf
  • pdf
seq
Volgnummer (startend bij 1). Samen met het type, worden hierdoor de afbeeldingen gesorteerd.
docmanid
De identifier van de afbeelding in het Docman repository.
url
url is een absolute-path reference.
size
Grootte van het bestand uitgedrukt in aantal bytes.
md5
MD5 secure hash In hex formaat
sha256
SHA-256 secure hash In hex formaat

1.2.6. Toekennen van meta informatie aan de digitalisering

Met meta informatie wordt hier NIET bedoeld de gegevens ingevoerd bij het beschrijven van de diverse titels. Het gaat hier WEL om de gegevens die onderdeel vormen van de digitalisering (zoals bijvoorbeeld een beschrijving van de gebruiksrechten van het digitaal materiaal).

Dit is werk voor het personeel: Aan de geautoriseerde personeelsleden worden via Systeembeheer ‣ Gebruikersbeheer ‣ bg [link] één of meerdere scan stations toegekend alsook één of meerdere digitale platformen. Via dit mechanisme krijgt de gebruiker via de toepassing Brocade ‣ Digitaal platform ‣ Verwerken van de klaarstaande scan opdrachten [link] een overzicht van digitaliseringen die hij/zij nog dient te voorzien van meta informatie.

Een eerste instantie dient men de digitalisering te koppelen aan een Brocade object (Loi) en een digitaal platform. Het nieuwe digitaal platform biedt hier een heel aantal mechanismen om fouten te vermijden.

Vervolgens kan men de kwaliteit van de gehele digitalisering controleren. De sectie Thumbnails biedt hiertoe een overzicht aan van de afzonderlijke scans zodat anomalieën snel opgemerkt worden.

Ten slotte kan men aan de hand van verschillende elementen de digitalisering beschrijven. Een kort overzicht:

  • informatie voor personeel : dit veld kan door het personeel gebruikt worden voor interne communicatie. Deze informatie wordt niet getoond in de publieksomgeving.
  • Gebruik labels om informatie over de context waarin gedigitaliseerd werd bij te houden. Voorbeelden kunnen zijn :
    • de digitalisering werd gedaan op aanvraag
    • de digitalisering werd gedaan ten behoeve van wetenschappelijk onderzoek
    • de digitalisering werd gedaan wegens de staat van het werk (beschadigd)
    • ...
  • Gebruik annotaties om interessante informatie over de digitalisering te tonen in de publieksomgeving van het digitaal platform. Deze annotaties zijn mogelijk op niveau van de gehele digitalisering of op niveau van een individuele scan of pagina. Deze annotaties kunnen puur inhoudelijk zijn, maar kunnen ook meer vertellen over de origine van werk of bepaalde stijlkenmerken ervan uitlichten, of ...

Vul een annotatie op paginaniveau aan met een paginatype waardoor een link naar een bepaalde onderdeel van de digitalisering getoond wordt in de publieksomgeving. Op deze manier kan het publiek gemakkelijk naar belangrijke delen van een digitalisering navigeren en krijgt het de aandacht die het verdient.

Door een naam toe te kennen aan een afzonderlijke afbeelding (via een annotatie op pagina niveau) wordt deze scan “getagd”. Op deze manier kunnen bepaalde afbeeldingen gemakkelijk hergebruikt worden in andere toepassingen zoals bijvoorbeeld een virtuele tentoonstelling. De link naar scan heeft de volgende structuur : http://<server>/digital/<opacid>/<digitalid>/<dg-loi[-<naam>]. Wanneer scans uit de digitalisering worden verwijderd heeft dit geen invloed op de bookmark.

Door een vooraf afgesproken naam of code in te geven (ter hoogte van een annotatie op pagina niveau) kan een bepaalde afbeelding gekozen worden die kan dienen als illustratie in de OPAC. Bijvoorbeeld.

  • een thumbnail ter hoogte van een resultatenlijst
  • een afbeelding met lagere resolutie ter hoogte van de volledige beschrijving

1.2.6.1. Statusovergangen

Met het nieuwe digitaal platform wordt ook een nieuw concept geïntroduceerd: de status van een digitalisering. Een digitalisering kan via deze statussen een soort van levensloop krijgen waardoor bepaalde acties/taken in de laatste stap van het digitaliseringsproces door verschillende personeelsleden kunnen gedaan worden. Een mogelijke sequentie van acties zou kunnen zijn :

  1. Linken van een digitalisering aan een Brocade object
  2. Kwaliteitscontrole van de afbeeldingen
  3. Toevoegen van metadata
  4. Kwaliteitscontrole van de beschrijving van de digitalisering
  5. ...

Verder kunnen via statusovergangen andere acties getriggerd worden zoals daar zijn:

  • uitsturen van e-mails
  • uitsturen van RSS feeds
  • verschijnen/verwijderen van dg-lois in/uit lijsten
  • Publiek maken van een digitalisering
  • OCR’en van documenten
  • ...

2. Vragenlijst parametrisatie

Volgende vragenlijst kan de systeembeheerder gebruiken om de noden van de klant te achterhalen en zo een eerste “high level” parametrisering te doen. Meer gedetailleerde parameters kunnen bij een volgend overleg punt per punt aangekaart worden.

  • Transfer originele scans en Aanmaak afgeleide afbeeldingen

    • Welk afbeeldingsformaat zal u gebruiken als origineel? (JPEG en/of TIFF)?
    • Welke objecten (van welke regelwerken/objectensystemen) wilt u digitaliseren? Geef voor elk objectensysteem aan of een scanbundel uit 1 of meerdere scans zal bestaan
    • Hoe dient de transfer van bestanden naar WEBDAV te gebeuren? Via SSH?
    • Dienen bestanden automatisch geschrapt te worden na transfer? (enkel mogelijk bij SSH)
    • Welke afgeleide afbeeldingsformaten moeten aangemaakt worden? Geef per formaat info over de gewenste resolutie en nood aan watermerk. Voor de carrousel is gewenst:
      • thumbnail
      • scaled jpg
      • jpg met de originele dimensies
  • Beschrijving van digitaliseringen

    • Gaat u gebruik maken van labels? Lijst op per project/type object/...
    • Gaat u gebruik maken van annotaties? Lijst op per project/type object/...
    • Gaat u gebruik maken van annotatie op pagina niveau? Lijst op per project/type object/...
    • Gaat u gebruik maken van paginatypes? Lijst op per project/type object/...
    • Wilt u zelf afbeeldingen kunnen selecteren die kunnen dienen als illustratie in de OPAC?
  • Statusovergangen

    • Hoe ziet u het publiceren van een digitalisering praktisch verlopen? (per project/type object dat gedigitaliseerd dient u een korte procedure te voorzien - heel praktisch). Mogelijke taken kunnen zijn:
      • Nakijken kwaliteit afbeeldingen
      • Linken digitalisering met loi
      • Beschrijven van de digitalisering
      • Nakijken kwaliteit beschrijving digitalisering
      • ...
    • Zijn er bepaalde acties gewenst tijdens de verschillende stadia van het publiceren van een digitalisering?
      • uitsturen van e-mails
      • uitsturen van RSS feeds
      • verschijnen/verwijderen van dg-lois in/uit lijsten
      • Publiek maken van een digitalisering
      • OCR’en van documenten
      • ...
  • OPAC

    • Lay-out wordt samen bekeken van zodra parametrisering afgewerkt is.
    • Voorzie een document met gebruiksrechten