Digitalisering binnen het KB-Google project op komst van 100.000 boeken uit de Bijzondere Collecties van de UvA

donderdag 9 oktober 2014 Digitalisering binnen het KB-Google project op komst van 100.000 boeken uit de Bijzondere Collecties van de UvA

De Universiteit van Amsterdam (UvA) gaat, net als de Koninklijke Bibliotheek, medewerking verlenen aan de ambitie van Google om wereldwijd alle rechtenvrije boeken te digitaliseren.
Dit betekent dat er de komende twee jaar nog eens 100.000 boeken in aanmerking komen voor digitalisering, zo meldt een bericht van de UvA.
De KB ging de UvA voor met 230.000 titels. Een samenwerkingsovereenkomst hiertoe is getekend door Bas Savenije (Algemeen Directeur KB) en Louise Gunning-Schepers (voorzitter College van Bestuur UvA/HvA).

Het gaat om vaak eeuwenoude boeken van vóór 1874 uit de Bijzondere Collecties aan de Oude Turfmarkt. 
Bijzondere Collecties beheert internationaal vermaarde verzamelingen op het gebied van boekgeschiedenis, Joodse cultuur, kerkgeschiedenis, cartografie, letterkunde, grafische vormgeving en zoölogie. 
Onder de te digitaliseren boeken bevindt zich een groot aantal unieke titels,

Alle boeken komen gratis online beschikbaar, voor iedereen met een Google-account en uiteindelijk ook via Delpher (Delpher is de gezamenlijke toegang tot Nederlandse digitale boeken, kranten en tijdschriften die de KB en de UvA mét andere partners hebben ingericht).

Google startte haar project ruim tien jaar geleden en heeft nu zo’n 30 miljoen titels online.
De KB streeft er al jaren naar om alle publicaties die in Nederland zijn verschenen digitaal beschikbaar te stellen en zij hoopt door samen te werken met Google het proces belangrijk te versnellen.

Wat de orthografische kwaliteit betreft van de door OCR gescande teksten (OCR= software voor tekstherkenning), houdt men een slag om de arm.
Immers: “Hoe ouder het materiaal, hoe lastiger het wordt voor OCR-software om de tekst goed te herkennen”, vanwege: “oude spelling, met complexe paginaopmaak en lastige lettertypes, met verkleuring van het papier en vervaging van de inkt”.
“Een berucht OCR-probleem”, zo vervolgt deze uitleg op de website van Delpher met een voorbeeld, “vormde lange tijd het oude letterteken ‘ſ ’ dat vaak niet herkend werd als een 's'. Ook ‘ligaturen’ zoals het teken ‘&’ zijn lastig herkenbaar. Het gotische lettertype (…) is voor OCR-software geheel onleesbaar”. (…)
“Vaak moeten de digitaliserende instellingen keuzes maken. Als we veel willen digitaliseren, kan dat niet altijd op een hoog kwaliteitsniveau [cursivering DHK].  Slechte OCR kan met de hand verbeterd worden, maar dat is een zeer arbeidsintensieve kwestie. De KB experimenteert momenteel met ‘crowd sourcing’ om de OCR te verbeteren, maar het zal nog enige tijd duren voordat de vruchten van zulke projecten merkbaar worden in Delpher”. Zo schrijft Delpher dus op haar eigen website.
UvA persbericht 
Delpher website over OCR