Handwritten Text Recognition (HTR)

Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het VeleHanden/Transkribus project Crowd Leert Computer Lezen (2018-2023) maakten vrijwilligers bijna 40.000 transcripties van zeventiende en achttiende-eeuwse notariële akten, om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften.
Na deze fase is de aandacht verlegd naar het verbeteren van modellen, zodat ook documenten uit andere perioden gelezen kunnen worden - en op het trainen van een hybride model dat tegelijkertijd gedrukt, getypt en handgeschreven karakters aankan. Tegelijkertijd is gefocust op herkenning van de lay-out, zoals een tabelstructuur (bij Indicateurs Publieke Werken) of meerdere akten op één pagina (bij de Burgerlijke Stand).

Uitdaging

De automatische tekstherkenning van de oudere notariële archieven is een bijzondere prestatie, omdat er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten is in elk geval basiskennis van paleografie nodig om de letters te kunnen ontcijferen. Het taalgebruik wijkt ook af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging, gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen.
De staat van de gescande documenten zelf maakt het nog ingewikkelder: denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge. Bij Publieke Werken schreven de gemeenteambtenaren graag buiten de lijntjes van de tabellen.

HTR ≠ perfectie

De HTR bevat de kleine set door mensen gecorrigeerde transcripties én de computergelezen transcripties. HTR is nooit helemaal foutloos. In de praktijk is het, zeker bij veel verschillende handschriften in één bron, lastig onder de 5% CER (Character Error Rate) te komen. Dat betekent dat dan 95% van de karakters wél goed wordt gelezen. Let op dat dit voor sommige bladzijden veel lager kan uitvallen door de bovenstaande uitdagingen, vreemde talen of heel afwijkende handschriften die in de trainingsset relatief weinig voorkwamen. Daarbij is de HTR altijd een momentopname: vanwege de razendsnelle ontwikkeling van AI-technieken is HTR van enkele jaren geleden meestal van mindere kwaliteit dan de meest recente.

De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.

Overzicht beschikbare HTR

Bijgewerkt: november 2023

Notarieel Archief (doorzoek transcripties)

5075: Archief van de Amsterdamse Notarissen. De scans met HTR van de notariële akten zijn het resultaat van het VeleHanden/Transkribus-project Crowd Leert Computer Lezen. Download hier het overzicht per inventarisnummer.

Publieke Werken (doorzoek transcripties)

De indicateurs van 5180 Archief van de Secretarie; Afdeling Publieke Werken, inventarisnummers 10739-10935. Zie voor meer informatie ook onze blog.

De Dienst Publieke Werken was verantwoordelijk voor aanbestedingen, realisatie en onderhoud van allerlei bouwwerken, sloop en uitbreiding, openbare gebouwen en voorzieningen, lozingen, riolering en elektra, havens, bruggen en kades, beplanting, vergunningen, verhuur en erfpacht. Maar ook personeelszaken en voorstellen en klachten van particulieren over de openbare ruimte of hun buren zijn er te vinden. De indicateurs zitten daarom vol namen van organisaties, adressen, perceelnummers en Amsterdamse burgers.

Als HTR doorzoekbaar: 78.843 scans die via het jaartal en verwijsnummer in de eerste kolom doorverwijzen naar 10.738 bundels met correspondentie.

Burgerlijke Stand (doorzoek transcripties)

Akten van de Burgerlijke Stand, Archief 5009: 754.522 scans.

Geboorten 1811-1921
Huwelijken 1811-1946
Overlijden 1811-1971

De kwaliteit van de transcripties wisselt sterk. Let op dat altijd een pagina met meerdere akten wordt doorzocht en delen van een gezochte naam dus niet altijd uit één akte komen. Met filters op jaar kunnen de zoekresultaten verkleind worden.

Simon Hart (doorzoek transcripties)

Archief 30452, Archief van S. Hart: (gedeeltelijke) toegang op de notariële archieven. Indexkaarten met geografische trefwoorden, inv.nrs. 351-377. 53.573 scans.

Hierin vooral samenvattingen met verwijzingen naar 17e en 18e eeuwse notariële akten betreffende Nieuw Nederland/Nieuw Amsterdam, West-Indië en Suriname. Een deel van deze akten is vanwege de slechte materiële staat niet in origineel te raadplegen of te digitaliseren.

Middeleeuwse Archieven (doorzoek transcripties)

De collectie bevat Ground Truth (door mensen gevalideerde transcripties) van documenten uit onder meer 342: Archief van de Gasthuizen en 5054: charters van de IJzeren Kapel, en computergelezen transcripties van andere gedigitaliseerde middeleeuwse bronnen. In de loop van 2026 worden nog documenten uit de gedigitaliseerde middeleeuwse collectie toegevoegd. Zie ook Middeleeuwse Amsterdamse bronnen en verhalen | Stadsarchief Amsterdam.

Classis Amsterdam (doorzoek transcripties)

Classis 1572-1810 (archief 379, inv.nrs. 1-249). De transcripties zijn verkregen van het GLOBALISE project van het KNAW Humanities Cluster en gegenereerd met het GLOBALISE Loghi model (maart 2024).

OCR

Daarnaast zijn de volgende gedrukte bronnen door middel van Optical Character Recognition (OCR) via Transkribus doorzoekbaar:

Gemeenteblad 1851-2013. De OCR is vervaardigd door Karmac in 2023.
Adresboeken 1821-1940. De OCR is vervaardigd door GMS in 2019.
Amstelodamum De maand- en jaarboeken van het Genootschap Amstelodamum, 1963-2017. De OCR is vervaardigd in 2019.

HTR van Amsterdamse bronnen elders

Confessieboeken 1534-1811 via HTR Hub

Handwritten Text Recognition (HTR)

Uitdaging

HTR ≠ perfectie

Overzicht beschikbare HTR

Gebruiksvoorwaarden

Cookies . .