Handwritten Text Recognition (HTR)

Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het VeleHanden/Transkribus project Crowd Leert Computer Lezen (2018-2023) maakten vrijwilligers bijna 40.000 transcripties van zeventiende en achttiende-eeuwse notariële akten, om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften.
Na deze fase is de aandacht verlegd naar het verbeteren van modellen, zodat ook documenten uit andere perioden gelezen kunnen worden - en op het trainen van een hybride model dat tegelijkertijd gedrukt, getypt en handgeschreven karakters aankan. Tegelijkertijd is gefocust op herkenning van de lay-out, zoals een tabelstructuur (bij Indicateurs Publieke Werken) of meerdere akten op één pagina (bij de Burgerlijke Stand).

Uitdaging

De automatische tekstherkenning van de oudere notariële archieven is een bijzondere prestatie, omdat er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten is in elk geval basiskennis van paleografie nodig om de letters te kunnen ontcijferen. Het taalgebruik wijkt ook af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging, gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen.
De staat van de gescande documenten zelf maakt het nog ingewikkelder: denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge. Bij Publieke Werken schreven de gemeenteambtenaren graag buiten de lijntjes van de tabellen.

HTR ≠ perfectie

De HTR bevat de kleine set door mensen gecorrigeerde transcripties én de computergelezen transcripties. HTR is nooit helemaal foutloos. In de praktijk is het, zeker bij veel verschillende handschriften in één bron, lastig onder de 5% CER (Character Error Rate) te komen. Dat betekent dat dan 95% van de karakters wél goed wordt gelezen. Let op dat dit voor sommige bladzijden veel lager kan uitvallen door de bovenstaande uitdagingen, vreemde talen of heel afwijkende handschriften die in de trainingsset relatief weinig voorkwamen. Daarbij is de HTR altijd een momentopname: vanwege de razendsnelle ontwikkeling van AI-technieken is HTR van enkele jaren geleden meestal van mindere kwaliteit dan de meest recente.

De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.

Overzicht beschikbare HTR

Bijgewerkt: november 2023

Notarieel Archief

De scans met HTR van de notariële akten zijn het resultaat van het VeleHanden/Transkribus-project Crowd Leert Computer Lezen. Download hier het Documentatie 

5075: Archief van de Amsterdamse Notarissen

Notaris

Inventarisnummers

Periode

Aantal scans

Status

 Adriaen Lock

 2163-2272

 1647-1680

 83020

 compleet

 Adri­an Baars

 8563-8794

 1715-1741

 141429

 com­pleet

 An­tho­ny van de Ven

 3603

 1666

 110

 Cor­ne­lis Staal

 13131 t/​m 13134

 1749-1753

 2753

 com­pleet

 Cor­ne­lis van Loon

 6972 en 7002

 1700 en 1723

 533

 Cornelis Tou(w)

 1420-1427

 1636-1661

 3394

 afschriften

 Da­niel van den Brink

 10298 t/m 10661

 1734-1785

 229422

 compleet

 Da­vid Door­nick

 1926-1970B

 1645-1678

 12496

 compleet

 Da­vid des Pom­ma­re

 6924

 1698-1710

 110

 Da­vid Staf­mae­ker Var­let

 4734 t/​m 4764

 1696-1711

 15068

 com­pleet

 Dirk van der Groe

 4073 t/​m 4278

 1670-1720

 113464

 com­pleet

 François Meerhout

 2091 t/m 2103

 1646-1667

 3156

 compleet

 François Meerhout jr

 4783A t/m 4803C

 1679-1739

 17168

 compleet

 Ge­rard van Es­ter­we­ge

 8068 en 8069

 1710-1711

 1347

 Ger­rit van Breu­gel

 3492-3509

 1665-1673

 6753

 compleet

 Gil­les Bors­se­laer

 1478 t/​m 1496

 1636-1671

 6193

 Hen­drik Da­niel van Hoorn

 14255 t/​m 14276

 1758-1787

 12795

 com­pleet

 Hen­drik Schaef

 1278 t/​m 1406

 1636-1665

 17393

 com­pleet

 Hen­rick Ven­kel

 3027 t/m 3028

 1665-1677

 182

 Her­ma­nus van Heel

 12788 t/​m 12884

 1745-1771

 58458

 com­pleet

 Isaac Pool

 12662 t/m 12784

 1745-1792

 48087

 compleet

 Ja­cob de Win­ter

 2278 t/​m 2419

 1648-1710

 35137

 com­pleet

 Ja­cob Jansz West­fri­si­us

 492 t/​m 526

 1612-1656

 9500

 Jacob Meerhout

 208 t/m 259B

 1607-1631

 13312

 compleet

 Jacob Meerhout jr

 4730 t/m 4733

 1676-1683

 1931

 compleet

 Ja­cob Pondt

 3164

 1660

 575

 Jan Ba­rels de Jon­ge

 8797 t/m 8904

 1716-1753

 86531

 compleet

 Jan de Vos

 1183 t/m 1223B

 1634-1649

 16604

 compleet

 Jan Frans­sen Bruij­ningh

 173

 1599-1601

 110

 Jan Ver­leij

 11885 t/​m 11968

 1741-1775

 41651

 com­pleet

 Joost van de Ven

 1157 t/​m 1169

 1635-1665

 2837

 Laurens Lamberti

 567 t/m 610

 1613-1654

 19599

 compleet

Michiel Servaes

 5057 t/m 5067

 1691-1700

 2870

 afschriften

 Ni­co­laes Brou­wer

 3978-3997

 1668-1705

 5262

 af­schrif­ten

 Palm Ma­thijsz

 425-452

 1610-1641

 8108

 afschriften

 Phi­lip Zweerts

 10021 t/​m 10067

 1730-1774

 22211

 com­pleet

 Si­mon van Se­ven­ho­ven

 5301 t/m 5319

 1691-1698

 5080

 afschriften

 Willem Cluijt

 340 t/m 356

 1610-1636

 5943

 afschriften

 Wil­lem de Fay

 8304-8308

 1713-1724

 4658

 compleet

Publieke Werken

De indicateurs van 5180 Archief van de Secretarie; Afdeling Publieke Werken, inventarisnummers 10739-10935. Zie voor meer informatie ook onze blog.

De Dienst Publieke Werken was verantwoordelijk voor aanbestedingen, realisatie en onderhoud van allerlei bouwwerken, sloop en uitbreiding, openbare gebouwen en voorzieningen, lozingen, riolering en elektra, havens, bruggen en kades, beplanting, vergunningen, verhuur en erfpacht. Maar ook personeelszaken en voorstellen en klachten van particulieren over de openbare ruimte of hun buren zijn er te vinden. De indicateurs zitten daarom vol namen van organisaties, adressen, perceelnummers en Amsterdamse burgers.

Als HTR doorzoekbaar: 78.843 scans die via het jaartal en verwijsnummer in de eerste kolom doorverwijzen naar 10.738 bundels met correspondentie.