Handwritten Text Recognition (HTR)
Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het VeleHanden/Transkribus project Crowd Leert Computer Lezen (2018-2023) maakten vrijwilligers bijna 40.000 transcripties van zeventiende en achttiende-eeuwse notariële akten, om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften.
Na deze fase is de aandacht verlegd naar het verbeteren van modellen, zodat ook documenten uit andere perioden gelezen kunnen worden - en op het trainen van een hybride model dat tegelijkertijd gedrukt, getypt en handgeschreven karakters aankan. Tegelijkertijd is gefocust op herkenning van de lay-out, zoals een tabelstructuur (bij Indicateurs Publieke Werken) of meerdere akten op één pagina (bij de Burgerlijke Stand).
Uitdaging
De automatische tekstherkenning van de oudere notariële archieven is een bijzondere prestatie, omdat er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten is in elk geval basiskennis van paleografie nodig om de letters te kunnen ontcijferen. Het taalgebruik wijkt ook af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging, gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen.
De staat van de gescande documenten zelf maakt het nog ingewikkelder: denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge. Bij Publieke Werken schreven de gemeenteambtenaren graag buiten de lijntjes van de tabellen.
HTR ≠ perfectie
De HTR bevat de kleine set door mensen gecorrigeerde transcripties én de computergelezen transcripties. HTR is nooit helemaal foutloos. In de praktijk is het, zeker bij veel verschillende handschriften in één bron, lastig onder de 5% CER (Character Error Rate) te komen. Dat betekent dat dan 95% van de karakters wél goed wordt gelezen. Let op dat dit voor sommige bladzijden veel lager kan uitvallen door de bovenstaande uitdagingen, vreemde talen of heel afwijkende handschriften die in de trainingsset relatief weinig voorkwamen. Daarbij is de HTR altijd een momentopname: vanwege de razendsnelle ontwikkeling van AI-technieken is HTR van enkele jaren geleden meestal van mindere kwaliteit dan de meest recente.
De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.
Overzicht beschikbare HTR
Bijgewerkt: november 2023
Notarieel Archief
De scans met HTR van de notariële akten zijn het resultaat van het VeleHanden/Transkribus-project Crowd Leert Computer Lezen. Download hier het Documentatie
5075: Archief van de Amsterdamse Notarissen | ||||
Notaris | Inventarisnummers | Periode | Aantal scans | Status |
Adriaen Lock | 2163-2272 | 1647-1680 | 83020 | compleet |
Adrian Baars | 8563-8794 | 1715-1741 | 141429 | compleet |
Anthony van de Ven | 3603 | 1666 | 110 | |
Cornelis Staal | 13131 t/m 13134 | 1749-1753 | 2753 | compleet |
Cornelis van Loon | 6972 en 7002 | 1700 en 1723 | 533 | |
Cornelis Tou(w) | 1420-1427 | 1636-1661 | 3394 | afschriften |
Daniel van den Brink | 10298 t/m 10661 | 1734-1785 | 229422 | compleet |
David Doornick | 1926-1970B | 1645-1678 | 12496 | compleet |
David des Pommare | 6924 | 1698-1710 | 110 | |
David Stafmaeker Varlet | 4734 t/m 4764 | 1696-1711 | 15068 | compleet |
Dirk van der Groe | 4073 t/m 4278 | 1670-1720 | 113464 | compleet |
François Meerhout | 2091 t/m 2103 | 1646-1667 | 3156 | compleet |
François Meerhout jr | 4783A t/m 4803C | 1679-1739 | 17168 | compleet |
Gerard van Esterwege | 8068 en 8069 | 1710-1711 | 1347 | |
Gerrit van Breugel | 3492-3509 | 1665-1673 | 6753 | compleet |
Gilles Borsselaer | 1478 t/m 1496 | 1636-1671 | 6193 | |
Hendrik Daniel van Hoorn | 14255 t/m 14276 | 1758-1787 | 12795 | compleet |
Hendrik Schaef | 1278 t/m 1406 | 1636-1665 | 17393 | compleet |
Henrick Venkel | 3027 t/m 3028 | 1665-1677 | 182 | |
Hermanus van Heel | 12788 t/m 12884 | 1745-1771 | 58458 | compleet |
Isaac Pool | 12662 t/m 12784 | 1745-1792 | 48087 | compleet |
Jacob de Winter | 2278 t/m 2419 | 1648-1710 | 35137 | compleet |
Jacob Jansz Westfrisius | 492 t/m 526 | 1612-1656 | 9500 | |
Jacob Meerhout | 208 t/m 259B | 1607-1631 | 13312 | compleet |
Jacob Meerhout jr | 4730 t/m 4733 | 1676-1683 | 1931 | compleet |
Jacob Pondt | 3164 | 1660 | 575 | |
Jan Barels de Jonge | 8797 t/m 8904 | 1716-1753 | 86531 | compleet |
Jan de Vos | 1183 t/m 1223B | 1634-1649 | 16604 | compleet |
Jan Franssen Bruijningh | 173 | 1599-1601 | 110 | |
Jan Verleij | 11885 t/m 11968 | 1741-1775 | 41651 | compleet |
Joost van de Ven | 1157 t/m 1169 | 1635-1665 | 2837 | |
Laurens Lamberti | 567 t/m 610 | 1613-1654 | 19599 | compleet |
Michiel Servaes | 5057 t/m 5067 | 1691-1700 | 2870 | afschriften |
Nicolaes Brouwer | 3978-3997 | 1668-1705 | 5262 | afschriften |
Palm Mathijsz | 425-452 | 1610-1641 | 8108 | afschriften |
Philip Zweerts | 10021 t/m 10067 | 1730-1774 | 22211 | compleet |
Simon van Sevenhoven | 5301 t/m 5319 | 1691-1698 | 5080 | afschriften |
Willem Cluijt | 340 t/m 356 | 1610-1636 | 5943 | afschriften |
Willem de Fay | 8304-8308 | 1713-1724 | 4658 | compleet |
Publieke Werken
De indicateurs van 5180 Archief van de Secretarie; Afdeling Publieke Werken, inventarisnummers 10739-10935. Zie voor meer informatie ook onze blog.
De Dienst Publieke Werken was verantwoordelijk voor aanbestedingen, realisatie en onderhoud van allerlei bouwwerken, sloop en uitbreiding, openbare gebouwen en voorzieningen, lozingen, riolering en elektra, havens, bruggen en kades, beplanting, vergunningen, verhuur en erfpacht. Maar ook personeelszaken en voorstellen en klachten van particulieren over de openbare ruimte of hun buren zijn er te vinden. De indicateurs zitten daarom vol namen van organisaties, adressen, perceelnummers en Amsterdamse burgers.
Als HTR doorzoekbaar: 78.843 scans die via het jaartal en verwijsnummer in de eerste kolom doorverwijzen naar 10.738 bundels met correspondentie.