Categorieën
Corpora & lexica

Corpus Oudnederlands

Het Corpus Oudnederlands is de verzameling van al het bekende Nederlandse woordmateriaal uit de periode 475-1200. Het bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en een aantal kleinere teksten, fragmenten, losse woorden en plaatsnamen. Het corpus is taalkundig verrijkt met woordsoort en lemma, en is gebruikt als bronnenmateriaal voor het Oudnederlands Woordenboek (ONW).

English version

Corpus of Old Dutch

The Corpus of Old Dutch is the collection of all texts in Old Dutch that served as source material for the Dictionary of Old Dutch (ONW). The texts originate from the period between 475 and 1200.

The texts in Old Dutch that Maurits Gysseling had collected and transcribed formed the basis of this collection. They have been supplemented with texts like the Mittelfränkische Reimbibel, glosses like the Malbergse glossen to the Lex Salica, and anthroponymic and toponymic material. The corpus has been annotated with word classes and lemmas. The annotation of the entire corpus has been manually verified.

What is Old Dutch

Old Dutch is the collective term for several related dialects that – just like Old English, Old Frisian, Old Saxon, and Old High German – developed out of West Germanic around the beginning of the fifth century. It was spoken in an area that does not entirely correspond with the current Dutch-speaking region.

Differentiating between Old Dutch, Old Saxon, and Old Frisian is sometimes difficult. The editors of the Dictionary of Old Dutch, who were responsible for the compilation of the corpus, applied a liberal admission policy. Nevertheless, not all texts from Gysseling’s original Old Dutch collection were incorporated into the corpus. One example is the Heliand, a poem that was left out because it was written in Old Saxon.


Applications/products

Further reading

Het Corpus Oudnederlands is de verzameling van al het overgebleven Nederlandse woordmateriaal uit de periode 475-1200 dat als bronmateriaal heeft gediend voor het Oudnederlands Woordenboek (ONW). Uitgangspunt waren de Oudnederlandse teksten die de Gentse taalkundige Maurits Gysseling had verzameld en getranscribeerd.

Het corpus bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en talrijke kleinere Oudnederlandse teksten en tekstfragmenten (waaronder runeninscripties), glossen en losse woorden, Frankisch materiaal en toponymisch materiaal. Meer gedetailleerde informatie over hoe het corpus is samengesteld, is hier te vinden.

Het corpus is taalkundig verrijkt met woordsoort en lemma. De annotatie is handmatig nagekeken voor het hele corpus.

Wat is Oudnederlands?

Het Oudnederlands is de verzamelnaam voor een aantal verwante dialecten die – net als het Oudengels, het Oudfries, het Oudsaksisch en het Oudhoogduits – rond het begin van de vijfde eeuw zijn ontstaan uit het West-Germaans. Het werd gesproken in een gebied dat samenviel met het huidige Nederland (mogelijk met uitzondering van de kuststreek van Groningen tot aan de Oude Rijn in de provincie Zuid-Holland), het Nederlandstalige deel van België, Frans-Vlaanderen en een stuk van Duitsland tussen de Nederlandse grens, de Rijn en de zogenaamde Benrather Linie, de grens tussen het Neder- en het Hoogduitse taalgebied.

De afgrenzing tussen Oudnederlands, Oudsaksisch en Oudfries is soms lastig te maken. De redactie van het Oudnederlands Woordenboek (ONW), die verantwoordelijk was voor de samenstelling van het corpus, heeft een ruim opnamebeleid gehanteerd. Toch zijn niet alle teksten uit de oorspronkelijke Oudnederlandse tekstverzameling van Gysseling in het corpus opgenomen, zoals het gedicht de Heliand, omdat die tekst Oudsaksisch is.

Versiegeschiedenis

Een eerste online toegankelijke versie van het Corpus Oudnederlands werd gelanceerd op 29 februari 2012, in de vorm van een citatendatabank. Het was niet mogelijk hierin te zoeken op opeenvolgende woorden, omdat elk woord in een citaat een eigen rij (record) in die databank had, met taalkundige informatie (woordsoort en lemma), het volledige citaat en de metagegevens van het citaat. Deze versie is niet langer beschikbaar.

In 2018 zijn voor het Nederlab-project de gegevens uit die databank omgezet naar een woord voor woord taalkundig verrijkte tekst, waarbij correcties zijn uitgevoerd en tekstmetadata zijn toegevoegd.

In deze nieuwe versie zijn correcties aangebracht in de toegevoegde metadata in het corpus en is de taalkundige verrijking in overeenstemming gebracht met de Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN).


Applicaties/producten

Meer lezen