Hvad er problemet?

Tekstanalytikere kan ofte komme ud for at teksterne de arbejder med, indeholder variationer, og der kan derfor være et behov for at føre varianter sammen.
Det kan for eksempel være inden for talesprogsforskning hvor man vil komme ud for forskellige udtaler af det samme ord i kildeteksterne. Det kan også være inden for undersøgelser af tekster med forskelle i ortografisk praksis, f.eks. gamle tekster eller sms-tekster skrevet på mobiltelefon.

Det vil også gælde andre genrer inden for nutidsdansk, hvor man for eksempel kan have behov for at neutralisere uautoriserede stavemåder og store bogstaver i ikke-proprier.

Som et eksempel på vanskelighederne ved tekster med stor variation kan læsning af gamle tekster fremhæves. I forsknings-projektet Dansk Folkevisekultur 1550-1700 skulle en stor mængde gamle folkeviser digitaliseres.

Billedet ovenfor viser de tre første strofer fra visen Flores og Margrete som den står i Karen Brahes folio, ældre del, som er fra før 1583. De håndskrevne visebøgers ortografi er, som billedeksemplet antyder, overordentlig mangfoldig. Visebøgerne er skrevet af mange forskellige hænder, som følger en mængde forskellige, ofte modstridende, ortografiske principper. Den enkelte hånd er end ikke konsekvent i forhold til sig selv. 

Teksterne er derfor ikke umiddelbart til at finde rundt i og få et overblik over. Selv om alle viserne er elektronisk lagrede, kan man ikke bare søge efter et bestemt ord eller udtryk, fordi det er helt umuligt at gætte sig til hvordan det kan være stavet.

I Hjertebogen, der er skrevet fra 1553-1555 og som indeholder 83 viser, forekommer ordformen hjertet stavet på 9 forskellige måder. Dette fænomen er ikke enestående for Hjertebogens skriver, men går igen i samtlige håndskrifter.

Et yderligere problem ved den store forskel i ortografi og de deraf følgende problemer med at søge meningsfuldt i teksterne er, at det desuden er vanskeligt at sammenligne tekster, formuleringer, formler og ordforråd fra forskellige historiske sprogtrin. 

De nævnte problemer og flere andre kan løses med leksikalsk flerniveaurepræsentation. Læs her videre om hvordan man løser problemerne.