Sådan løses problemet med variation

Den eller de tekster der skal analyseres, opmærkes først på en måde så hvert enkelt ord bliver markeret som netop et ord. Disse opmærkede tekster henvender sig ikke til menneskelige læsere. De giver derimod et udmærket udgangspunkt for det videre arbejde med teksterne idet de enkelte tekster herved er formelt velstrukturerede og kan behandles ensartet og konsekvent med elektroniske metoder.

Efter denne grundopmærkning skal man gennem en række processer tildele hvert ord tre niveauer: kildeniveau, neutralniveau og lemmaniveau. Dette gør man for at neutralisere den varians der er i teksten. Det er disse niveauer der henvises til med termen leksikalsk flerniveaurepræsentation. 

Tildelingen af niveauer tager udgangspunkt i kildeniveauet og de opmærkede tekster får derefter tilføjet de øvrige niveauer, et ortografisk neutralt niveau og et lemmaniveau.

På det ortografisk neutrale niveau henvises der fra hvert kildeord til den ordform kildeordet er en ortografisk variant af. På lemmaniveauet henvises der fra hver neutralform til lemmaet. Tekster som er forsynet med en sådan flerniveaurepræsentation, er uhyre velegnede til mange former for sproglige undersøgelser.

De tre niveauer

Kildeniveauet indholder tekstens originale ordform. Information om opsætningen af teksten kan indføres som fodnoter til de relevante ord og afsnit. Forkortelser, lakuner og tekstrettelser kan også være opmærket.

Det ortografisk neutrale niveau indeholder den neutrale ordform som kildeordet er en variant af; det vil sige at fx kildeordet hiartt henvises til den ortografisk neutrale form hjert. Et ortografisk neutralt niveau er en forudsætning for søgninger i for eksempel gamle danske tekster der savner en fælles ortografisk norm.

Lemmaniveauet består af kildeordets lemma sammensat af en lemmaform og den relevante ordklasse. Neutralformerne hjert og hjertet henviser således til lemmaet hjerte (sb). I tilfælde af homografi gør en diskriminator det muligt at skelne mellem lemmaer der ikke adskiller sig ved stavning og ordklasse, fx lov (sb, regel) og lov (sb, ros).

Billede af hiartt, hjert og hjerte

 Praksis

I praksis foregår tildelingen af de to ekstra niveauer som en vekselvirkning mellem fuldautomatiske og filologhjulpne processer. Metoden bygger på at dele arbejdet mellem computer og filolog på den mest hensigtsmæssige måde. Hver tekst gennemgår otte forskellige processer, hvoraf de fem er fuldautomatiske og de tre involverer filologen. I disse tre processer skal der tages beslutninger baseret på menneskelig tekstforståelse.

I den allerførste tekst oplyser filologen om samtlige ortografisk neutrale former og om de relevante lemmaer. Herefter kan der udtrækkes en lille ortografisk ordbog over denne ene tekst.

Allerede ved tekst nummer to kan oplysningerne fra den første genbruges. Et edb-program slår alle kildeordene i teksten op i den lille ordbog, og når programmet møder en kendt form, indsættes dens neutralform og lemmaform i teksten. Variansen på kildeniveauet kan være stor, og der kan optræde nye varianter af allerede kendte former.

Det betyder at opslag i ordbogen ikke altid fører til at en kildeform bliver bestemt selv om dens lemma og neutralform allerede er med i ordbogen. Ved at udlede ortografiske principper af kendte kildeformer, kan nye kildeformer automatisk forsynes med forslag til hvilken neutralform de kan høre ind under. Nye kildeformer får ofte mange forslag på denne måde.

Dette skyldes at der ofte optræder homografi. Også her udnyttes forslag fra de allerede behandlede tekster til at stille automatiske forslag om det mest sandsynlige valg, konteksten taget i betragtning. 

Filologen tager herefter i hvert enkelt tilfælde stilling til de automatiske forslag til neutralformer i et specielt redigeringsprogram. Hvis et forslag er korrekt accepteres det, ellers indsættes den rigtige oplysning manuelt. Desuden tilføjes manglende oplysninger. Processen gentages og for hver behandlet tekst vokser den ortografiske ordbog.

Når man skal neutralisere en (samling) tekst(er), skal man finde ud af efter hvilken standard man vil gøre det. Man skal for eksempel beslutte sig for hvilken tids retstavning man vil lægge til grund for neutralformerne. Man skal også tage stilling til hvordan man mærker særskrevne ord der skal skrives sammen i neutralformen og hvordan man modsat mærker ord der skal særskrives i neutralformen, men som er sammenskrevet i kildeteksten.

Læs om hvad MLT kan eller mere indgående om MLT-metodologien.