Fortsätt till innehåll

Mas­ki­nö­ver­sätt­ning: För människa och maskin

Syftet med maskinöversättning (MT) är att förenkla översättningen och uppnå bättre resultat. Teknisk dokumentation lämpar sig för sådan översättning eftersom texterna i hög grad är repetitiva och standardiserade.

Redaktionella riktlinjer är skrivregler för teknisk dokumentation. De definierar till exempel hur instruktioner, rubriker eller listor ska skrivas. De kan också ange att vissa grammatiska och stilistiska formuleringar, som passivkonstruktioner, konjunktioner eller vissa förkortningar, ska undvikas. Dessa regler baseras ofta på riktlinjer och publikationer om regelbaserad skrift och regler för kontrollerat eller förenklat språk. Reglerna ska hjälpa tekniska skribenter att skapa en text som är lätt att förstå och översätta. I slutändan är målet att säkerställa att läsaren kan använda den teknik som beskrivs.

Användning av datorstödda översättningsverktyg och översättningsminnen när käll-texten inte är standardiserad, när det förekommer fel i översättningen eller höga kostnader. För att minska dessa risker är det viktigt att uppdatera översättningsreg-lerna regelbundet eftersom maskiner förstår texten på ett annat sätt än människor. Texter måste därför ändras så att de kan tolkas korrekt av maskinen.

Nyckeltermer inom maskinöversättning

Statistisk maskinöversättning (SMT)

Statistisk maskinöversättning använder statistiska analyser och prediktionsalgoritmer för att avgöra den mest sannolika översättningen av ett tecken, ett ord, en fras eller en mening. Vid inlärning av ett SMT-system används en tvåspråkig korpus som är anpassad till en applikation och ger bästa resultat.

Regelbaserad maskinöversättning (RBMT)

RBMT bygger på en samling regler som representerar språkets grammatik. Ordlistor för allmän vokabulär och specialordlistor för mer specifik terminologi används också.

Neural Machine Translation (NMT)

NMT bygger på ett artificiellt neuralt nätverk. Systemet lär sig att känna igen mönster i texter. MT-motorn genererar översättningar, jämför dem upprepade gånger med referensmaterial och ”lär sig” därmed att översätta.

Rubrikernas lämplighet

Inom teknikinformation ska rubrikerna vara korta, koncisa och enhetliga samt undvika redundans. Dessutom bör de formuleras på ett uppgiftsorienterat sätt och, om möjligt, inte innehålla substantiveringar. Läsaren ska omedelbart få klart för sig vad ka-pitlet handlar om utan att belastas med onödig information som kan avleda uppmärksamheten från det väsentliga. Rubriker ska också tydligt skilja sig från den beskrivande och instruerande texten.

Även om rubrikreglerna är logiska och bör kunna förstås av maskiner finns risk att ett MT-system översätter en rubrik som en instruktion (t.ex. ”installera Windows”). Föru-tom bristfälliga formuleringar på målspråket leder detta till felaktiga tillbakaöversätt-ningar som kan skapa förvirring. Detta är särskilt tydligt vid översättning från engelska till tyska vilket framgår av nedanstående jämförelse av DeepL (DE-EN/EN-DE) och Google (DE-EN/EN-DE).

Windows installieren - (Deepl) Install Windows /Windows installieren - (Google) Install Windows /Installieren Sie Windows

Installation von Windows - (Deepl) Installing Windows /Installation von Windows - (Google) Windows installation /Windows-Installation

Substantivering bör användas för att skriva rubriker vid maskinöversättning. Denna metod gör den engelska översättningen mer exakt jämfört med strukturen ”subjekt + verb”.

Ett problem som påverkar alla språk är ord med samma singular- och pluralform, till exempel engelskans ”information” eller ”data”, som måste definieras mer exakt. Beroende på målspråk kan felaktiga grammatiska former eller termer uppkomma vid översättning av rubriker. Slutligen är det även mycket viktigt att undvika redundans. Det är inte bara maskinöversättning som har problem med att knyta ihop till synes redundansfria rubriker. Detsamma gäller för människor om de inte omedelbart ser hela sammanhanget.

Instruktioner

Instruktioner och beskrivningar i teknisk information ska vara skrivna på ett sådant sätt att innehållet är lättigenkännligt.

Vid användning av maskinöversättning bör skrivreglerna ange inte bara hur rubrikerna ska formuleras utan även vad de ska innehålla. Dessutom är det viktigt, inte bara för MT-systemet utan även för läsaren, att hänvisningar till de faktiska objekten upprepas. Segment som består av ett enda ord kan tolkas på många olika sätt av MT-systemet. Ord som kan ha olika form beroende på användningsområde kan leda till fel. Eventuella problem kan lösas genom frågor till översättaren. Detta fungerar dock bara om en människa har översatt meningen. Resultatet är en felaktig översättning eller en oklar formulering.

Jämfört med generiska MT-verktyg är det också uppenbart att när maskinöversättning inte har domänspecifika datauppsättningar för passiva satser leder detta i allt högre grad till felaktiga resultat.

Förkortningar

Många tekniska informationstexter använder förkortningar och akronymer för att förkorta ord som upprepas ofta, men dessa kan utgöra ett stort problem vid maskinöversättning. Detta är särskilt fallet vid användning av kundspecifika förkortningar eller akronymer. Olika tolkningar kan uppstå beroende på vilken typ av datauppsättning som används vid maskinöversättningen. Skapa regler som rekommenderar att endast allmänt kända förkortningar bör användas eller att ord bör förkortas på ett lättförståeligt sätt.

Achten Sie darauf, … - (Deepl) Make sure… Ensure that … Pay attention … - (Google) Be sure to … Take care … Be sure …

Stellen Sie sicher, … - (Deepl) Make sure … Ensure that … Be sure … - (Google) Make sur

Akronymer baserade på språkspecifika ord, som ”HW” för ”hot water” eller ”hardware” eller ”CW” för ”cold water” eller ”calendar week”, förvirrar läsaren om de lämnas oöversatta på målspråket. Läsarna kan ju inte förstå förkortningar som inte förekommer på deras språk. Eller så kan de felaktigt associera förkortningen till hårdvara istället för varmvatten. En läsare som är obekant med ämnet kan lätt missförstå eller kanske inte alls förstå förkortningen.

Flera betydelser

På många språk är det viktigt att använda rätt namngivningsregler för att läsaren omedelbart ska förstå vad som menas. Ett ord kan dock ha flera betydelser på ett visst språk. Sådan variation kan dock ofta undvikas genom att teknikinformatörerna använder föreskriven terminologi. Där framgår att ett ord bör eller måste vara enty-digt. Det tyska ordet ”freigeschaltet” är ett exempel. Beroende på sammanhang kan det betyda ”strömlös”, ”frigjord” eller ”aktiverad”. Specialistanvändaren förstår inne-börden utifrån sammanhanget. Sådana ord kan dock leda till att MT-systemet och även mänskliga översättare gör misstag när sammanhanget är oklart. Användning av benämningar som är definierade antingen på kund- eller projektnivå, och som kan tol-kas på flera sätt, bör styras mer exakt. Beroende på typ av maskinöversättning (generisk eller domänspecifik) kan dessutom friare eller striktare specifikationer krävas.

Texter utan fel

Korrekt stavning är mycket viktigt för maskinöversättning. Ord översätts som de är angivna i databasen och tolkas därefter. Många redaktionella riktlinjer har redan i tillräcklig utsträckning behandlat skrivande och interpunktion. Felaktig interpunktion kan leda till att en mening inte tolkas korrekt av maskinöversättningen. Ett exempel är frånvaron av kommatecken när en mening ska delas upp i olika delar, vilket leder till att underordnade satser inte identifieras korrekt och till sammandragna meningar. Detta resulterar i felaktig korrelering av satsdelar. Detsamma gäller saknade binde-streck.

Det kan också hända att meningar inte översätts som meningar om de inte avslutas med punkt. Normalt upptäcks och korrigeras sådana fel i samband med översättandet om inte förr – när översättningen utförs av en människa är risken för fel lägre.

Ju tydligare referenser desto större sannolikhet att MT-systemet kan identifiera informationen korrekt.

Konsekvent användning av taggar

Oavsett om en TMX-editor, Adobe FrameMaker, Madcap Flare eller något annat dokumentationssystem används taggar för att markera meningar eller ord. Redakt-ionella riktlinjer innehåller regler för användning av taggar. Vissa regler bör dessutom utökas för maskinöversättning. Vid läsning av en text med tillhörande taggar kan MT-systemet bara identifiera taggar som den redan känner till. Okända taggar, däremot, leder till en felaktig tolkning av samband genom att meningar tolkas fristående eller genom att taggar ignoreras och översätts som om de vore ”normala” ord. Båda dessa problem kan lösas manuellt genom att definiera taggar i MT-programvaran.

Tillvägagångssätt

Listan över möjliga problem som kan uppstå med teknisk dokumentation och maskinöversättning kan utökas ytterligare. Det kommer alltid att finnas faktorer som skapar svårigheter och som kan samordnas bättre. Den visar också att regler för maskinöversättning inte är något som skapas i en handvändning, särskilt inte om de ska tillämpas universellt. Många regler som syftar till att skapa begriplig dokumentation, och främst är avsedda för läsaren, kan också tillämpas för maskinöversättning. Det finns dock vissa saker som endast en människa förstår utan svårighet, och som kan skapa oför-utsedda problem vid maskinöversättning.

Fundera över hur översättningssystemet kan hantera befintliga och framtida data på ett effektivt sätt.
I och med framstegen inom neural maskinöversättning och artificiell intelligens kan det förefalla onödigt att anpassa reglerna. Sådana system lärs ju upp med omfattande generiska och anpassade datauppsättningar, vilket bör resultera i förståeliga och korrekta översättningar. Men det är ett felaktigt intryck. Översättningsfel på målspråket upptäcks vanligtvis bara av översättare som har målspråket som modersmål, och endast om översättningen är ologisk.
 

Undvik oklara och tvetydiga uttryck.
Om inga ansträngningar görs för att motverka oklara eller tvetydiga uttryck i den tekniska dokumentationen kommer kvaliteten på översättningarna att försämras. Detta kan även inträffa vid översättning med ett översättningsminne.
 

Kontrollera och justera reglerna för varje texttyp.
Reglerna kan sedan tillämpas inom olika områden, oavsett ämnesområde, texttyp eller målgrupp, och bidrar till att förbättra översättningens kvalitet. Att granska och va-lidera befintliga och nya regler gör det intressant att arbeta med maskinöversättning. Det är viktigt att analysera hur enskilda system fungerar med olika texttyper. Målet är att en dag kunna underlätta framtagning av texter som kan skrivas för både människa och maskin.