Norsk talegjenkjenning og tilgjengelighet i samfunnet

Talegjenkjenning gir mulighet for å snakke til datamaskinen i stedet for å bruke vanlig tastatur og mus. For noen vil det å snakke til datamaskinen åpne nye muligheter for deltakelse på ulike samfunnsarenaer. Prosessen med å gjenkjenne menneskelig tale ved hjelp av en maskin, kalles talegjenkjenning. Teknologien gjør det blant annet mulig å styre en maskin og diktere tekst ved hjelp av tale. Gjenkjenningen skjer vanligvis ved hjelp av et dataprogram som igjen styrer andre programmer eller utstyr koblet til datamaskinen.

Av pedagog og ingeniør Daniel Scheidegger.

Hvem kan ha nytte av norsk talegjenkjenning?

Personer som ikke kan styre en datamaskin ved hjelp av tastatur og mus på grunn av motoriske vansker, kan ha spesielt utbytte av talegjenkjenning. Svaksynte og blinde personer kan også ha nytte av teknologien. Personer med skrivevansker av ulike årsaker, kan ha hjelp av talegjenkjenning. Teknologien kan også bidra til å gjøre samfunnet mer tilgjengelig for alle, for eksempel gjennom teksting av sanntids-tv.

Utvikling av teknologien

Forskningen innen talegjenkjenningssystemer begynte på 1960-tallet, men med lite suksess. Private aktører klarte å lage systemer som kunne gjenkjenne noen titalls enkeltord under testbetingelser. Det manglet både kunnskap i dette nye forskningsfeltet, men også de tekniske mulighetene var begrenset. Talegjenkjenning krever mye datakraft samt mye minne til å ha rask tilgang til hele ordforrådet (typisk flere hundre tusen ord), samt statistikk over hvordan ordene står i forhold til hverandre (n-gram).

Først på midten av 1980-tallet ble dette utviklet videre. På denne tiden oppdaget man at det var mulig å skille mellom homofoner gjennom konteksttesting. Dette gjøres gjennom statistisk undersøkelse av hyppigheten i ordkombinasjoner. På denne måten kan man avgjøre hvilket ord som er mest sannsynlig når man har likelydende ord eller ord som likner hverandre lydmessig. Denne såkalte trigramstatistikken ble i ettertiden en viktig del av talegjenkjenningssystemer.

I 1984 presenterte IBM det første talegjenkjenningssystem som kunne gjenkjenne cirka 5 000 engelske enkeltord. Systemet brukte flere minutter på denne prosessen på en stordatamaskin. Kort tid etter kom Dragon Systems med et system som fungerte på en bærbar pc.

I slutten av 1993 presenterte IBM det første systemet til forbrukermarkedet: IBM Personal Dictation System fungerte på en vanlig pc til en pris på under 1 000 dollar. Systemet ble presentert på CeBIT 1994, og ble tatt imot med stor interesse av besøkende og fagpressen.

I 1994 var Kurzweil først ute med et system som kunne bearbeide flytende diktering. (I tidligere systemer måtte man adskille ord fra hverandre.)

I 1997 kom både IBM ViaVoice (etterfølgeren av VoiceType), og versjon 1.0 til programvaren Dragon NaturallySpeaking for Windows-plattformen, som også kunne bearbeide flytende diktering. Den største begrensningen i ytelsen på denne tiden var begrensningene i pc-en som prosessorhastighet og minnestørrelse.

I 2004 ble deler av IBM talegjenkjenneren frigitt som “åpen kildekode”. De som kjenner bransjen har antatt at dette ble gjort av taktiske grunner ovenfor Microsoft, som ønsket å legge talegjenkjenning inn i operativsystemet Windows Vista og nyere versjoner.

Mens utviklingen til ViaVoice ble stoppet, ble Dragon Naturally Speaking (DNS) utviklet av det amerikanske firma Nuance Communications, til den mest utbredte, personuavhengige tredjeparts talegjenkjenningsprogramvaren for Windows. Dragon Naturally Speaking fra Nuance er i dag den ledende programvaren for talegjenkjenning og finnes som hyllevare. Engelsktalende har kunnet nyttiggjøre seg denne programvaren i over 15 år, og til nå er DNS tilgjengelig på ni språk.

I 2008 kjøpte Nuance opp Philips Speech Recognition Systems, Wien, samt Software Development Kit (SDK) SpeechMagic, som er mest utbredt i helsevesenet. I Norge er det Max Manus as som benytter seg av denne teknologien, som er i bruk innen helsevesenet.

På iMac-datamaskiner fra Apple finnes det tredjepartsprogramvaren fra MacSpeech med navnet ”iListen” siden 2006. Denne programvaren bygger også på Philips-komponenter. I 2008 ble kjernekomponenten byttet ut mot Dragon Naturally Speaking, og etter at Nuance kjøpte opp MacSpeech i 2010, ble navnet forandret til Dragon Dictate.

Se Wikipedia for mer informasjon og henvisninger til litteratur.

Dagens situasjon

Dragon Naturally Speaking regnes i dag som verdens ledende talegjenkjenningsprogram for Windows. Programmet finnes på mange språk: engelsk, spansk, tysk, fransk, nederlandsk men ikke på noen skandinavisk språk. Programmet er tilrettelagt for funksjonshemmede etter den amerikanske lovgivningen, og kan brukes helt åndsfritt. I Norge brukes programmet på engelsk av omtrent hundre personer som har fått det fra NAV som hjelpemiddel til å kunne betjene datamaskinen i påvente av et tilsvarende program på norsk.

Et forprosjekt med midler fra NAV Hjelpemidler og tilrettelegging viste at det er teknisk mulig å utvikle talegjenkjenning på norsk ved å benytte datamaterialet som er tilgjengelig i den norske Språkbanken. Forprosjektet viste at mange personer med redusert funksjonsevne vil kunne få styrket sin mulighet for yrkesdeltakelse og redusere faren for å falle ut av arbeidslivet, ved å bruke norsk talegjenkjenning. I tillegg til den betydningen dette har for den enkelte, vil de samfunnsøkonomiske besparelsene være betydelige.

Språkbanken og løsninger på norsk

Språkbanken, en avdeling under Nasjonalbiblioteket, har lagt ut leksikalske og taledatabaser. Dette er ressurser fra det tidligere selskapet “Nordisk Språkteknologi”. Språkressursene er gratis og ligger under “Tilgjengelege ressursar” på nettsiden til Språkbanken.

Talegjenkjenning på norsk har lenge vært savnet. Bare i de siste to til tre årene har det kommet enkelte løsninger mest til diktering, men lite til styring av datamaskinen. Dikteringssystemer som finnes per september 2016:

  • Apple Mac OSX fra versjon 10.10 (Yosemite) har fått norsk talegjenkjenning, dvs. diktering samt enkelte kommandoer. Den er personuavhengig.
  • Fra iOS 8 er det mulig å diktere SMS direkte med norsk talegjenkjenning. Apple iOS 9 har fått Siri på norsk som gjør det mulig å styre mange funksjoner håndsfritt med talen.
  • I smarte telefoner med Android operativsystemet kan man laste inn tastaturet Swype som tilbyr talediktering.
  • Det finnes også apper til Windows telefoner.
  • Foreløpig finnes det ikke brukbare systemer for Windows PC. Men i statsbudsjettet 2015 ble det bevilget 13 millioner kroner til utvikling av talegjenkjenningsprogram på norsk. Midlene er tildelt til Max Manus as.

Utvikling av norsk talegjenkjenning av Max Manus as

Firmaet Max Manus som har fått statlig støtte til utvikling av talegjenkjenningsprogram på norsk, benytter en referansegruppe for å ivareta de ulike behovene for tilrettelegging av produktet for personer med ulike funksjonsvansker. Daniel Scheidegger representerer NAV Hjelpemidler og tilrettelegging i referansegruppen. Max Manus as regner med å bruke første halvdel av 2017 til beta-tester av løsningen sammen med konkrete brukergrupper. Produktet er planlagt lansert sommeren 2017. Les mer om status fra utviklingsarbeidet for talegjenkjenning på norsk.