home > reportage > De computer begint steeds meer mee te praten |
De computer begint steeds meer mee te pratenTekst: dr. Peter-Arno Coppen, docent masteropleiding Taal- en Spraaktechnologie, RU Nijmegen - 20/10/06Amper twintig jaar geleden huisde taal- en spraaktechnologie enkel in wetenschappelijke laboratoria. Alleen daar stonden destijds de krachtige en peperdure computers die de ingewikkelde berekeningen konden uitvoeren om taal en spraak te analyseren en produceren. Vandaag zit diezelfde technologie in kinderspelletjes, mobiele telefoons en populaire zoekmachines. Waarom is dit nooit voorpaginanieuws geweest? Hebben we iets gemist? Taalschrift zoekt de belangrijkste trends in de taal- en spraaktechnologie in Nederland en Vlaanderen. Een achtjarig jongetje speelt met zijn nieuwe Nintendo DS spelcomputer. Hij speelt het spelletje Brain Training van dr. Kawashima. Op het schermpje leest hij de instructies van de Japanse geleerde: Noem hardop de kleuren van de woorden die je te zien krijgt. Dan verschijnt het woord rood in blauwe letters. Het jongetje zegt: ‘Blauw'. Nu verschijnt het woord geel in zwarte letters, en het jongetje zegt: ‘Zwart'. Het spelletje valt hem een beetje tegen, want er zit weinig actie in en grafisch is het ook niet alles. Toch is de technologie opmerkelijk. Spraakherkenning in een spelcomputer ter grootte van een pocketboek? PlagiaatSteeds meer taal- en spraaktechnologische technieken vinden hun weg naar kleine toepassingen in de maatschappij. Mobiele telefoons worden al vaak geleverd met programmeerbare spraakherkenning, waardoor je de naam van je schoonmoeder kunt noemen in plaats van haar nummer in te toetsen. Computers herkennen de stem van voetbalsupporters of sporen plagiaat op, zoekmachines geven antwoord op letterlijke vragen (zie ook kaderstuk 1). Er zijn veel toepassingen waar taal- of spraaktechnologie een onderdeel van is. Soms onopgemerkt, soms prominent aanwezig. Vanuit wetenschappelijk oogpunt is die technologie vaak niet spectaculair en zelfs in sommige gevallen onder de maat, maar blijkbaar ligt de maatschappelijke lat lager. Dat klinkt negatief, maar dat is het niet: het is een positieve vaststelling dat ook technologie waar nog aan gesleuteld moet worden, al heel goed bruikbaar is. InstantvertalingOpmerkelijk genoeg neigt de berichtgeving over deze technologie altijd naar een van twee uitersten. Regelmatig verschijnen er kleine berichtjes in de media dat een of andere Amerikaanse professor op een zaterdagmiddag het hele probleem van het automatisch vertalen heeft opgelost. In oktober 2003 stond in de nieuwsrubriek van Onze Taal op het internet het volgende bericht: ‘Instantvertaling: Bulgaarse wetenschappers claimen een techniek te hebben ontwikkeld waarmee gesproken taal direct wordt omgezet in een andere taal. Een chip (in een telefoon, bijvoorbeeld) zet de brontaal om in digitale code, die vervolgens wordt omgezet in de doeltaal. De Bulgaren zeggen een vergelijkbaar programma voor teksten te hebben ontwikkeld. (Bron: Ananova)'. Deze berichtjes zijn altijd sterk overdreven, want dergelijke doorbraken vinden nu eenmaal nooit plaats. Van de betrokken Amerikaanse professoren of Bulgaarse wetenschappers wordt zelden meer iets vernomen. Steeds meer taal- en spraaktechnieken vinden hun weg naar kleine toepassingen. Een ander uiterste is dat een taal- of spraaktechnologisch product zoals een dicteermachine of een grammaticacontroleprogramma wordt geridiculiseerd door enkele hilarische fouten te noemen die het ding maakt. Enormiteiten van de spellingcorrector, spraakverwarring in de mens-computerdialoog, blunders van de dicteermachine, ze zijn allemaal erg gemakkelijk op te leveren. Maar dit alles miskent dat deze technologieën door veel mensen als nuttige hulpmiddelen gebruikt worden. Perfecte prestatiesNatuurlijk, menselijke taal heeft twee kenmerken: ze is ongelooflijk subtiel en complex, maar je merkt er niets van. Daardoor denk je: dat moet een beetje computer toch makkelijk kunnen, een kwestie van de taalkundige kennis in de machine en een beetje doorrekenen. Aan de ene kant geeft elke wetenschappelijke vooruitgang daarom de indruk dat het hele probleem al bijna is opgelost. En aan de andere kant valt een computer bij normaal taalgebruik meteen door de mand, wat dan vervolgens weer geweldig tegenvalt omdat je denkt: maar luister nou toch eens gewoon naar wat ik zeg! Wetenschappers waren er een halve eeuw geleden al achter: menselijke taal? Dat is voor een computer eigenlijk te moeilijk. Het is een mooi onderzoeksterrein voor de wetenschap, maar helemaal perfect zal het nooit worden. Toch blijkt steeds vaker dat die theoretische beperkingen in heel specifieke toepassingen nauwelijks opvallen. Om het voorbeeld van het computerspelletje aan te halen: spraakherkenning van vrije, lopende tekst, uitgesproken door een willekeurige gebruiker, is op dit moment lang niet goed genoeg. Maar als het maar om vier woordjes gaat (geel, blauw, rood en zwart), en je weet zeker dat de gebruiker steeds één van die vier woordjes zegt, en die woordjes lijken ook niet al te veel op elkaar - ja, dán krijg je bijna perfecte prestaties. Op dezelfde manier is de spraakherkenning van losse getallen al jaren een bruikbare technologie. Voetbalsupporters met een stadionverbod kunnen via spraakherkenning worden gecontroleerd. Raden Ook de diverse telefoondiensten op basis van spraakherkenning doen het vaak zo. Wie de automatische telefoondienst van de Openbaar Vervoer Reisinformatie in Nederland belt (0900-9292), inlichtingen van Belgacom (1234), de klantenservice van de Postbank (0900-0933) of diverse andere inlichtingennummers in Nederland en Vlaanderen, krijgt een computer aan de lijn die de dialoog afhandelt. Deze computer verstaat echt niet alles wat je zegt, maar richt zich op het herkennen van verwachte woorden en namen (concept spotting). Hoe specifieker de verwachting, hoe beter de prestaties. Echter, het akoestische verschil tussen bijvoorbeeld Swalmen en Zwolle is maar heel klein. Daarom zal een systeem altijd een beetje moeten raden. De kans dat mensen naar het grotere Zwolle willen reizen of daar wonen is groter dan de kans dat ze op weg zijn naar het kleinere Swalmen. Dat trekt dus vaker aan het kortste eind. Voor mensen met motorische beperkingen, zoals de beroemde prof. Stephen Hawking, is taal- en spraaktechnologie een bijna noodzakelijke voorwaarde om te kunnen communiceren. Groter geheugenDe grote kunst van de ontwikkelaars lijkt dus te zijn om toepassingen te zoeken voor bestaande technologieën. Wat zijn de beperkingen voor een specifieke technologie? Dat de menselijke variatie te groot is? Dan wordt er iets verzonnen waardoor die technologie getuned kan worden op de gebruiker. Veel dicteersoftware, die in je tekstverwerker of mailprogramma noteert wat je zegt, moet eerst worden ingesteld door een flinke lap tekst voor te lezen, of het programma raakt geleidelijk aan op één gebruiker ingesteld doordat het leert van zijn eigen fouten. Ook zoekmachines gebruiken hun geheugen om betere prestaties te kunnen leveren. Ze houden bij wat gebruikers zoal intikken, en waar ze dan uiteindelijk terechtkomen. Al deze informatie leidt tot steeds betere statistische modellen. Dezelfde methode wordt gebruikt bij vertaalhulpen: software die een menselijke vertaler helpt bij het produceren van een goede vertaling. Als zo'n systeem alles onthoudt wat zijn eigenaar ooit heeft vertaald (en goedgekeurd), dan zal het steeds beter ingesteld raken op het type teksten dat de gebruiker gewend is. Zeker in de meeste kantoortoepassingen worden vaste formules zo op den duur feilloos vertaald. Al deze technologieën zijn een rechtstreeks gevolg van de steeds grotere snelheid en geheugens van de moderne computer. Verkeerd verstaanAls je een artikel leest over een taal- of spraaktechnologische toepassing, en een van de ontwerpers of leveranciers wordt geïnterviewd, dan valt steevast ergens de opmerking dat de onderliggende technologie nog verbeterd moet worden. Dat is niet iets van de jongste jaren, dat is altijd zo geweest. Ook dat klinkt negatief, en je denkt: waarom maken ze die software niet meteen goed? Omdat dat niet kan. Zelfs mensen zijn geen perfecte taalverwerkers. Gewone gesprekken wemelen van de verkeerd verstane woorden, van vergissingen en haperingen. Mensen zijn alleen veel handiger in het opvangen van hun eigen onvolkomenheden. ChaosHoe kan taal- en spraaktechnologie dan nog worden verbeterd? In de beginjaren van de spraaktechnologie, maar vooral van de taaltechnologie, was het idee dat je de computer zoveel mogelijk kennis moest bijbrengen van de regels van de taal. Je zou dat een topdown benadering kunnen noemen. De regels die de computer van bovenaf opgelegd worden, laten hem beter presteren. Tegenwoordig wordt verbetering van de technologie gezocht in de analyse van grote hoeveelheden taalgebruik (bottom up in plaats van topdown). De statistische regelmatigheden borrelen als het ware op uit de chaos van de grote getallen. Het is dezelfde trend die je ziet als bij de oplossing van heel complexe rekenproblemen. Computerprogrammeurs zoeken niet langer naar krachtiger computers om in hun eentje zo'n probleem op te lossen, ze verdelen de berekening over heel veel kleine computers. Aan het einde van de negentiger jaren werd deze benadering wel eens omschreven met de zin Het netwerk is de computer. Dat is in eerste instantie het gevolg van de steeds grotere computergeheugens en de onstuitbare opmars van het internet. Steeds meer software bevindt zich niet meer op afzonderlijke thuiscomputers, maar draait op computers op het world wide web. De resultaten ontstaan van onderop, uit de samenwerking van allerlei met elkaar verbonden computers. GeslachtOok in de taal- en spraaktechnologie is deze trend zichtbaar en de spraaktechnologie loopt al jaren hierin voorop. Enorme hoeveelheden taalmateriaal (zogeheten corpora) zijn al aangelegd en ze worden momenteel verrijkt met deels handmatige analyse. Computers kunnen de uitspraak van cursisten beoordelen… Het belang van dergelijke kunstmatig aangelegde gegevensbestanden is dat je allerlei variatiemogelijkheden kunt noteren, zoals geslacht, leeftijd, en regionale afkomst van de sprekers en schrijvers. Daardoor wordt het mogelijk om statistische modellen voor heel specifieke toepassingen op te stellen. Grote hoeveelheden taalgegevens leveren betrouwbaardere modellen op. Hoewel het vergaren van statistische kennis uit grote hoeveelheden gegevens een mondiale trend is (de wereldgigant Google stelde bijvoorbeeld onlangs taaltechnologische gegevens van haar hele gegevensbestand van 1 024 908 267 229 woorden ter beschikking aan de wetenschap), loopt het Nederlandse taalgebied in deze ontwikkelingen bepaald niet achterop. Het Nederlands is al eens omschreven als een van de best beschreven talen ter wereld, maar ook op het gebied van de Human Language Technology lopen Nederland en België in Europa voorop. Vijfhonderd miljoen woordenHet Nederlandse taalgebied onderscheidt zich door een gecentraliseerde organisatie. Een door de Nederlandse Taalunie in het leven geroepen TST-centrale beheert en distribueert digitale taalvoorzieningen zoals software en grote corpora. Bijvoorbeeld het Corpus Gesproken Nederlands van negen miljoen woorden en diverse andere, geschreven corpora van vele miljoenen woorden, die veelal door het Instituut voor Nederlandse Lexicologie (INL) zijn ontwikkeld. Een nieuw Corpus Geschreven Nederlands van vijfhonderd miljoen woorden staat al in de onderzoekssteigers. Het taal- en spraaktechnologisch onderzoek wordt vaak gebundeld in grote onderzoeks- en stimuleringsprogramma's, zoals STEVIN (Spraak- en Taaltechnologische Essentiële Voorzieningen in het Nederlands), dat door de Vlaamse en Nederlandse overheid wordt gefinancierd. Een van de doelen van STEVIN is om de positie van de Nederlandse taal in de taal- en spraaktechnologie te versterken. Iedereen botst wel eens op hilarische fouten van dicteermachines of spellingcorrectoren. MoerasHoe gaat dit verder? Drie ontwikkelingen liggen voor de hand. Allereerst zal de taal- en spraaktechnologie steeds verder worden geïntegreerd in alledaagse toepassingen. Nu al wordt bij de ontwikkeling van de fundamentele technologie gekeken naar de combinatie van taal- en spraaktechnologie met andere vormen van communicatie: het aanwijzen van een plaatje op een scherm, het gebruik van het toetsenbord. Deze zogeheten multimodale systemen, waarbij de gebruiker steeds kan kiezen wat op een zeker moment het handigste is, zullen op termijn zeker worden toegepast. In Nederland subsidieert NWO een groot onderzoeksproject op dit gebied. Deze integratie zal ook bestaan uit het vinden van slimme toepassingen, die weliswaar geen spectaculaire verbeteringen in de onderliggende technologie betekenen, maar wel de juiste technologie op de juiste plaats weten in te zetten. Taal- en spraaktechnologie toegespitst op mensen met communicatieve beperkingen, op specifieke beroepsgroepen, voor allerlei vormen van taaltraining, al dit soort toepassingen zijn volop in ontwikkeling. Ten tweede zullen de fundamentele technologieën steeds beter worden. Grotere en rijkere corpora leveren meer verfijnde en precieze statistische modellen op. Daardoor kan de technologie binnen steeds meer kleine domeinen steeds betere prestaties halen. Regelmatig verschijnen er berichtjes dat een of andere Amerikaanse professor op een middag het hele probleem van het automatisch vertalen heeft opgelost. Onzin, natuurlijk. Ten slotte bestaat er momenteel veel aandacht voor de ontsluiting van grote hoeveelheden taalmateriaal. Handmatige analyse of codering van miljarden woorden of uren gesproken materiaal is ondoenlijk. Computeranalyse levert nog fouten op. Kan die verrijking niet ‘zichzelf uit het moeras trekken'? Bijvoorbeeld, door een deel van de verrijking handmatig te doen en de computer daarvan te laten leren? Dergelijke bootstrapmethoden, die ontoegankelijke hoeveelheden gegevens moeten ontsluiten, staan op dit moment sterk in de belangstelling. Het valt te verwachten dat deze nieuwe technologieën op termijn zullen leiden tot meer beschikbare gegevens, en sterk verbeterde taalmodellen. SpionagesoftwareZonder nu meteen te beweren dat de taal- en spraaktechnologie ons leven gaat beheersen, valt op grond van haar sluipende succes in de afgelopen jaren wel degelijk te verwachten dat we er allemaal mee te maken krijgen. Automatische telefoondiensten die ons allerlei informatie moeten geven, tekstverwerkers die ons moeten helpen bij het schrijven, hulpmiddelen voor gehandicapten en ouderen, of voor mensen die een vreemde taal leren - het zal allemaal langzaam doordringen in ons dagelijks leven. En waarschijnlijk zal daar ook wel allerlei verborgen spionagesoftware bij horen, die onze stemmen herkent en nauwlettend in de gaten houdt wat wij over de telefoon of op het internet zeggen of schrijven. Want taal- en spraaktechnologie zit overal. Maar je merkt er haast niks van. ------ » Kadertekst 1: Taal- en spraaktechnologie in het dagelijkse levenDe taal- en spraaktechnologie heeft zich in de afgelopen jaren bijna onmerkbaar ontwikkeld. Er zijn talloze voorbeelden van toepassingen die in meerdere of mindere mate van de taal- en spraaktechnologie gebruik maken. Dit zijn er een paar van de laatste jaren:
» Kadertekst 2: Wat is taal- en spraaktechnologie?Taal- en spraaktechnologie, dat is de verwerking van menselijke taal en spraak door de computer. Van oudsher bestaat de taal- en spraaktechnologie uit een aantal onderzoeksgebieden, die verrassend weinig met elkaar te maken hebben. De belangrijkste zijn:
» Kadertekst 3: Welke spraaktechologie gebruiken Nederland en Vlaanderen?Dit zijn een aantal taal- en spraaktechnologische toepassingen die in Nederland en Vlaanderen in gebruik of in ontwikkeling zijn. Sommige technologieën bevinden zich nog in de fase van het prototype, anderen zijn al commercieel verkrijgbaar:
» Kadertekst 4: Taal- en spraaktechnologische prothesesMensen met een communicatieve beperking staan steeds meer taal- en spraaktechnologische hulpmiddelen ter beschikking. Het ligt natuurlijk voor de hand dat een computer die taal kan verwerken, nuttig is voor mensen die daar moeite mee hebben, maar toch heeft de ontwikkeling van deze gespecialiseerde software pas de laatste jaren een hoge vlucht genomen. De computer die de krant voor blinden voorleest bestaat in de onderzoekslaboratoria al lange tijd, maar vandaag de dag zijn er verschillende text to speech systemen te koop. Dat je mobiele telefoon een woord kan voorspellen dat je nog maar half hebt ingetikt, is handig bij het sms'en, maar voor mensen met motorische beperkingen is dit een bijna noodzakelijke voorwaarde om te kunnen communiceren. Ook de taaltechnologische woordpredictiesoftware is tegenwoordig volop verkrijgbaar. Spraak omzetten naar tekst is meer dan een spectaculaire gimmick, een ander stemmetje (Cruijff?) voor je navigatiesysteem, of een handigheidje als je gewoon geen zin hebt om het toetsenbord te gebruiken. Mensen met RSI (bv. een muisarm) of visuele beperkingen zijn aangewezen op dit soort tekstinvoer, en maken daar gretig gebruik van. In de database Vlibank van het Kennis- en Ondersteuningscentrum (KOC) uit Vlaanderen staat het meest uitgebreide overzicht van taal- en spraaktechnologie voor mensen met een communicatieve beperking. Vlaanderen loopt in deze sector duidelijk voorop: van 2005 tot 2009 loopt er ook een groot onderzoeksproject waarin vijf Vlaamse universiteiten samenwerken: het SPACE-project (SPeech Algorithms for Clinical en Educational applications). Dit project is met name gericht op de toepassing van spraaktechnologie voor mensen met een communicatieve beperking, en voor taalonderwijs. |
|