Hoe verwerkt een machine taal?

Hoe verwerkt een machine taal?
Photo by Franck V. on Unsplash

Een kind leert een taal door te luisteren naar zijn omgeving. En door via de context te achterhalen wat de betekenis kan zijn van elk woord. Wel, net dat mechanisme speelt ook bij een machine. Door aan een razendsnel tempo een enorme massa van tekstmateriaal te analyseren, probeert een machine ook syntactische en lexicale verbanden te leggen. En net zoals bij een kind, heeft een computer ook even tijd nodig om in contact te komen met alle woorden en combinaties in een taal. Enkel een getrainde computer kan een specifieke opdracht uitvoeren. Met andere woorden: de computer moet (1) getraind worden om hem dan (2) een taak te geven.

Stap 1: Machine trainen op data

Door de machine in contact te brengen met honderdduizenden tekstpagina’s gaat hij slimmer worden. Hij gaat patronen herkennen. Terugkerende structuren. Dat gebeurt allemaal ‘unsupervised’. Unsupervised betekent ongecontroleerd omdat je de computer geen specifieke opdracht hebt gegeven. Hij gaat enkel in kaart brengen. Het resultaat is een representatie van woorden. Dat is pure statistiek van je tekst, zonder labels. Jouw corpus. In die fase wordt je model getraind aan de hand van een dataset.

Hoe vind je die data? Ofwel voeg je manueel heel veel (tekst)voorbeelden toe, ofwel laat je de machine op het net zoeken, bijvoorbeeld alle wikipediapagina’s. Als je al weet wat de taak zal worden (stap 2), dan kan je de machine helpen door hem in contact te brengen met specifieke data rond het topic. Bijvoorbeeld reviews, of nieuwsberichten, twitter … Er zijn veel open source datasets vrij te downloaden om je machine learning bot (ML bot) op te trainen. In die stap trainen we dus de ML-bot. Zie dit als de taalverwervingsfase van een kind waarbij het enkel luistert en input opneemt, zonder dat het al een zin gezegd heeft.

Stap 2: Classificatie

Je machine is nu geoefend. Hij heeft miljoenen data (= woorden) doorgenomen en daar patronen in proberen te herkennen. Tijd om hem het veld in te sturen en een opdracht te geven. Die fase kan je ongecontroleerd (unsupervised) verder doen of gecontroleerd (supervised). Wat is het verschil?

Bij het supervised model heb je zelf op voorhand je opdracht gedefinieerd. Bijvoorbeeld: ik wil dat mijn mailbox de spammails uit mijn inbox houdt. Dan definieer je twee klassen: ofwel is een mailspam, ofwel geen spam. En je wil dat de machine voor jou bepaalt waartoe elke inkomende mail behoort.

Cruciaal is alleszins dit: bij supervised learning gaat de computer aan de slag met labeled data. Bijvoorbeeld: een set van voorbeelden over spam e-mails een niet-spam e-mails.

Je kan het ook unsupervised doen. Bij unsupervised learning maakt de computer geen gebruik van op voorhand labeled data. Dan doet de robot een soort clustering. Woorden en sequenties (zinnen) die vaak bij elkaar voorkomen worden geclusterd. Er volgt een berekening van elke zin en die wordt geclusterd. Representaties die dicht bij elkaar liggen, krijgen dan hetzelfde label. En dan kan je achteraf zelf nog een label toevoegen.

Voorbeeld:
Soms krijg je een tekst binnen waarbij de machine ‘unsupervised’ kan stellen dat die tekst gaat over een contractuele verbintenis. Op basis van typische zinnen en juridisch getinte paragrafen kan de machine de context dan halen uit die tekst.

Speech van Trump geanalyseerd

Onderzoekers hebben geprobeerd om een speech van Trump na te bootsen. Hoe hebben ze dat gedaan? Ze hebben eerst – supervised – een computerprogramma de taalpatronen laten bestuderen van 270.000 woorden in speeches van Trump. Het resultaat bleek ongeveer net zo verschrikkelijk is als het echte werk.

Samengevat?

Zonder talige input vooraf is de computer een hulpeloos wezen. Maar dat blijft niet zo op het moment dat hij gevoed wordt met talige input. Dan wordt hij beetje bij beetje slimmer. Hij kan pas een tekst begrijpen en analyseren als hij daarop getraind is. Hoe slim kan de computer worden? Dat hangt dan weer af van de kracht van de machine en het aantal deep neurale netwerken hij kan leggen. Het spreekt voor zich dat nét dat de uitdaging wordt de komende jaren voor AI en NLP experts.

AI AI HOERA!?

Meer van dit? Kom op donderdag 21 november naar AI AI Hoera!? De Scriptorij conferentie over de impact van artificiële intelligentie op copy en communicatie. En Scriptorij bestaat 15 jaar! De plaatsen zijn beperkt. Snel zijn is de boodschap.

Meer lezen? Kom hier alles te weten over het verschil tussen machine learning, deep learning en AI.