Natuurliketaalverwerking: Verskil tussen weergawes

Content deleted Content added
Verwysing in Afrikaans vertaal; Twee ektra paragrawe uit Engels vertaal
k Masjienvertaling-skakel gaan na "Outomatiese vertaling"; skakel bygevoeg by eerste keer wat "masjienvertaling" genoem word
Lyn 5:
Die geskiedenis van NLP het min of meer in die 1950's begin, alhoewel vroeëre navorsing wel bestaan. In 1950 het [[Alan Turing]] 'n artikel gepubliseer, "Computing Machinery and Intelligence", waarin hy die sogenaamde Turing-toets voorstel wat deesdae as 'n maatstaf van intelligensie gebruik word.
 
Die Georgetown-eksperiment in 1954 het die volledige outomatiese vertaling van meer as sestig Russiese sinne na Engels behels. Die outeurs het beweer dat die probleem van [[Outomatiese vertaling|masjienvertaling]] binne drie tot vyf jaar volledig opgelos sou word.<ref>{{cite web|author = Hutchins, J.|year = 2005|url = http://www.hutchinsweb.me.uk/Nutshell-2005.pdf|title = The history of machine translation in a nutshell}}</ref> Vordering was in werklikheid heelwat stadiger. Na die ALPAC-verslag in 1966, wat bevind het dat navorsing oor 'n tydperk van tien jaar nie aan verwagtinge voldoen het nie, is befondsing vir masjienvertaling dramaties verminder. Min navorsing in masjienvertaling het daarna plaasgevind tot aan die einde van die 1980s, toe die eerste statistiesemasjienvertaalstelsels ontwikkel is.
 
Voorbeelde van suksesvolle NLP-stelsels wat in die 1960s ontwikkel is sluit SHRDLU en ELIZA in. SHRDLU werk met sogenaamde beperkte "blokwêrelde" en beperkte woordeskat. ELIZA, geskryf deur Joseph Weizenbaum tussen 1964 en 1966, is 'n simulasie van 'n Rogeriaanse psigoterapeut. ELIZA skep 'n verrassend menslike interaksie alhoewel die program byna geen inligting oor menslike gedagtes of emosie gebruik nie. Wanneer die "pasiënt" die baie klein kennisbasis oorskry, verskaf ELIZA gewoonlik 'n generiese antwoord. Die Engelse "My head hurts", byvoorbeeld, word geantwoord met "Why do you say your head hurts?".
Lyn 13:
Tot en met die tagtigerjare is die meeste NLP-stelsels op komplekse stelle handgeskrewe reëls gebaseer. Vanaf die laat tagtigerjare was daar egter 'n ommekeer in NLP met die totstandkoming van masjienleeralgoritmes vir taalverwerking. Dit was as gevolg van die bestendige toename in rekenkrag (sien [[Moore se wet]]) en 'n afname in die invloed van [[Noam Chomsky|Chomskyaanse]] taalkundige teorieë (soos transformasionele grammatika), waar die teoretiese onderbou nie strook met die tipe korpuslinguistiek waarop hierdie soort masjienleer gebaseer is nie.<ref>Chomskyaanse taalkunde moedig die taalpraktisyn aan om sogenaamde “hoekgevalle” te ondersoek wat die grense van sy teoretiese modelle beklemtoon (soortgelyk aan patologiese verskynsels in wiskunde). Dit is meestal die resultaat van gedagte-eksperimente in plaas van die stelselmatige ondersoek van tipiese verskynsels wat in werklike data voorkom, soos wat die geval is in die korpuslinguistiek.</ref> Van die vroegste masjienleeralgoritmes soos beslissingsbome het stelsels geproduseer met harde "if-then"-reëls wat soortgelyk is aan bestaande handgeskrewe reëls. Woordsoortetikettering het begin om sogenaamde versteekte Markovmodelle te implementeer, en van toe af het navorsing in NLP algaande begin om meer op statistiese modelle te fokus, waar sagte, waarskynlikheidsgebaseerde besluite geneem word. Die besluite word gebaseer op gewigte met reële waardes wat met kenmerke in die invoerdata geassosieer word. Sogenaamde "kastaalmodelle" (taalmodelle wat kasgeheue gebruik), waarop baie spraakherkenningstelsels berus, is voorbeelde van sulke statistiese modelle. Hierdie modelle is oor die algemeen meer robuust wanneer dit onbekende invoer ontvang, veral invoer wat foute bevat (wat baie dikwels die geval is met data van die regte wêreld). Die resultate van die modelle is oor die algemeen ook meer betroubaar wanneer dit by 'n groter stelsel wat veelvoudige subtake bevat, geïntegreer word.
 
Heelwat van die noemenswaardige vroeë suksesse was in die veld van [[Outomatiese vertaling|masjienvertaling]], veral as gevolg van werk by [[IBM Research]] waar steeds meer ingewikkelde statistiese modelle ontwikkel is. Hierdie stelsels was daartoe in staat om uit bestaande veeltalige [[Tekskorpus|tekskorpora]], ontwikkel deur die [[Parlement van Kanada|Kanadese Parlement]] en die [[Europese Unie]], voordeel te trek. Hierdie bronne is geskep danksy wette wat die vertaling van alle regeringsverrigtinge na al die amptelike tale van die ooreenstemmende regeringstelsels vereis het. Die meeste ander stelsels het egter staatgemaak op korpora wat spesifiek ontwikkel is vir die take wat deur hierdie stelsels geïmplementeer is. Dit was (en is nog dikwels) beskou as ’n groot tekortkoming vir die suksesvolle gebruik van hierdie stelsels. As gevolg hiervan is daar baie navorsing gedoen in die implementering van metodes om op ’n meer effektiewe manier masjienleer toe te pas op beperkte hoeveelhede data.
 
Onlangse navorsing fokus al meer op [[Ongekontroleerde masjienleer|ongekontroleerde]] en [[Semi-gekontroleerde masjienleer|semi-gekontroleerde masjienleeralgoritmes]]. Sulke algoritmes is in staat om van data te leer wat nie handmatig met die gewenste antwoorde geannoteer is nie, of met behulp van ’n kombinasie van geannoteerde en ongeannoteerde data. Hierdie taak is oor die algemeen baie moeiliker as [[Gekontroleerde masjienleer|gekontroleerde leeralgoritmes]] en lei tipies tot minder akkurate resultate vir ’n gegewe stel invoerdata. Daar is egter ’n enorme aantal ongeannoteerde data beskikbaar (onder andere die hele [[Wêreldwye web]]).