Natuurliketaalverwerking: Verskil tussen weergawes

Content deleted Content added
k Opruim
k Redaksioneel
Lyn 3:
 
== Geskiedenis ==
Die geskiedenis van NLP het min of meer in die 1950's begin, alhoewel vroeërvroeëre navorsing wel bestaan. In 1950 het [[Alan Turing]] 'n artikel gepubliseer, "Computing Machinery and Intelligence", waarin hy die sogenaamde Turing-toets voorstel wat deesdae as 'n maatstaf van intelligensie gebruik word.
 
Die Georgetown-eksperiment in 1954 het die volledige outomatiese vertaling van meer as sestig Russiese sinne na Engels toe behels. Die outeurs het beweer dat die probleem van masjienvertaling binne drie tot vyf jaar volledig opgelos sou word.<ref>{{cite web|author = Hutchins, J.|year = 2005|url = http://www.hutchinsweb.me.uk/Nutshell-2005.pdf|title = The history of machine translation in a nutshell}}</ref> Vordering was in werklikheid heelwat stadiger. Na die ALPAC-verslag in 1966, wat bevind het dat navorsing oor 'n tydperk van tien jaar nie aan verwagtinge voldoen het nie, is befondsing vir masjienvertaling dramaties verminder. Min navorsing in masjienvertaling het daarna plaasgevind tot aan die einde van die 1980s, toe die eerste statistiesemasjienvertaalstelsels ontwikkel is.
 
Voorbeelde van suksesvolle NLP-stelsels wat in die 1960s ontwikkel is sluit SHRDLU en ELIZA in. SHRDLU werk met sogenaamde beperkte "blokwêrelde" en beperkte woordeskattewoordeskat. ELIZA, geskryf deur Joseph Weizenbaum tussen 1964 en 1966, is 'n simulasie van 'n Rogeriaanse psigoterapeut. ELIZA skep 'n verrassend menslike interaksie alhoewel die program byna geen inligting oor menslike gedagtes of emosie gebruik nie. Wanneer die "pasiënt" die baie klein kennisbasis oorskry, verskaf ELIZA gewoonlik 'n generiese antwoord. Die Engelse "My head hurts", byvoorbeeld, word geantwoord met "Why do you say your head hurts?".
 
In die 1970s het baie programmeerders sogenaamde "konsepsuele ontologieë" begin skryf. Dit omskep inligting oor die regte wêreld na data wat deur rekenaars verstaan kan word. Voorbeelde sluit MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979), en Plot Units (Lehnert 1981) in. In hierdie tyd is daar ook kletsbotte geskryf soos PARRY, Racter en Jabberwacky.
 
Tot en met die tagtigerjare is die meeste NLP-stelsels gebaseer op komplekse stelle handgeskrewe reëls gebaseer. Vanaf die laat tagtigerjare was daar egter 'n ommekeer in NLP met die totstandkoming van masjienleeralgoritmes vir taalverwerking. Dit was as gevolg van die bestendige toename in rekenkrag (sien [[Moore se wet]]) en 'n afname in die invloed van [[Noam Chomsky|Chomskyaanse]] taalkundige teorieë (soos transformasionele grammatika), waar die teoretiese onderbou nie strook met die tipe korpuslinguistiek waarop hierdie soort masjienleer gebaseer is nie.<ref>Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics.</ref> Van die vroegste masjienleeralgoritmes soos beslissingsbome het stelsels geproduseer met harde "if-then"-reëls wat soortgelyk is aan bestaande handgeskrewe reëls. Woordsoortetikettering het begin om sogenaamde versteekte Markovmodelle te implementeer, en van toe af het navorsing in NLP algaande begin om meer op statistiese modelle te fokus, waar sagte, waarskynlikheidsgebaseerde besluite geneem word. Die besluite word gebaseer op gewigte met reële waardes wat met kenmerke geassosieer word in die invoerdata geassosieer word. Sogenaamde "kastaalmodelle" (taalmodelle wat kasgeheue gebruik), waarop baie spraakherkenningstelsels berus, is voorbeelde van sulke statistiese modelle. Hierdie modelle is oor die algemeen meer robuust wanneer dit onbekende invoer ontvang, veral invoer wat foute bevat (wat baie dikwels die geval is met data van die regte wêreld). Die resultate van die modelle is oor die algemeen ook meer betroubaar wanneer dit by 'n groter stelsel wat veelvoudige subtake bevat, geïntegreer word.
 
== Verwysings ==