Parallelle teks
’n Parallelle teks is ’n teks wat langs sy vertaling of vertalings geplaas word. Parallelleteksbelyning is die identifikasie van die ooreenstemmende sinne in beide helftes van die parallelle teks. Die Loeb Classical Library en die Klei Sanskrit-Biblioteek is twee voorbeelde van tweetalige reekse van tekste. Verwysingbybels kan die oorspronklike tale en ’n vertaling bevat, of ’n hele paar vertalings self, vir gemaklike vergelyking en studie; Origen se Hexapla (Grieks vir "sesvoudig") plaas ses weergawes van die Ou Testament langs mekaar. Die bekendste voorbeeld is die Rosettasteen.
Groot versamelings van parallelle tekste word parallelle korpora genoem (sien tekskorpus). Belynings van parallelle korpora op sinsvlak is ’n voorvereiste vir baie areas van taalkundige navorsing. Tydens die proses van vertaling kan sinne verdeel word, of saamgevoeg, verwyder, ingevoeg of geherrangskik word deur die vertaler. Belyning word derhalwe beskou as ’n nie-triviale taak.
Tipes parallelle korpora
wysigVier hooftipes korpora kan onderskei word.
’n Parallelle korpus met geruis bevat tweetalige sinne wat nie perfek belyn is nie of wat swak vertaal is. Die grootste deel van die inhoud is egter tweetalige vertalings van ’n spesifieke dokument.
’n Vergelykbare korpus word gebou uit onbelynde (op sinsvlak) en onvertaalde tweetalige dokumente, maar die dokumente is belyn op die vlak van die onderwerp.
’n Deels vergelykbare korpus sluit baie heterogene en nie-parallelle tweetalige dokumente in wat moontlik op onderwerpsvlak belyn mag wees of nie.
Die seldsaamste parallelle korpora is korpora wat vertalings van dieselfde dokument in twee of meer tale bevat en ten minste belyn is op sinsvlak.
Geruis in die korpora
wysigGroot korpora wat gebruik word as opleidingstelle vir masjienvertaalalgoritmes word gewoonlik onttrek uit groot liggame van soortgelyke bronne, soos databasisse van nuusartikels wat in die eerste en tweede tale geskryf is en wat soortgelyke gebeure beskryf.
Onttrekte fragmente kan geruis bevat, met ekstra elemente wat by elke korpus bygevoeg kan word. Onttrekkingstegnieke kan onderskei tussen tweetalige elemente wat in beide korpora voorkom en eentalige elemente wat in slegs een korpus voorkom, sodat skoner parallelle fragmente van tweetalige elemente onttrek kan word. Vergelykbare korpora word gebruik om direk kennis te onttrek vir vertalingsdoeleindes. Parallelle data van ’n hoë gehalte is egter moeilik om te bekom, veral vir tale wat oor weinig taalhulpbronne beskik.[1]
Biteks
wysig’n Biteks is, in die veld van vertaalstudies, ’n saamgevoegde dokument wat bestaan uit weergawes van beide die bron- en die teikentale van ’n gegewe teks.
Bitekste word gegenereer deur ’n stuk sagteware wat ’n belynings- of 'n biteks-instrument genoem word, wat outomaties die oorspronklike en vertaalde weergawes van dieselfde teks belyn. Die instrument belyn gewoonlik die twee tekste sin vir sin. ’n Versameling bitekste staan bekend as ’n biteks-databasis of ’n tweetalige korpus, en kan geraadpleeg word deur middel van ’n soekinstrument.
Bitekste en vertaalgeheues
wysigDie konsep van die biteks toon sekere ooreenkomste met dié van die vertaalgeheue. Oor die algemeen is daar een belangrike verskil tussen ’n biteks en ’n vertaalgeheue:
- ’n Vertaalgeheue is 'n databasis wat sy segmente (ooreenstemmende sinne) stoor op 'n manier wat heeltemal onverwant is aan hul oorspronklike konteks; die oorspronklike sinsorde gaan verlore. ’n Biteks behou die oorspronklike sinsorde.
Sommige implementasies van die vertaalgeheue, soos Translation Memory eXchange (TMX) (’n standaard XML-formaat vir die uitruil van vertaalgeheues tussen rekenaargesteunde vertaalprogramme (sogenaamde CAT-programme), maak voorsiening vir die behoud van die oorspronklike sinsorde.
Bitekste is ontwerp om geraadpleeg te word deur ’n menslike vertaler, nie deur ’n masjien nie. As sulks is klein belyningsfoute of geringe verskille wat sou veroorsaak dat ’n vertaalgeheue misluk, van geen belang nie.
In sy oorspronklike artikel van 1988 stel Brian Harris dat bitekste ’n verteenwoordiging is van hoe vertalers hul bron- en teikentekste in hul werkende herinneringe bymekaarhou soos hulle vorder. Hierdie hipotese is egter nie opgevolg nie.[2]
Sien ook
wysig- Rekenaargesteunde hersiening
- Masjienvertaling
- Natuurliketaalverwerking
- Polyglot (boek)
- Ruby-karakter
- Tweetalige inskrywing
Eksterne skakels
wysigParallelle korpora
wysig- Die JRC-Acquis Veeltalige Parallelle Korpus Geargiveer 19 Junie 2006 op Wayback Machine van al die wette van die Europese Unie (EU): Acquis Communautaire met 231 taalpare.[3]
- Die Verrigtinge van die Europese Parlement: Parallelle Korpus 1996–2011
- Die Opus-projek is daarop gemik om vrylik beskikbare parallelle korpora te versamel
- Japannees-Engelse Tweetalige Korpus van Wikipedia se Kyoto-Artikels Geargiveer 22 Augustus 2012 op Wayback Machine
- COMPARA – Portugees/Engelse parallelle korpora
- TERMSEARCH – Engels/Russies/Franse parallel korpora (Belangrike internasionale verdrae, konvensies, ooreenkomste, ens.)
- TradooIT – Engels/Frans/Spaans – Gratis aanlyn-instrumente
- Nunavut Hansard – Parallelle korpus van Engels/Inuktitut Geargiveer 7 Julie 2007 op Wayback Machine
- ParaSol - ’n Parallelle korpus van onder andere die Slawiese tale Geargiveer 6 Junie 2016 op Wayback Machine
- Glosbe: Veeltalige parallel korpora[dooie skakel] met aanlyn-koppelvlak vir soektogte
- InterCorp: ’n Veeltalige parallelle korpus Geargiveer 29 Maart 2012 op Wayback Machine van 20+ tale belyn met Tsjeggies, aanlyn-koppelvlak vir soektogte
- myCAT – Olanto Geargiveer 3 Julie 2016 op Wayback Machine, konkordansie-sagteware (oopbron-AGPL) met die moontlikheid van aanlyn-soektogte op JCR en die UNO-korpus
- TAUS, met aanlyn-koppelvlak vir soektogte.
- linguatools veeltalige parallelle korpora, aanlyn-koppelvlak vir soektogte.
Dokumentasie
wysig- Bibliografie oor pallelleteksverwerking deur J. Veronis en M.-D. Mahimon Geargiveer 17 April 2004 op Wayback Machine
- Verrigtinge van die 2003-werkswinkel oor die bou en gebruik van parallelle tekste Geargiveer 12 Mei 2008 op Wayback Machine (Workshop on Building and Using Parallel Texts)
- Verrigtinge van die 2005-werkswinkel oor die bou en gebruik van parallelle tekste Geargiveer 12 Mei 2008 op Wayback Machine (Workshop on Building and Using Parallel Texts)
Belyningsagteware
wysigVerwysings
wysig- ↑ Wołk, K. (2015). "Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level". Computer Science (16.2): 169–184.
- ↑ Harris, B. Bi-text, a new concept in translation theory, Language Monthly (UK) 54, p. 8-10, March 1988.
- ↑ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006).