中英文核心期刊咨询网

当前位置:首页>>教育论文 > 正文

以英汉差异为基础分析分词中的歧义问题

发布时间:2020-12-05

  摘要:在中英文差异中,最明显也是最基本的一项就是英文的单词是天然分开的,词就是最小的能够独立运用的语言单位。不同于英文的是,中文句子中没有词的界限,同时词不是最小的语言单位。因此在计算语言学的研究中,分词(WordSegmentation)是中文人机自然语言交互中最基础的一项。而不管是在中文分词中或分词后,都存在歧义问题且需要解决。本文更多的从语言学角度来理解并分析歧义问题。

  关键词:计算语言学;机器翻译;分词;歧义

  在计算机处理自然语言中,第一项任务就是对源语言(SL)的处理和理解。由于中文具有字形复杂、字义多样、字符集庞大、语法灵活的特性,这使得中文语句的分词和消歧较英文而言更加困难,中文的句法分析也因此相对落后。在机器翻译中,对句子的翻译方面仍然存在着歧义,语法不当等问题。一方面计算机对自然语言学的分析方法更主要是基于英文的语法,形态,另一方面对中文的分析方法更主要的是迁移和模仿英文的方法。这样就存在着在机器翻译过程中出现不可控问题。

以英汉差异为基础分析分词中的歧义问题

  首先中英不同点在于屈折语与孤立语的不同。屈折语以词形变化作为表示语法关系的主要手段。我们所熟知的,属于屈折语的语言有英语、法语、德语、俄语、拉丁语等。其主要特点是:第一,有比较丰富的词形变化,通过词形变化来表示词与词之间的关系,进而表示各种语法意义。第二,屈折语中的曲折包括两种形式,一种是内部曲折,一种是外部曲折。通过词根内部的语音变化来构成一个词的词形变化的手段,叫内部曲折;词根后增加词缀的方式叫外部曲折。第三,一种词形变化的语素可以表示几种不同的语法意义,换句话说,词根的一个附加成分不只表示一种语法意义,有时可以表示几种不同的语法意义。第四,词尾和词干或词根结合十分紧密,脱离开词尾,句子中词根就不能独立存在。屈折语与孤立语的不同在于,它的词根不能独立使用,词与词之间的关系以及其他语法作用都靠词的形态变化来表示。

  以汉语为突出的代表的我们称之为孤立语(词形变化少)。孤立语缺乏词形变化,但是词的次序很严格,不能随便变化,同时虚词的作用很重要。孤立语的主要特点有以下几个方面:第一,词序严格。由于孤立语缺乏词形变化,或者说词形变化极不丰富,一个词在句子中属于什么成分没有形态上的标志,完全是根据语序来确定,因此词序就显得非常重要。比如“你看我”,改变词序成为“我看你”,意思就相反了。第二,复合词多,派生词少。大部分合成词是由词根构成的复合词,这些词不带有表示各种语法关系的帽子(前缀)和尾巴(后缀和词尾),词的结构比较简单,往往是一个孤立的词干。所谓孤立语的称呼就与这个特点有关。

  在分词中有两种最基本的歧义。第一种情况是当有三个连续中文汉字时,中间一个与前后都可成词,比如:她凭自己的才能得到了这份工作。在这句话中,“才能”明显是一个词,没有任何歧义。但若又有一句话,比如:你这样的人才能够留下来,是我们的幸运。在这句话中“才”分别与“人”和“能”都能组成词。但实际上,“人才”和“能够”却应该分开。第二种情况可以归结为词性问题,在分词结束后,仍会有词性的歧义,这一点在英文中也同样存在。汉语作为孤立语,没有明显的形态变化,比如:我感觉他喜欢我。(动词)我的感觉很准。(名词)如果用英语说这两句话,应该是:Ifeelhelovesme.(动词)Myfeelingisreliable.(名词)同样一个“感觉”,其实是同形异义词。可是无论是中文还是英文中,一个词却可以有多重含义或词性,例如:“TheMongolsrosefromthesteppe.”这个句子中“rose”这个词便是存在歧义的词,计算机无法区别它究竟是一个名词还是动词。在理解过程上,这会造成极大的困难与误区。所以,因为有这种歧义的存在,计算机接下来还需懂一些自然语言的语法,进行多义词消歧。

  计算语言学,相对于其他学科,在现在还不是非常普遍。虽然现在主要的解决方法还是以统计规律为主,但语言学家也不应该放弃探索多种解决方案。追根溯源,机器处理自然语言的主体还是自然语言而不是形式语言。

  指导教师:刘滨梅

  参考文献

  [1]王金铨,王克非.计算语言学视角下的翻译研究.外国语.2008,(5).

  [2]杨宪泽.基于实例的机器翻译处理方法.计算机工程.2003,(12).

  作者仲佳琳杨宇

回到顶部