语料库数据驱动的语言学习方法探析
发布时间:2019-05-29
摘 要: 数据驱动的语言学习方法引导学生基于大量的语料库数据观察、概括和归纳语言使用实例,自我发现语法规则、意义表达及语用特征。它提倡让学习者充分发挥自主性,强调语言学习中流利性与准确性的同步发展。本文主要分析数据驱动式语言学习方法的主要特征、应用和实现过程等。
关键词: 语料库 数据驱动 语言学习
1.引言
20世纪90年代初,Tim Johns提出了 “数据驱动的学习” (Data Driven Learning,以下简称DDL)方法。 目前,随着国内外逐步深入的语料库研究,DDL方法的理论体系不断丰富,在语言教学和学习中广泛运用。DDL鼓励学生通过分析大量语料,归纳语言规律,实现自主学习,也挑战以教师和教科书为中心的传统语言教学与学习。 “数据驱动学习”作为一种新的学习方法,其基本思想、实现过程等与以往的语言学习存在区别。 因此,我们要深入理解其理论基础和特点,摸索有效的实践方法。
2.DDL方法的理论基础
2.1DDL方法的主要特征
数据驱动学习(DDL)方法的基本思路是让学生从大量语言实例中发现语言规律。 由于语料库数据揭示了以前被忽略的语言学习模式, 学生通过语料库可以发现教师忽视的或教材中不包括的一些语言现象。DDL创建的是学生通过分析语料库提供的索引行或句子能够回答问题的环境。 相比以往的语言教学,DDL主要具有以下特点:
2.1.1注重自主学习,培养自学能力。
在传统的语言教学模式中,教学进度、教学形式、教学重点完全由教师控制, 这种方式极易使学生成为出自同一 “流水线”的“产品”,还会降低部分学生的学习兴趣,限制学习能力的发展。 数据驱动学习以学生为中心,强调学生的自主学习,鼓励发挥其主体作用,帮助学生建立自我管理和评估机制。 教师在数据驱动学习中担任“组织者、协商者和引导者”的角色,帮助学生明确学习目标,培养自学能力。
2.1.2基于语料库,提供真实的语言学习环境。
在以往的语言教学中,仅靠教材和参考书目,学生接触的是由教师通过内省的方法编造的例句, 这种方式提供的学习材料极为有限,缺少生动性和丰富性的实际情境,且部分语言材料的真实性偏低, 使学习者对知识难以进行深度建构。 比如汉语中有许多近义词,这些词汇中的微妙差异是不能仅凭教师经验或词典解释的,学生极易产生误解误判,从而混淆使用。 DDL方法的语料都来自于真实的语言环境,学生通过观察真实的语言,主动发现规则和特点,将其转化为自身语言能力的一部分。 在这一方面,以往的教学模式和教学材料难以与之相比。
2.1.3突出学习中的发现和探索。
语言学习不仅是简单的教师讲解的过程, 其关键是将重点由教师的“教”变为学生的“学”,让学生根据自身需要发挥能动性,完全参与教学全过程中,制订教学计划,准备教学材料,确定教学重点。 数据驱动的学习方式鼓励学生通过对真实语言数据的分析,引导学生不断发现和探索,获取更加完整深刻的语言知识。
2.1.4鼓励自下而上的归纳式学习。
以往的语言教学模式是教师先讲解语法规则, 之后举例说明,这种方法极易出现学生对语言分析不透、语法理解不深的现象。 语料库提供的语言材料是真实生动的,学生从中归纳语法规则,转化为自己的语言能力,这种自下而上的归纳式学习与以往的教学模式相比, 能够帮助学生更加直观准确地获取语言知识。
2.2DDL方法的应用
2.2.1在词汇学习中的应用
在词汇教学中语料库资源和DDL方法主要体现在对词汇的用法和意义教学中。 通过关键词的检索,语言学习者体验词汇或词组在不同语境中的准确用法,增加感性认识,通过分析比较,掌握词汇之间的微妙差异,方便学习者学习词语用法和词语搭配。比如,“应付”和“对付”是同义词。它们在《现代汉语词典》(修订版)[1]中的解释如下:【对付】①应付:学了几个月的文化,看信也能~了②将就:旧衣服扔了可惜,~着穿【应付】①对人对事采取措施、办法:~局面|~事变|事情太多难于~②敷衍了事:~事儿从这些解释中很难看到它们之间的微妙差异。 以下是这两个关键词的索引行 (数据来自于中国传媒大学有声媒体语料库,2007-3):(1)居委会立刻召开了紧急会议,商量【对付】小偷的办法,【对付】小偷得知己知彼。 (含击败意味)义。 (含击败或挡开意味)(3)应该说【对付】中国功夫,外国选手单挑或许还行。(指采取措施应对)(4)通过车队调配,并按里程路费转帐收费,以【应付】车队各项开支。 (指将就、凑合、周旋)(5)我敢说不和管有什么情况,我都能【应付】。(指解决、应对)(6)他得更加成熟才能【应付】许多事情,这需要时间。每头熊个性不同。 (指采取一定的措施、办法)从以上用例可以发现这两个动词在意义和用法等方面的不同。
2.2.2在语法学习中的应用
目前,语法教学主要是教师讲解和句型练习,学生处在较为被动的地位。 枯燥的教学方式使语法成为学生在语言学习过程中最薄弱的环节,而DDL方法则是通过大量真实鲜活的语料,引导学生主动发现语法特点和使用规则。 例如:以下是“了、着、过”三个助词在“动词v+?”结构中出现情况。这三个词语,在句子中“了”的用法比较复杂,“着”和“过”的位置相对比较固定。(7)我/r听说/v你/r好像/v三/m秒/q就/d爬/v上去/v了/y。 /w (表示已经发生的情况)(8)其实/d你/r这个/r事/n报道/v很多/m,/w我们/r也/d看/v 了/u很多/m(表示完成)(9)后来/t到/v山洞/n里/f去/v隐居/v去/v了/y(跟说话的时间相联系,表示事态出现了变化)(10)我们/r三/m条/q犬/Ng,/w就/d围/v着/u他/r蹦蹦/v跳跳/v,/w(强调状态的持续)(11)这/r辈子/q/ky让/p我们/r都/d记/v着/u你/r呢/y? /w(表示过去到现在一直在进行的动作)(12)帮/v过/u的/u人/n不计其数/i(表示动作的完结)(13)尽管/c仅/d读/v过/u3/m年/q书/n,/w(曾发生的动作或存在的状态)(14)因为/c我/r没有/v暂住证/n也/d被/u罚/v过/u50/m块/q 钱/n(表示过去的经历) 3.DDL方法的实现步骤 Tim Johns(1991)[2]将数据驱动的语言学习过程分为三个阶段:提出问题(Identify)、材料分类(Classify)和归纳总结(Generalize)。 所以,在数据驱动语言学习过程中首先要解决的问题是语言材料的选择(语 料 库 的 建 设)、检 索 工 具的开发(运用)和教学(学习)的设计等。 下面就这些问题进行探讨:
3.1多样化语料库的建设
DDL方法需要容量较大的语料库,因此,首先要建好具有一定规模和代表性的语料库, 然后在语料库检索的基础上对材料进行处理。 选语料库时应当综合考虑各种因素,选择合适的材料, 这样才能起到激发学习兴趣和动力的积极作用。 目前汉语语料库建设较成熟,有北京大学中国语言研究中心CCL语料库、北京语言大学BCC语料库和国家语委语料库等。 其中,CCL是生语料库(除了分类、题目、作者等元信息外), 正文部分未经过任何加工处理;BCC是熟语料库,语料经过分词、词性标注,少量语料库还做了句法分析。 CCL的语料库有部分口语(北京话调查)语料,包含部分影视作品(如百家讲坛、周星驰电影等)语料、网络语料、书面语语料。其中,报纸语料占绝对大比例。 国家语委语料库中的现代汉语语料库样本数(篇章数)为9478,总词语个数为162875个,该语料库的时间跨度大,类别广泛,提供分词、词性信息和多种检索模式。
3.2检索工具的选用
目前,许多语料库都具备索引功能,如Mconcord,Concordance, Wordsmith等。 在这些软件中,可以自动检索出行一定数量的索引行,并以关键词为中心在屏幕上显示出来,这种方法可用于词义、语法和词语搭配的学习。 目前可用的在线资料较多,比如谷歌、百度、搜狗等依托海量的汉语数据和智能化的汉语识别技术,为用户提供全面、权威的汉语数据和智能高效的汉语查询服务。 另外,百度汉语、词语库、汉语大辞典、造句网等。 其中,词语库(www.ciyuku.com)能够提供经典词语解释、词语大全、造句、诗词诗句、名言名句、网络词语等。 汉语大辞典(www.hydcd.com)能够提供汉语大辞典及、成语词典、古文、古诗词、近义词、反义词等在线查询,以及好词好句好段摘抄大全等。造句网(zaojv.com)提供各种词语的例句,包括成语和关联词造句,并按学习者的程度划分“小学生造句”和“中学生造句”板块。 此外,还有一些习题生成软件工具, 对于发挥语言学习者在课堂中实验和研究具有重要作用。 这种学习方式能够帮助读者更好地理解目标语言的结构和功能。
3.3教学(学习)的设计
以往教科书的语言偏向书面化,更新速度较慢,而语料库则能够提供偏向生活化、实用化的学习资料,教师可以此确定教学内容和重点。 数据驱动学习的具体方法多种多样,教师可以结合一些常见的语言现象、教学经验和学生素质,在教学准备阶段, 针对教学重难点进行检索, 设计教学过程,准备教学材料,采取最佳的教学方式,指导学生掌握语法规则和使用特征,深化学习印象,培养学习能力。 或者教师可以给学生提供未经编辑的原始语料, 指导学生根据需要独立建设小型语料库,在这一过程中,学生可以更加全面地发挥能力和完善语言知识结构体系。
3.4教学效果反馈
语料驱动的教学模式具备的优点除了提供新型教学模式之外, 还能够在教学效果反馈方面给教师提供一定的辅助。 DDL模式便于教师发现学生的薄弱点,这一反馈方式相比以往的卷面反馈更加直观高效, 同时要求教师具有敏锐的观察能力和高度的归纳能力。除课堂反馈之外, 语料库在试卷命题方面也能起到不可小视的辅助作用。 以往教师命题都是根据教材或往年的试卷材料,这些材料更新换代的速度较慢,在时效性上相对滞后。 在语料库驱动的教学模式下,教师可根据语料库中实时更新的语言材料设计相应的考试内容, 检查学生的学习情况,这种教学效果的反馈将更加真实准确,能更加直观地反映学生的薄弱环节, 教师也能够根据反馈的结果及时调整教学节奏和重点。 4.结语信息时代,语言教学与学习产生重大变化,其中数据驱动的语言学习模式能够发挥积极的作用。 数据驱动的语言学习和传统语言教学可以相互完善,使语言教学更加高效,成果更加突出。 本文主要分析了数据驱动式语言学习方法的四个特征及在词汇和语法学习中的应用及实现过程等。
参考文献:
[1]Johns T.. Should you be persuaded: Two examples of data-driven learning [J]. English Language Research Journal, 1991(4).
[2]甄凤超.语料库数据驱动的外语学习:思想、方法和技术[J].外语界,2005(4).
[3]中国社会科学院语言研究所.现代汉语词典修订版[M].北京:商务印书馆,1998.
语料库数据驱动的语言学习方法探析相关论文期刊你还可以了解:《网络流行语的构成和特点探究》