北京日本学研究中心 施建军
外语教学除了外语教师及其教学经验等人的因素外,外语教材可以说是外语教学的核心因素。如何提高外语教材的开发质量和效率、缩短开发周期、减轻老师的工作量一直是外语老师关心的课题。随着对自然语言计算机处理研究的不断深入,今年来自然语言处理领域的研究取得了丰硕的成果,有的已经达到实用水平,日语的分词、词性标注、读音标注技术就是其中的一项。国外已经有人将其应用在外语的辅助阅读上,如何应用这一技术直接服务外语教学尚未见报道。
一、 日语的分词技术和分词系统的简介
和汉语一样,日语是一种书面语中单词之间没有物理界限的语言。因此,分词是日语计算机处理的基础工作。
根据学校语法,日语中至少存在3种小于句子的语言单位,因此,日语分词工作开始前必须确定分词的单位。即分词是切分出词、还是词素、还是句节。句节虽然是句法成分的直接构成单位,但是,由于句节定义本身存在缺陷和不足,导致用句节这个概念进行句法解释时容易引起混乱。如:
私は日本語の先生です
正确:(私は(日本語の先生)です)
错误:(私は/(日本語の/先生です/))
用句节分析句子引起的这种混乱在日语中不是个别现象。如果不作特殊处理,分词阶段将日语句子切分成句节将会给以后的句法分析造成一定的麻烦和困难。尽管如此,日本岐阜大学池田研究室还是开发了一个以句节为切分单位的分词系统(IBUKI),并且取得了较高的切分精度(98%)。
从词形上讲,出现在日语句子中的单词和词典里的单词在形态上存在一定的差别。这是由于日语的动词、形容词、助动词具有丰富的形态变化,出现在句子中的一般都是这些词的变化形式。日语中动词“表す”(表示)这个词在句子中可能有如下的变化形式:表す、表さ、表せ、表し、表そ等。另外,日语中还存在许多同形异义词,因此,如果笼统地将日文的分词工作看成将日语句子切分成单词是没有意义的。
切分成词素,也是有缺陷的。即把语言单位切分得过细,使得复合词往往被切碎。由于日语中词素和词在形态上一致的词很多,因此,日本现有的日语分词软件绝大多数都是以词素为单位进行日语句子的切分的,但是这些软件也同时注意到了尽可能不将复合词切碎。词素在日语中叫做形态素,因此日语的分词也叫形态素分析。
日语的形态素分析主要是完成四项工作:
1、 分词:将日语句子切分成形态素。
2、 活用形处理:将句子中用言的变化形态复原成词典里的词条形态
3、 确定词性:日语的单词一般都有确定的词性。多数日语分词系统能够在分词的同时就给出词性。
4、 标注汉字读音:跟汉语一样,日语汉字具有多种读法,多音词很多。同样的汉字在不同的语境中的读音是不一样的。因此,日语汉字注音也是日语形态素解析的一项重要任务。
上世纪九十年代以后,在日本涌现了许多分词系统,如:富士通的breakfast、NTT的すもも、日本奈良先端科技大学院大学松本研究室开发的CHASEN系统等。
其中chasen最为有名,并且得到了广泛应用。
为了论证日语切分系统chasen在教材开发中应用的可能性,我们用chasen对夏目漱石小说《哥儿》进行分词,并抽取30800词进行校对,对其优点和局限性进行了分析。30800词中出现错误299处,切分正确率为99.03%。有这样的精度,在教材的开发上应该是可以利用的。
二、日语的分词技术在教材开发上的应用设想
日语教材的编撰一般经过以下几个步骤:⑴选材;⑵单词注释、单词查重、编排单词表、编排单词索引;⑶注释语法项目、语法项目查重、语法项目索引;⑷注释句型、句型查重、编排句型索引;⑸编写练习;⑹教材印刷。传统的教材编写方法主要是手工作业,外语教师工作量大,编材周期长,特别是在注释单词、编排单词索引、查找例句等环节要消耗大量人力,而且不可避免地会出现单词、句型、语法等的漏注和重注现象,影响教材的质量。
90年代以来,由于激光照排业的兴起和计算机文字处理系统功能的完善,日语教材在编写过程中也应用了计算机,但是,这种应用主要是将计算机当作排版和印刷工具,来提高日语教材的印刷质量,计算机在编写教材的核心环节并没有真正发挥作用。
在日语教材的开发过程中应用日语的分词技术的主要思路是利用自然语言处理的新技术和数据库查询技术,特别是日语句子的计算机自动切分、词性自动标注、日文汉字读音的自动标注技术,凭借中日分类机器辞典、句型辞典和语料库,实现日语教材编撰过程中单词注释、单词查重、编排单词表、编排总单词表、句型查重、编排句型索引、索引生成的全自动化以及注释语法项目、语法项目查重、编排语法项目表、注释句型的半自动化。
要实现这一设想主要主要存在以下几个重点和难点:
1、日语句子自动切分和语法的自动标注
2、学校语法体系和句型语法体系的确定
3、计算机中日分类辞典的研制
4、单词自动查重、注释和索引
5、句型和语法项目的抽取、查重、注释以及例句查找
随着信息科学的迅猛发展,国内外在语言处理领域均取得了丰硕的成果。这些成果有的已经相当成熟,并且在许多领域得到了应用。近几年IBM公司推出的Voicetype语音录入系统,就是语音识别的研究成果在计算机输入上的应用。文字处理系统WPS2000和WORD2000中提供的语法纠错功能就是面向信息处理的语法学研究成果在计算机文字处理方面的应用。如何利用这些技术来服务外语教学也是值得我们研究的课题。
参考文献:
[1]松本裕治他 日本語形態素解析システム『茶筅』V2.0使用説明書 Copyright 1999年奈良先端科学技術大学院大学松本研究室