欢迎访问文稿网!

英汉平行语料库的创建

范文之家 分享 时间: 加入收藏 我要投稿 点赞

英汉平行语料库的创建

    语料库的构建主要包括语料采集、语料加工和信息存储三个过程。

    2.2.1 语料采集

    为了构建容量大、时间跨度大和领域平衡性好的汉英平行语料库,本课题选择的语料时间跨度为近一个世纪(即1910年代至今),文学和非文学领域分布比较均匀,来源主要为民国成立以来的新闻、杂志、各种文学和非文学类作品,以及当代网络。早期语料的采集一般通过对扫描后的图像文件采用OCR识别,继之进行校对并保存为txt文本。目前该库采集的语料约为3000万字词(更多内容见王克非、秦洪武,2012)。

    抽样结构和样本选择

    创建语料库时,总体中的文本一般长短不一,要想让语料平衡,就不能照单全收,需要考虑从中抽取一部分。抽取多少,如何抽取,这个问题可谓众说纷纭。按照LOB的抽样方式,样本按不同的体裁比例不同,但每个样本大小相同,都是2000词,样本或多或少是从给定的体裁中随机选取的。这样做的好处是大小相同,便于比较。而按照BNC的抽样方法,每个文本样本最多为40000词,样本是从长文本的开始、中间或者结束部分随机抽取的。BNC中25%为文学创作,75%为信息性文本,如科技、商务、宗教、社科等等,各类文本的比例相同(见http://www.natcorp.ox.ac.uk/corpus/creating.xml)。以上是单语库使用的抽样方式,在创建平行语料库时,The English-Norwegian Parallel Corpus(ENPC)文本抽样大小为1万到1.5万词;就抽样结构而言,ENPC中60%为小说文本(30对双语文本片段),40%为非小说文本(20对双语文本片段,有关内容见http://www.hf.uio. no/ilos/english/services/omc/enpc/)。

    可见,语料抽取时样本大小和各类样本在总库中所占的比例并没有公认的细则,但一般要将文学文本和非文学文本区分开来,两类文本的比例在设计阶段就需要确定。不管怎样抽取,抽样时要尽量保留话语单位的相对完整性,如从某章或者某节的开始或结束处截取。

    考虑到翻译研究需要使用较大篇幅,以及汉语早期白话文素材(包括翻译文本)数量有限,本项研究在抽取样本时做了适当变通。英汉历时翻译语料库样本结构参照Brown语料库(但比例无法一致),样本大小参照The English-Norwegian Parallel Corpus(ENPC),绝大多数样本为15000英语词和对应的24000汉字,汉语译文取样最多的不超过30000字,一般以正文开始部分开始连续选取。个别译本较短,若不到3万字,考虑全收。

    同时,现代汉语历时语料库采用Brown的抽样结构,考虑到使用汉语字符和英语词的对等关系,每个样本为3200汉字。

    历时语料库一般要有100年的时间跨度,也就是连续三代以上语言使用者,这是语言变化模型构建的基础,也才能够证实语言变化(Claridge,2008:242)。本课题收集的语料自20世纪初至今,已有一百余年的时间跨度,理论上能够描述反映现代汉语的变迁过程及特征。

    双语历时语料库的设计:识别和段对齐

    目前,课题组已完成文学、非文学双语段对齐语料共计2000余万词(汉语1300万,英语800万);完成的语料制作均为1910—1920年间的白话翻译文本。在识别早期语料文本时,扫描的印刷品使用繁体字,印刷质量较差,大都字迹模糊。虽然使用识别功能强的Finereader11软件,识别的效果还是不够理想,依旧需要做大量的人工输入和校对工作,民国部分语料的采集工作因之进展较慢。

    2.2.2 语料加工

    采集后的初始语料需要进一步加工处理,包括元数据赋码、中文分词、英汉词性标注、句对齐和人工校对五个过程。如图21所示。

    首先要进行的是对语料样本进行元数据赋码,即对英汉对应语料所属语篇的文本属性或依附属性进行标注,标注的属性信息主要有源文本语种(source language)、目标语语种(target language)、文体类别、英汉篇名、作者、译者、出版社、出版年份、所属时代。其中文体类别分为三级,分别是文类(category)、文体(style)和体裁(genre),这样更利于观察语料的平衡性和特定时代、特定语体的研究。

    语料样本篇头信息的设计和添加

    在处理语料样本时,我们按照设计要求编写了语料降噪软件和适用于本课题研究的篇头元信息添加软件。使用篇头添加软件可以代替比较烦琐的复制操作,提高工作效率,确保语料篇头信息内容一致。如:

    图21 语料加工过程

    {

    $line=~s/\A(\S+)/<TEXT\_HEAD><LANGUAGE>Chinese<\/LANGUAGE><SL>English<\/SL><TITLE>Stoind<\/TITLE><AUTHOR>Van Lo<\/AUTHOR><CATEGORY>1<\/CATEGORY><STYLE>2<\/STYLE><GENRE>G<\/GENRE><PUBLISHER>Un Sp<\/PUBLISHER><TIME>19<\/TIME><ERA>B<\/ERA><SIZE>10<\/SIZE><\/TEXT\_HEAD>\n\n<TEXT\_BODY>\n\n$1/g;#matching and replacing all

    $line=~s/\Z\n/\n\n<\/TEXT_BOBY>/g;#matching and replacing all

    $line=~s/<TEXT\_BODY>\n\n(\S+)/<TEXT\_BODY>\n\n<p>$1/g;# matching and replacing all

    print FHO $ line;#print to the output file

    }

    该程序可以给语料文本批量添加预先设定的元数据(metadata);还可以根据需要成批修改header。篇头元数据标记添加完毕后直接填入相关的数据即可。

    目前使用的对齐软件沿用北外英汉通用对应语料库建库时使用的软件,对齐单位包含段落和大于等于句子的对齐单位,并能自动编码生成xml文件。另外,课题组已经研制出转换软件对英语文本的POS标注然后进行xml格式编码。这样,英语和汉语可以同样的方式被解析并编译,且都允许带有POS的检索。

    历时翻译检索平台设计

    设计header的目的是充分调用文本属性信息,让这些元数据在检索平台界面上充当检索条件。从现有的设计看,类别、风格、体裁、作者、时间、出版社、时代等元数据都可以用作检索条件,语料检索的准确性和针对性因之得以实现。目前,以xml格式存储的语料可以在专门设计的平台上使用,能充分运用篇头元数据,如图22的检索平台所示。

    图22 英汉语翻译历史检索平台界面

    分词和标注

    中文分词指的是将一个汉字序列切分成一个一个单独的词,它是中文信息处理的基础和关键。目前有很多已经比较成熟的分词算法(甘秋云,2013),如基于词典的分词算法、基于统计的分词算法、词典和统计相结合的分词算法以及基于理解的分词算法。当前也存在很多开源的中文分词软件,如IKAnalyzer、CWS和ICTCLAS4J等。本语料库使用的汉语分词软件为ICTCLAS。而英文词性标注软件前期语料为CLAWS,后期语料为Stanford POS Tagger。

    句对齐指将英汉对应语料以句对为单位对齐。我们在建库时将语料的对齐分为两级:段落级和句级。段落级指的是英汉语料中相对应的一段文字信息;而句级指英汉语料中最小的对齐单位,允许一个对齐单位包含多个句子,如,一句英文在汉语译文中可能对应多句汉语,反之亦然。

    采用现有的算法或软件进行中文分词、词性标注和句对齐都可能出现错误。因此,语料制作的每个步骤都需要专业人员进行人工校对、修改,最后得到可载入数据库的平行语料。

    2.2.3 语料存储

    当前语料库资源的存储主要有两种形式:文件存储和数据库存储。其中文件存储又包含&&&&和xml文件。当前现有的语料加工软件多是基于&&&&的,为了同现有的软件兼容,本课题构建的语料库采用了xml文件和数据库两种存储方式。

    采用xml文件存储语料的一个最大优势就是可以利用xml文件中的标签和属性反映语料的元属性信息、词性信息和句对齐信息。

    语料库作为语言材料的有序的集合,一般来说,它所包含的词语数量较大。对于达千万词规模的语料库,如果单纯采用普通文件格式存储,数据的管理、维护、检索和使用就可能出现很多问题,如以记事本存储的数据容易被编辑和更改;而且,如果缺少元数据,就更不易实现复合型语料检索。因此,除了使用xml文件之外,本项目还采用了关系型数据库Oracle存储语料。Oracle数据库是目前世界上使用最为广泛的数据库管理系统,采用Oracle数据库存储语料主要有以下优势:

    (1)提供完整的数据管理功能。数据库本身就具备良好的存储、管理和维护功能,而oracle数据库在大数据支持和数据安全性上有优势,存储和管理大规模语料时就更可靠和稳定,也便于语料库扩容。

    (2)作为关系型数据库,Oracle能提供灵活的数据检索功能和二次开发接口设计。语料库建设的一个关键环节是信息的检索和利用,而结构化查询语言(SQL)结合其他程序设计语言可方便快捷地开发图形化语料库管理和检索平台,满足用户对语料库不同需求的访问。

    (3)提供强大的分布式处理和数据库。可通过网络较方便地读写远端数据库里的双语语料数据,并能轻松地实现数据仓库、数据挖掘与分析的操作,方便对各种语言特征进行统计分析、如词频统计、历时变化和多语言对比等。

    本项目的双语平行语料库在数据库中设计了三个表格,分别是语篇表ARTICLES、句对表SECTIONS和单词表WORDS。其中,ARTICLES表中的每一条记录都是一对平行的英汉语篇,以及与之相关的元属性信息,将语料加工阶段标注的元属性信息设计在该表格中可以最大限度地减少数据的冗余,其设计结构如表2-1所示:

    表2-1 语篇表ARTICLES的字段设计及说明

    SECTIONS表中的一条记录对应一个英汉平行的句对及词性信息,其设计结构如表2-2所示:

    表2-2 句对表SECTIONS的字段设计及说明

    由上表可知,本项目将词性标注前后的英汉内容分开存储,这在数据存储上有一定的冗余,但是却大大提高了用户的检索效率。

    WORDS表中的一条记录对应一个英语或汉语的单词及词性信息,该表的设计可以大大提高检索某个词的对应语翻译的效率,并为后续的词典编纂研究提供可扩展的接口。其设计结构如表2-3所示:

    表2-3 单词表WORDS的字段设计及说明

221381
领取福利

微信扫码领取福利

微信扫码分享