欢迎访问文稿网!

中国共产党第十八届三中全会报告全文词云分析

范文之家 分享 时间: 加入收藏 我要投稿 点赞

中国共产党第十八届三中全会报告全文词云分析

中国共产党第十八届三中全会报告全文词云分析_英语教学改革理论与实践研究

    

    范应红

    摘 要:词云(wordle),是一种新的文本主旨信息呈现方式,它能对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。本文采用了语料库的技术,借助汉语分词工具ICTCLAS2014版和国际商业机器公司的词云图生成工具IBMWord Cloud,制成了党的十八届三中全会报告全文的“关键词云”(keyword clouds)图,然后结合词云图,用语言学的知识对报告全文进行语言学分析,把十八届三中全会报告全文这个语料中所蕴藏的信息规律或摘要信息传达给大家,并借此让更多的人了解词云这种新的信息呈现方式。

    关键词:十八届三中全会全文;词频;词云;语料库语言学

    一、词 云

    唐家渝(2013)指出,信息可视化作为一门涵盖文本智能分析、数据挖掘图形学、人机交互、信息设计、认知科学等方向的交叉技术,无论在算法设计和应用推广上,都存在相当开阔的探索空间。文本信息可视化分为三种类型,即基于词频统计的文本可视化、基于聚类的文本可视化和基于语义的文本可视化,这三种类型分别有不同的形式和应用(何恩贵、杜丙新,2013)。本文所涉及的词云,指的是一种基于词频的文本可视化形式。

    词云,就是利用语言分析技术,对大数据文本进行词频分析,并生成可视化图像的技术(李俊,2013)。词云图,又称文字云图,由词汇组成类似云的彩色图形,是文本词频统计并可视化显示的形象称呼,指的是语料蕴藏的信息规律的云状计算或云状呈现(Wiki,2013)。这种文本主旨呈现的新形式,它能对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。

    图1至图4是四个文本的关键词云效果图,它们形状各异,类似天上的“云”。

    二、十八届三中全会全文词云图的制作过程

    要制成十八届三中全会全文的关键词云图,至少得具备三个素材:十八届三中全会全文(电子版)、中文分词工具和词云生成工具。下面是十八届三中全会全文关键词云图的主要制作过程:

    

图1

    

图2

    

图3

    

图4

    (一)十八届三中全会全文的分词处理

    在对十八届三中全会全文进行分词处理之前,有必要说明一下什么是中文分词?中文分词(Chinese Word Segmentation)指的是将给定的中文序列切分为一个个有实际意义的词语(何恩贵、杜丙新,2013)。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多(范应红,2013)。

    本文所用的十八届三中全会报告全文来源于官方网站,把全文用文本处理器v3.0绿色版处理后,得到的是纯文本格式的文本。可以用来进行中文分词的软件目前已有数十种之多,比如MFSOU、SCWS、FudanNLP、ICTCLAS、HTTPCWS、CC-CEDICT、IK、Paoding、MMSEG4J、盘古分词、Jcseg等。本文采用了汉语词法系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)的最新版ICTCLAS2014版,其分词精度高达98.45%,它的创始人是张华平博士,他因此软件在2010年获得了中文信息处理领域的最高奖——钱伟长中文信息处理科学技术一等奖(张华平,2013)。ICTCLAS汉语词法分析系统,它的主要功能包括中文分词;词性标注、命名实体识别、新词识别,同时支持用户词典。用该软件分词,方便快捷,数以万计的汉语文本几分钟就可以处理完毕。

    (二)十八届三中全会全文的词云生成

    目前,词云的生成在国内尚无在线服务和软件生成工具,在国外已有较多在线生成的网站和生成工具,基本上是免费的。比如,IBM-word-cloud、Wordle、tagCloud生成器、ImageChef、ABCya、Tagul、字云、Word ItOut、Tagxedo、TagCrowd等。

    然而,大多数关键词云图生成工具目前都不支持汉语词云图的生成,但笔者通过互联网搜索研究发现,词云生成软件IBM-word-cloud目前就支持汉语词云图的生成。本文就是借助IBM-word-cloud对十八届三中全会全文的分词结果进行处理,得到了十八届三中全会全文的关键词云结果图,图5就是十八届三中全会全文的关键词云图示例:

    

图5

    (三)十八届三中全会全文关键词云图的语言学分析

    语料库语言学重描写和分析,语料库语言学的基本特征之一是对大量语言数据采取“频率优先”原则,即高频语言现象会被突出表现出来(许家金,2011)。图5的十八届三中全会全文关键词云图就能充分反映报告的总体内涵。

    词云将词语按照一定顺序和规律进行排列,如按照频度递减或者字母顺序排列,并以文字的大小代表词语重要性(唐家渝、孙茂松,2013)。透过词云图可以看到,制度、体制、机制、发展、建设、经济、生态、服务、农村等构成了政府的主要任务;还可以看到一些政府已经或将来将要解决问题的主要手段。例如,改革、加强、加快、健全、建立、提高、促进、推进、推、坚持、协商等是政府采用的主要手段。可见,语料库方法可根据观察需要的不同获得宏观或微观的认识。但语料库语言学,不同于其他多数语言学研究视角,它更强调对语言事实宏观的、趋势性的描写和分析。从图5我们可以看到,报告全文的关键词云图大小不一,一眼看上去,报告全文的摘要关键词基本上一览无遗。出现在词云图中的词都是那些出现次数较多的关键词,词云生成软件将这些关键词加以放大及粗体突出——即成为“关键词云”(keyword clouds)。这些从一定程度反映了过去10年及未来几年中国发展的主要方面。如果能与往届党的三中全会报告全文进行对比,就一定能看到中国所走过的发展历程和发展中心的变化。但就十八届三中全会全文的关键词云图而言,我们党目前所关注的问题一看便知。

    因此,“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,由于其字号的大小、字体的粗细和着色的不同——在醒目程度上也就自然有所不同,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。而决定“词云”级别的唯一因素,显然就是其在文本中出现的频次。频次越高,级别越高。可见,词云这种文本信息可视化的新技术,在让公众“听得懂,愿意听,记得住”十八届三中全会全文主要内容方面,应是一种不错的选择。

    从认知语言学方面讲,影响意义凸显的因素包括某种结构的使用频率(frequency)、人们对它的熟悉程度(familiarity)、约定性(conventionality)以及典型性(prototypicality),而在我们大脑里面形成的编码的意义越是凸显,则其获取的速度越快。词云图在阅读信息中所体现出来的凸显效果,正是意义凸显的表现。

    三、结 语

    本文借助了词云这种新型的信息呈现方式,将十八届三中全会全文关键词以“云图”的方式呈现在读者面前,从词云图上人们一眼就可以抓住本次大会的主要信息,且易记住。词云(wordle)这种新信息展现技术,已经开始大量在网络上存在,受到越来越多人的关注,它将在教育、文化、网络内容发布、信息获取等方面发挥十分重要的作用。它能帮助人们轻松快速地阅读到整个信息的关键词和主题,揭示关键概念并以一种全新的方式呈现在读者面前,而且我们也可以调整不同的字体、布局和配色方案,创建自己喜欢的模式,非常容易地将词云图保存或打印下来,随心使用,预计这种工具会得到更广泛的应用。

    参考文献:

    [1]Peggy.词云[EB/OL].[2014-03-08].http://hi.baidu.com/drkevinzhang/.

    [2]范应红.中国共产党第十八次全国代表大会报告全文词云分析[J].云南师范大学学报(增刊),2013(45):1-8.

    [3]何恩贵,杜丙新.中文文字云图生成技术的研究及应用[J].中国电化教育,2013(8):116-120.

    [4]李俊.大数据时代需要更多“词云”钥匙[J].中国记者,2013(4):2.

    [5]唐家渝,孙茂松.新媒体中的词云:内容简明表达的一种可视化形式[J].中国传媒科技,2013(11):18-19.

    [6]许家金.语料库语言学研究[N].中国社会科学报,2011-7-25.

    [7]张华平.ICTCLAS张华平博士的空间[EB/OL].[2014-03-25].http://hi.baidu.com/drkevinzhang/.

    (作者系曲靖师范学院外国语学院讲师)

221381
领取福利

微信扫码领取福利

微信扫码分享