「干货」五分钟学习使用语料库分析工具

这一章中我将进一步和你分享如何使用语料库分析工具。上一章中提及,常用的研究工具有,日本早稻田大学研发的AntConc、英国利物浦大学开发的WordSmith和CORPRO。其中,AntConc是免费的软件,WordSmith和CORPRO则需要费用。

在进行语料库分析前,我们先来简单了解一下语料库分析流程。


「干货」五分钟学习使用语料库分析工具

语料库分析流程

一、建立语料库

语料库分析中,我们所使用的语料库大多是自行建立的。国内比较知名的语料库大多是文学类或语言类语料库,对于传播科系而言,我比较推荐的是慧科搜索新闻研究数据库。这是由香港慧科讯业创建,香港特区政府和香港中文大学斥资成立。该库可搜索1000多种平面媒体和6000余种网站新闻(需要在某宝上购买账号或通过学校图书馆进行登入)。

需要注意的是,语料库分析法有效文本数建议在500以上,有效字数在两万左右。研究文本量足够,才能确保研究的准确性也有足够的可信度,最后的研究结论不会产生以偏概全的错误。

为何需要建立语料库?

建立语料库,需要考量我们所研究的文本内容和范围。例如,时间范围:五年内的新闻报道,特定议题范围:苏轼诗文、科技类报道、疫情报道或关于转基因,诸如此类。以自己所研究主题确定研究样本后,需要自行建立语料库。有以下几点好处: 1、确保文本在圈定的范围内。2、利于通过专业工具分析。3、确保范围内的文本适合使用。

如何建立语料库?

以新闻传播专业为例:研究主题为五年内(2014年-2019年)五家平面媒体,关键词为转基因(或基因改造)。总计本研究搜寻文章总计为 1193 篇,剔除不符该研究宗旨报导后共计纳入620 篇报导(纳入比率 51.97%)。


「干货」五分钟学习使用语料库分析工具

举例说明

建立语料库的方式,就是将研究文本复制贴入「记事本」。

这里建议三点步骤:

:1、按样本类型划分

2、之后按时间划分

3、将记事本文本改格式为「UTF-8」或「Unicode」(以使用工具所适用格式为准)


「干货」五分钟学习使用语料库分析工具

实践说明

二、建立字典

语料库研究方法中,建立完语料库后,紧接着就是设立字典。这一步的重要性在于,随后语料库将进行断词。


「干货」五分钟学习使用语料库分析工具

断词后效果

左图为断词前的完整文本,右图为断词后的文本。建立字典的意义就是语料库工具断词的依据。语料库工具最早是基于英文单词设计的,可以准确的对英文文本进行断词,但若是中文文本则需额外设立词典,防止中文语境中的一些词汇影响工具断词的准确性。

1、如何断词

设立词典后,对文本进行断词。以免费的研究工具SegmentAnt为例。左下角为研究文本,右下角为字典文本。设置好后导入字典,点击star即可开始断词。


「干货」五分钟学习使用语料库分析工具

Ant工具断词操作画面

断词后,需要重新返回文本审核一遍,将断词后文本中未断词正确的词汇,重新填入字典中,重新进行断词。

三、研究分析

将全部的文本进行断词后,恭喜你,就可以开始研究分析啦。


「干货」五分钟学习使用语料库分析工具

WordSmith工具分析示意图

以WordSmith为例,点击软件运行后,点击WordList,左上角新建文本,

点击Choose Tests Now。随后则是,右下图的页面。点击确定后,即可开始研究分析。

更多的研究流程,我就不详细说明啦。对于语料库研究方法而言,设立语料库和字典,是研究的基础和根本。随后进行断词和分析。语料库研究方法,比较繁琐的过程便是,收集语料库文本,将所要研究的文本从网络上抓取下来,放在记事本中。唯有这一步比较繁琐,因为研究文本的量往往不少。但好处在于,随后的研究都可以通过工具软件自行完成。我们研究者所要做的,就是读的懂数据,能进行自主分析。


「干货」五分钟学习使用语料库分析工具

语料库分析的视觉效果图,文字云


分享到:


相關文章: