近日,微信、微博、贴吧被网民举报涉及谣言、低俗等内容,暴露出互联网时代,各类内容社交平台对于虚假信息的管理不力。以谣言为例,事实上,以这些应用每天产生信息的量级来看,人工审核每条可能的谣言是很困难的,我们能不能利用机器学习,筛选出可能的谣言,并把危险的谣言优先审核呢?
为了利用机器学习来解决这类和生活息息相关的问题,我们不仅得了解机器学习的算法,更重要的是用可以计算的概念去定义问题。
在谣言这个问题上,概念的可计算性尤为重要。概念的定义有很多种方法,但是可计算的概念往往是少的。选取易于计算的概念,往往是机器学习成功的前提。
谣言这个词大家都知道,但是谣言的定义有哪些?小编在看了百度百科之后,总结了谣言的几种定义:
定义1 谣言是对人、对事、对社会事件的一种不确定事件的传播。
定义2 受众未被明确或暗示虚构的前提下,被捏造及传播的与事实不同甚至相反的言论即是谣言。
定义3 指没有事实存在而捏造的话。
定义4 传播学中,谣言=(事件的)重要性×(事件的)模糊性
那么 这些概念有哪些是可以用于计算的呢?小编在仔细思考这些定义时,注意到2、3的定义中涉及到事实相关的概念,然而事实是难以判断的,所以2、3两种定义都很难计算。
对于定义4而言,事件的重要性容易衡量,但是事件的模糊性却难以判断;许多谣言言之凿凿,然而最后却被证实是子虚乌有。
与其它定义不同,定义1是一个完整的可计算概念。定义1包含了两个部分,一个是不确定性,第二个是事件。
不确定性的可计算性在于,受众在接受信息的时候,天然会对这类信息发出质疑。例如,小编的爸妈在微信群里转发各类身体健康、食品安全的谣言时,小编的第一反应是问“真的假的啊?” “这是谣言吧?”。利用这类负反馈,我们可以设计出一个召回很高却又很简单的算法。
事件的可计算性在于,此类都是陈述句。我们可以用句法分析,得到一个句子是否是陈述性的事件。结合定义4的“重要性”,我们可以对文本训练一个分类器。涉及到相关部门、社会、法律的事件最重要,涉及健康、传播性疾病、金融等其次,还有就是类似末日这些谣言最不重要。 通过句法分析和分类器,我们可以对召回的谣言进行排序。重要的疑似谣言,可以先利用审核的人力,优先解决。
可计算性是数据科学以及人工智能的核心,只有概念具有可计算性,这个概念才能被机器学习 、数据挖掘的各种算法衡量。
以评论排序为例,什么是一条好的评论?好的评论可能是见解深刻的,可能是幽默的,可能是发人思考的。但是最容易计算的概念,大概就是一条评论被认可的可能性。
众所周知的点赞排序,衡量的就是评论的被认可的可能性。所以你可以看到大大小小的内容平台的评论排序,都是以点赞为最核心的指标。
那么好评论还有什么可以计算的定义吗? 小编这里有几个想法
好的评论是大家会反复看,反复思考的
好的评论是看了会想回复的
好的评论是需要大量时间创作的
以上三种定义都是可以计算的,定义1可以通过预测用户会在这条评论停留多久来衡量,定义2可以通过用户回复这条评论的概率来得到,定义3可以直接记录评论的创作时间,然后利用创作时间直接对评论进行排序或者加权
看完了这些例子,你是否对可计算概念有了一些认识?