回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

本文为3月29日晚,达观数据联合创始人张健在将门技术社群,分享如何在海量的文本数据中提炼出有价值观点的内容的回顾。

主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战。

以下为根据直播整理的文字内容:

一、什么是文本观点挖掘?

在简单介绍观点挖掘的基本概念之后,张健首先对“观点”的五个组成要素进行了强调:

1. 观点评价对象(客体);

2. 观点评价对象的属性。例如,我评价谁哪里哪里好,又哪里哪里不好,“哪里”就是属性;

3. 观点所蕴含的情感极性。包括正面、负面、中性等;

4. 观点的持有者。在考虑到处理问答、对话的流程,涉及到主体的识别;

5. 观点的时间。这对观点是有一定影响意义在的,因为随着时间变化,观点持有者也可能改变自己的观点。

结合自己的业务经验,张健罗列了观点挖掘可能涉及到的一些任务类型,具体而言:

  • 情感分类

    我们所收集到的一些观点文本,可能都存在一定的情感倾向性,觉得XX是好的,XX是不好的,这可以帮助分析文本的倾向性;

  • 观点抽取

    从一段文本中属于观点的文本内容抽取出来,主要是为了方便分析人员从文本中获取结构化的有用的信息;

  • 观点过滤

    主要是由于海量数据当中会存在大量无效的信息,这需要被清理掉,以免影响观点挖掘的处理效率和准确率;

  • 评价质量

    这并非评价好坏之分,而是对于分析人员来说,这些评价需要有足够的信息量,能够对销售决策更有帮助。这在电商场景当中最为常见;

  • 意图识别

    在很多场景下,都是可以根据观点来发现观点持有者真正的意图,例如可以发现这个观点持有者究竟想不想要购买商品。

二、为什么要做文本观点挖掘?

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

如上图所列举的,文本观点挖掘有非常丰富的应用场景,因而相对来说,也会有较高的商业价值。

1. 产品营销分析。例如我们可以用来分析运营商的营销策略是否恰当,通过对消费者的评价文本进行情感分类,可以获得一些正向或负向的反馈,由此来帮助改进策略;

2. 竞品对比分析。例如需要将自己的产品与竞品进行对比,来分析出产品的优劣势及发展策略。

以上这两方面,最主要是可为产品辅助决策。以前存在的大多是一些数值型的分析结果,例如网站的日活、流失率、留存率等,但却不能很直观地表现出究竟是什么样的原因导致了这样的结果。如果拥有产品的评价文本数据,那么我们就可以通过观点挖掘技术,将非结构化数据转化为结构化数据,从观点中获取更加直观、感性的信息,从而可能发现更多的问题。

3. 大众舆论导向。这是政府比较关注的项目,例如出台政策,想要调研该政策发布后的民意情况;

4. 用户画像。最简单的,会根据容易获取到的一些用户行为来进行判断,如果要做得更精细一点,那么我们就可以从用户自身留下的声音来挖掘出有效的信息。例如在小说网站的观点挖掘中,我们可以通过用户的书评来分析他对某些类型的偏好情况;

5. 精准推送。在做好用户画像之后,我们就可以根据用户的偏好情况来实现精准推送,提升收益率;

6. 预测分析。例如PPT右图的股票趋势预测图。我们可以通过社交平台评论观点挖掘,来分析舆论情绪分布,如图中的两条红色的情绪线(冷静、警惕),我们会发现股票指数与情绪指数是存在一定关联的。在业务场景中,我们对大量的股评报告进行语义分析,利用股评报告中蕴含的观点信息结合股市信息及其他可能的影响因素,来预测股票走势。

三、文本观点挖掘处理任务

情感分类

情感分类最主要的目标就是情感文本的情感倾向,例如正面、负面、中性等。某些企业可能要求更高,会要求分析出高兴、惊讶、愤怒等维度,这已经属于情绪分析的范畴了,需要更多数据的支持。本次课程仅止于正负面分析判断的介绍。

文本的情感分类包含三大类别:

1. 文档级别(document-level)的情感分类。判断文本整体情感态度。

2. 句子级别(sentence-level)的情感分类。 判断句子这个层次上的情感分类。

3. 属性级别(apect-level)的情感分类。因为一个文档/句子会表达很多观点,不同观点可能有不同的情感属性。倘使我们分析时需要聚焦到某个属性,就可用到这个层次的分析。

  • 句子级别的情感分类

张健首先依次列举了句子级别情感分类所使用的一些方法,包括监督方法和无监督方法。无监督方法中介绍了基于句法模板的情感分类和基于情感词典的情感分类。

其中,情感词典的构建是一件比较费力的事。因为不同领域的情感词典并不统一,需要有针对性地进行构建。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

监督方式的情感分类部分,介绍了基于机器学习的有监督方法与基于深度学习的有监督方法。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)
  • 属性级别的情感分类

回到情感分类的命题当中,刚才提到的更多是对一个句子或者一段文本计算出文本的情感极性。但如果一个句子当中,存在多种评价对象,或要获取到指定评价对象的情感倾向时,就需要用到属性级别的情感分类。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)
  • 跨领域情感分类

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

情感分类对于领域比较敏感,不同领域下的情感分类通常存在较大差异。跨领域情感分类是比较有实用意义的领域,近期的论文聚焦在迁移学习的方法来提升跨领域文本分类的准确性,但在实际应用方面还需进一步提升效果。

  • 多语种情感分类

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

多语种情感分类是为了解决指定语种标注数据不足的问题,使用语料充裕的语种(例如英语)的标注数据来提升情感分类效果。具体实现可基于翻译引擎,或基于语言分布表示。

观点抽取

观点挖掘当中除了情感分类,很重要的一步就是观点抽取,需要将文本当中有价值的信息提取出来。张健列举了电商场景下的案例来对实际操作方法进行了说明。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

观点过滤

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)
回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

例如一些虚假评论,从评论本身难以分辨,所以这个时候就需要结合多个维度的信息来构建特征,进行训练和判断。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)
回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

在特征类型当中,如语言特征。英文当中会有固定的频率,例如喜欢都大写,都发表在30字以内等语言特征。而行为特征也比较重要,例如网络水军,最基本的行为特征就是一条评论文本重复发,或者多次发布相似度较高的文本。

评价质量

最后需要提到观点挖掘当中的任务,是评价质量的问题。

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)
回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

观点挖掘的挑战

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

总 结

文本的观点挖掘,目前的技术手段已经能够分析出比较不错的结果。但是仍然存在很多处理得不够彻底的方面,譬如说上面提到的几方面挑战,或者文本中很多隐式的语义表达,很多情况下还需要依赖于标记数据集的增加,无法通过更好的技术手段去处理。

观点挖掘目前比较热门的是使用深度学习的方式去解决其中一些子问题。另外,观点挖掘可以通过与像知识图谱等其他领域的结合,获取更有价值的分析结果。例如情感分析与问答结合,通过分析如果存在情感交互的话,用户体验会更好。

此外,文本观点挖掘的发展还是主要依赖于NLP技术的整体提升。在工业实践当中,目前文本语料数据的积累还是比较困难,特别是短文本,具有稀疏性,很难通过简单模型去表达复杂语义。

......

-The End-

将门是一家专注于发掘、加速并投资技术创新激活商业价值的创业公司

的创投机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、伟景智能、Convertlab、迪英加科技等十几家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

将门2018招聘看这里!

企业战略合作、新媒体运营、技术专家、行业专家等多个岗位期待您的加入~

也欢迎您转给身边优秀的朋友!推荐成功、一经录用将获得15000元现金作为答谢!

回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)

点击右上角,把文章朋友圈

将门创投

让创新获得认可!

[email protected]


分享到:


相關文章: