手把手教你用Python搭建一个AI智能问答系统科技頭條網

导读：智能问答系统是自然语言处理的一个重要分支。今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统。

具体的效果如下所示：

下面简单了解下智能问答系统和自然语言处理的概念，智能问答系统是自然语言处理的一个重要分支。现在普遍认为智能问答能够独立解决很多问题，但是必须要承认现在技术所处的初级阶段的性质。也就是说，智能问答系统在现阶段最大的价值在于为客服人员赋能，而并非独立于人自行解决众多目前还有巨大错误率和不确定性的问题。

一旦具有这样的思想基础——通过智能问答系统为客服人员附能，那么将智能问答系统做成一个工具和产品的基础就有了，只有通过产品化、工具化的方式，才能够实现这个预期。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

下面开始搭建我们的智能问答系统，首先我们需要导入的库：

import requests
from lxml import etree
import jieba
import re
import sys,time
import os

其中requests库用来向搜索引擎搜索答案，lxml用来获取答案，jieba库用来提取问题以及做出问题分析，re是处理语言的正则匹配库，sys以及time库用来调试输出效果，os模块用来写入文件以搭建模式选择。

我们知道一个真正的语言回答应该是逐字回答的才符合人的回答习惯，下面为了达到语言对话的效果，我们定义一个函数：

def print_one_by_one(text):
 sys.stdout.write("\\r " + " " * 60 + "\\r") # /r 光标回到行首
 sys.stdout.flush() #把缓冲区全部输出
 for c in text:
 sys.stdout.write(c)
 sys.stdout.flush()
 time.sleep(0.1)

就是用来逐字输出的效果。

下面是真正搭建的部分，为了对语言进行处理，首先我们要加载停用词，去除掉语言中无意义的词，比如“了”，“啊”等等：

stop = [line.strip() for line in open('stopwords.txt',encoding='utf-8').readlines() ]

开始执行的判断输出一下，以及使用者的输入：

print("小智：您好，请问您需要问什么呢(对话（快，慢），可控制输出速度)")
input_word=input("我：")

为了控制文字输出的速度，我们借助文件读取控制模式：

#默认为慢速
print(input_word)
if input_word == "快":
 f = open("1.txt", "w")
 f.write("0")
 f.close()
elif input_word =='慢':
 f = open("1.txt", "w")
 f.write("1")
 f.close()

下面用Jieba分词，去除掉无用的停用词：

sd=jieba.cut(input_word,cut_all=False)
final=''
for seg in sd:
 #去停用词
 print(seg)
 if seg not in stop :
 final +=seg
 process=final

此时process是仅仅最简单语言的处理结果，为了适应更多语言习惯，使用正则表达式匹配另一种语言习惯，一个“问”时的处理：

#匹配问后面全部内容
pat=re.compile(r'(.*?)问(.*)')
#一个“问”时的处理
try:
 rel=pat.findall(final)
 process=rel[0][1]
except:
 pass

另外再添加语言习惯，两个“问”的处理：

#两个问时的处理
try:
 rel=pat.findall(final)
 rel0=rel[0][1]
 print(rel0)
 rel1=pat.findall(rel0)
 process=rel1[0][1]
except:
 pass

这样输出的效果就可以适应多种语言习惯，为了区分问答句和模式选择句加入判断语句：

print("问题："+process)
if process=='':
 print("小智：OK")

在else中使用搜索引擎获取答案，首先使用请求头，百度百科网址：

header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
 url=requests.get("https://baike.baidu.com/search/word?word="+process,headers=header)

为了防止中文乱码问题，使用编码如下:

#为了防止中文乱码，编码使用原网页编码 

 url.raise_for_status()
 url.encoding = url.apparent_encoding

下面使用匹配获取内容：

bject=etree.HTML(url.text)
 print(object)
#正则匹配搜索出来答案的所有网址
#获取词条
head =object.xpath('/html/head//meta[@name="description"]/@content')
#详细内容
 para=object.xpath('/html/body//div[@class="para"]/text()')

然后为了判断提问者提出的问题是否可行，以及模式匹配的选择，加入判断：

result='小智：'
 for i in para:
 result+=i
 if result=='小智：':
 print("小智：对不起，我不知道")
 else:
 f = open("1.txt", "r")
 s=f.read()
 if s=="1":
 print_one_by_one(result)
 else:
 print(result)

然后循环执行问答系统即可：

while(True):
 if os.path.exists('1.txt'):
 chuli()
 else:
 f = open("1.txt", "w")
 f.write("1")
 f.close()
 chuli()

如下图所示，提问的语句可以任意，不需要固定格式，这样才具有智能性不是吗？

分享到:

閱讀更多 有趣的程序媛 的文章

關鍵字: 人工智能电脑语言

手把手教你用Python搭建一个AI智能问答系统

相關文章:

以 AI 对抗 AI：“守护者”杨勇和腾讯安平的进化

154 万 AI 开发者用数据告诉你，中国 AI 如何才能弯道超车？

让 AI 训练 AI：揭秘阿里、浙大的 AI 训练师助手

BAT 三位医疗 AI 大佬出山，复盘 AI 战疫往事

今晚开课丨BAT 三位医疗 AI 大佬出山，复盘 AI 战疫往事

ai，ai，ai

AI 大牛沈向洋就职清华演讲全录：人类对 AI 如何做决定一无所知

03.06 AI 大牛沈向洋就职清华演讲全录：人类对 AI 如何做决定一无所知

02.28 尘埃落定！AI 大牛贾佳亚离开腾讯优图，创立思谋科技，投身差异化 AI 创业

NVIDIA AI 助力初创公司通过 AI 设计和控制建筑物

AI 没能让人类失业，搞 AI 的人先失业了

飞天 AI 平台重磅发布！阿里拥抱 AI 这五年

AI 遇冷？斯坦福年度 AI 报告来揭秘

寻找 AI 落地之王：2019 AI 最佳成长榜正式启动！

李开复：AI 和互联网同样伟大，未来 AI 是工程师必备技能

AI Insight：放弃幻想，搞 AI 必须过数学关

海信全面 AI 电视，AI 体验全面升级

创新 AI 力量，云知声获智东西 2018 AI 年度生产力创新奖

思必驰发布低功耗 AI 芯片 AI 交互智能生态布局初显规模

思必驰发布始终在线、低功耗 AI 芯片，AI 交互智能生态布局初显规模

“AI+”时代｜以数据为核，AI 正重塑垂直行业

业界｜专访「AI 教父」吴恩达：AI 将改变所有人类工作，下次寒冬不会到来

他曾说要让机器人考上清华北大，如今陷入“AI”造假风波

亚马逊 AI 在简历筛选中歧视女性？AI 犯错不是第一次了

AI、石墨烯、超广角、超微距……，华为Mate 20即将来袭

坚守普惠 AI，看华为云如何让 AI 落地！

09.21 快手 AI 技术副总裁郑文：快手在内容生产&内容理解上用到的 AI 技术

09.18 从“AI+”到“+AI”，AI需发展必须有而非感觉好的产品

商汤科技汤晓鸥：不存在 AI 行业，只有 AI+ 行业｜2018年世界人工智能大会

做底层 AI 框架和做上层 AI 应用，哪个对自己的学术水平（或综合能力）促进更大？

AI 芯片、L4 量产车、智能小程序，All in AI 一年后的百度交出了怎样的成绩单？

李彦宏：百度为 AI 投入年营收的15%，推出首款无人驾驶大巴与全功能 AI 芯片

荣耀10 GT版本正式发布：荣耀10 GT版手机什么时候发售？

「Ai」资本追着“AI+教育”跑 很多人都慌了

VC笔记7：无人驾驶百度和小三的撕，景驰，pony.ai，roadstar.ai

AI 开发者高薪太诱人？请收下这份给国内开发者转型 AI 指南

菜鸟推平台级 AI 产品，华为携手科大讯飞，共同做强 AI 生态

「资讯」震撼！AI 终于来了！AI 要来南宁了！可，谁是AI？

AI 可翻译婴儿哭声；药房请来人工智能看病抓药｜一周 AI 新闻

发布首款物联网 AI 芯片雨燕，云知声做 AI 芯片的逻辑和优势是什么？

波士顿动力机器人会跑了；AI+无人机助力长城修复｜一周 AI 新闻

AI 破解梵蒂冈秘密档案；智能手表让手臂变触摸屏｜一周 AI 新闻

技术人创业者夏粉：用 AI 创造 AI

用设备和场景倒推 AI 技术进步，智能手机+IoT 是 AI 的无限生态

百度：不仅All in AI，实际 AI 早已 in All

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

上有老下有小，我们真的跳不出这个人生循环了吗？

如果外面正在下小雨，你会突然想起了谁？

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

「Ai」资本追着“AI+教育”跑很多人都慌了

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？