12.24 jieba，宇宙最强Python分词工具使用指南技术頭條網

结巴分词是Python语言中最流行的一个分词工具，在自然语言处理等场景被广泛使用。

因为GitHub写的文档太啰嗦，所以整理了一个简版的入门使用指南，看完可直接上手

安装

<code>pip install jieba
/<code>

简单分词

<code>import jieba

result = jieba.cut("我爱中国北京大学")
for word in result:
    print(word)
/<code>

输出

<code>我
爱
中国
北京大学
/<code>

句子切分成了5个词组。

全模式分词

<code>result = jieba.cut("我爱中国北京大学", cut_all=True)
for word in result:
    print(word)
/<code>

输出

<code>我
爱 

中国
北京
北京大学
大学
/<code>

全模式分出来的词覆盖面更广。

提取关键词

从一个句子或者一个段落中提取前k个关键词

<code>import jieba.analyse

result = jieba.analyse.extract_tags("机器学习，需要一定的数学基础，需要掌握的数学基础知识特别多，"
                                    "如果从头到尾开始学，估计大部分人来不及，我建议先学习最基础的数学知识",
                                    topK=5,
                                    withWeight=False)
import pprint

pprint.pprint(result)
/<code>

输出

<code>['数学', '学习', '数学知识', '基础知识', '从头到尾']
/<code>

topK 为返回前topk个权重最大的关键词
withWeight 返回每个关键字的权重值

去掉停止词私信小编01领取完整项目代码

停止词是指在句子中无关紧要的词语，例如标点符号、指示代词等等，做分词前要先将这些词去掉。分词方法cut不支持直接过滤停止词，需要手动处理。提取关键字的方法 extract_tags 支持停止词过滤

<code># 先过滤停止词
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
/<code>

file_name 的文件格式是文本文件，每行一个词语

分享到:

閱讀更多 有趣的程序媛 的文章

關鍵字: 北京大 GitHub 分词

12.24 jieba，宇宙最强Python分词工具使用指南

安装

简单分词

全模式分词

提取关键词

去掉停止词私信小编01领取完整项目代码

相關文章:

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

上有老下有小，我们真的跳不出这个人生循环了吗？

如果外面正在下小雨，你会突然想起了谁？

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？

生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？

为什么马铃薯不宜过早过迟播种？

疫情愈发严重，原油为何反而大涨？

生菜球很好吃，怎么种植才能高产呢？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？ ？

大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？

意蜂夏季喝什么水降温？

黄瓜种子催芽后种植需要打底水吗？

书友们展示一下自我感觉发挥较好的作品，一起学习？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？