外观
文本预处理
Jieba 分词库
jieba 分词库是由一名百度工程师研发的中文分词库,分为三个模式:精确模式、全模式分词、搜索引擎模式。
import jieba
content = "人工神经网络也简称为神经网络,是一种模仿生物神经网络结构和功能的计算模型。"
result1 = jieba.cut(content) # 精确模式,对象为生成器
print(result1) # <generator object Tokenizer.cut at 0x000001EB61E63480>
result2 = jieba.lcut(content) # 精确模式,对象为列表,l代表list
print(result2)
# ['人工神经网络', '也', '简称', '为', '神经网络', ',', '是', '一种', '模仿', '生物',
# '神经网络', '结构', '和', '功能', '的', '计算', '模型', '。']
result3 = jieba.lcut(content, cut_all=True) # 全模式
print(result3)
# ['人工', '人工神经网络', '神经', '神经网', '神经网络', '网络', '也', '简称', '称为',
# '神经', '神经网', '神经网络', '网络', ',', '是', '一种', '模仿', '仿生', '生物', '神经',
# '神经网', '神经网络', '网络', '网络结构', '结构', '和', '功能', '的', '计算', '模型', '。']
result4 = jieba.lcut_for_search(content) # 搜索引擎模式
print(result4)
# ['人工', '神经', '网络', '神经网', '人工神经网络', '也', '简称', '为', '神经', '网络', '神经网',
# '神经网络', ',', '是', '一种', '模仿', '生物', '神经', '网络', '神经网', '神经网络', '结构', '和',
# '功能', '的', '计算', '模型', '。']