最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【整理】Jieba分词

Python crifan 227浏览 0评论
自然语言处理时,通常的文本清理流程是什么? – 知乎
-》
Jieba分词
fxsjy/jieba: 结巴中文分词
Python中文分词 jieba 十五分钟入门与进阶 – FontTian的专栏 – CSDN博客
nlp 分词 tokenize
自然语言处理之中文自动分词 | 白宁超的官网
https://bainingchao.github.io/2019/02/13/自然语言处理之中文自动分词/
paladin-t/tokenizer: 一个简单的中文分词算法,可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合。
Python 自然语言处理(基于jieba分词和NLTK) – Xy-Huang的博客 – CSDN博客
【总结】
jieba 结巴
  • 功能:中文分词
  • 口号:做最好的 Python 中文分词组件
    • “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
  • 特点:
    • 精确模式:试图将句子最精确地切开,适合文本分析
    • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
    • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
    • 支持繁体分词
    • 支持自定义词典
    • MIT 授权协议

转载请注明:在路上 » 【整理】Jieba分词

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
86 queries in 0.118 seconds, using 20.79MB memory