最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【整理】NLP对话中命名实体识别

nlp crifan 268浏览 0评论
  • 已有:音视频
    • 名字,tag关键词等
  • 需求:用户说了话,比如
    • I want play some peppa pig video
    • I want look some peppa pig video
  • 完整流程
    • 意图识别
      • 分类:看视频
    • 看什么视频
      • 找 NER=named entity recognition=命名实体分析
        • 小猪佩奇
    • 传给 播放模块
      • 播放视频
  • 此处要做的:第二步 命名实体识别
    • 识别出 peppa pig
  • 背景
    • 之前张蹲已实现主体功能
      • 基于词典
  • 命名实体识别
    • 处理方式
      • 最简单:基于词典
        • 常见处理方式
          • TrieTree:数据结构
        • 之后
          • 可能会涉及到优先级排序
            • 比如
              • 看(假定也是一个视频名)
              • 小猪佩奇
      • 高级点的:基于数据或模型
        • 前提
          • 有很多已标注的数据
            • 供训练
        • 最流行:词向量
        • 序列标注:
          • 特点
            • 特殊的一类
            • 依赖于输入数据顺序
          • 典型场景
            • 分词
            • 词性标注 POS tagging
            • NER命名实体识别
          • 常见算法
            • HMM
            • CRF
    • NER有很多方法模型
      • 最常用:序列标注
        • 基于训练的
        • 已有数据集
          • 现有一个 中文:北大 人民日报 预料
            • 人名,地名,机构名
      • 我们要的
        • 视频名,关键词名
【关于序列标注】
序列标注的逻辑:
A A B B C C C D D
标注
B E B E B I E B E
  • B=Begin
  • E=End
  • I=Inside
未登录=词典中没有的词
字符 A -》 函数function 映射为 算法 -》 一个标签
所有分类方法:x ->f(x) -> L=label=标签
特征表示
TrieTree的步骤:
  • 已有
    • 词典
      • 要识别东西的词典
        • 搜mongodb中storybook的title
        • 后续预处理
  • 词典构建成Tire树

TODO:
  • 预先学习:
    • 搞懂TrieTree
  • 已有
    • 词典
      • 暂时:
        • keyword表type=topic
          • 目前几十个
  • 输入
    • 10句话
      • 比如:
        • I want play some Peppa pig video
        • 10多句话
    • 以后
      • 网上找更多数据
        • 视频播放网站,问答类 用户的query
  • 输出
    • json
      • type:topic
      • entity:peppa pig
      • weight:0.9
        • 范围:0~1

转载请注明:在路上 » 【整理】NLP对话中命名实体识别

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
86 queries in 0.108 seconds, using 20.52MB memory