欢迎大家关注我的,那里会分享我的项目总结以及所看的好博客
前段时间做了命名实体识别这个项目,在这里总结一下资源
命名实体识别的资料网上不多,尤其是让我们可以跟着做的。想要做这个方向,可以先找简单的入手。语料可以用人民日报标注语料,目前流行的方法有两种,一种基于CRF,一种基于深度学习。我个人强烈建议先做项目,再去深入理解原理,这两者相辅相成,才能成大事
一.项目
方法一:基于CRF做命名实体识别
- 主要介绍的是关于人民日报标注语料的预处理,利用CRF++工具包对模型进行训练以及测试。
- 主要是升级对上一篇升级,新添加了一些特征,着重介绍了如何生成组织名特征词这个特征。大家也许看的一知半解,进去读读便豁然开朗了
- 主要是总结了所有特征的生成思路,并对它们做了一个效果对比
方法二:基于深度学习做命名实体识别
二. 原理
原理的理解很不容易,这里主要推荐阅读书籍和博客。主读书籍,用博客来辅助理解
书籍推荐:吴军的《数学之美》,周志华的西瓜书《机器学习》,李航的《统计学习方法》
博客推荐:
1. CRF的原理介绍
2. HMM的原理介绍
3. BILSTM的原理介绍
三. 总结
中文的命名实体识别就到这里了,大家有疑问欢迎提出来一起探讨。另外要转载的话请联系我,谢谢各位了