Java基础、中级、高级、架构面试资料

HanLP自然语言处理包特性总结

JAVA herman 3051浏览 0评论
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

HanLP 能够提供自然语言处理,中文分词,词性标注,命名实体识别,依存句法分析,关键词提取,自动摘要,短语提取,拼音,简繁转换等特性。本文主要是 HanLP 的入门介绍篇。

HanLP 全称是Han Language Processing,中文为:汉语言处理包。

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:

  • 中文分词
  • 词性标注
  • 命名实体识别
  • 关键词提取
  • 自动摘要
  • 短语提取
  • 拼音转换
  • 简繁转换
  • 文本推荐
  • 依存句法分析
  • 语料库工具

其中中文分词有6种处理算法:

  • 最短路分词
  • N-最短路分词
  • CRF分词
  • 索引分词
  • 极速词典分词
  • 用户自定义词典

命名实体识别也有5中算法:

  • 中国人名识别
  • 音译人名识别
  • 日本人名识别
  • 地名识别
  • 实体机构名识别

关键词提取主要算法是:TextRank关键词提取。自动摘要主要是TextRank自动摘要算法。还有基于互信息和左右信息熵的短语提取算法。

拼音转换方面有:

  • 多音字
  • 声母
  • 韵母
  • 声调

简繁转换

  • 繁体中文分词
  • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)

文本推荐

  • 语义推荐
  • 拼音推荐
  • 字词推荐

依存句法分析

  • 基于神经网络的高性能依存句法分析器
  • MaxEnt依存句法分析
  • CRF依存句法分析

语料库工具

  • 分词语料预处理
  • 词频词性词典制作
  • BiGram统计
  • 词共现统计
  • CoNLL语料预处理
  • CoNLL UA/LA/DA评测工具

目前 HanLP 汉语言处理包在 github 上开源以来,累计 star 已快突破5000了。在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » HanLP自然语言处理包特性总结