• 89阅读
  • 0回复

NLPIR智能语义技术实现自动大数据中文分词 [复制链接]

上一主题 下一主题
 

  网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题。而在搜索引擎中核心的部分之一是中文分词算法,它在一定程度上影响着检索的速度。


  中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
  中文分词,顾名思义,就是借助计算机自动给中文断句,使其能够正确表达所要表达的意思。中文不同于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词,相近词,如何给中文断句是个非常复杂的问题,即使是手工操作也会出现问题。中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。对于中文分词的研究对于这些方面的发展有着至关重要的作用。可以这样说,只要是与中文理解相关的领域,都是需要用到中文分词技术的。因此对于中文分词技术的研究,对于我国计算机的发展有着至关重要的作用。

快速回复
限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
上一个 下一个