• 295阅读
  • 0回复

灵玖软件Nlpir Parser智能平台关键词提取 [复制链接]

上一主题 下一主题
 


随着互联网的迅猛发展,网络上的信息与日俱增,互联网已成为人们获取信息的重要来源。互联网和信息技术的发展使我们正面临着一个信息过量而知识贫乏的困境。如何在海量信息中快速有效地发掘有价值和可利用的信息,准确地定位所需信息和作好信息过滤,已成为信息领域的主流技术。目前在互联网产品中很多地方都会通过使用标签来对该段文本所表达的核心思想进行描述,比如博客、微博等,这些产品中基本上都是采用文本提取技术,但是目前的这些产品中都会存在标签的提取不够准确,而且不能够表达核心思想的问题。因此如何快捷、准确地识别和获取有用信息显得越来越重要。
自动获取关键词的功能,大概可以分成三步
1、通过分词算法将标题和内容分别进行分割,提取出关键词和频度。
2将提取结果与现有词库进行比较,处理,去除无用的词得到最符合规则的关键词。这里主要就是要看词库了,我们可以自己定义词库,也可以使用现有的成熟词库。
3在处理后的提取结果中选择适当的作为最终的关键词,得到最符合当前内容的关键词,在这个阶段就是具体情况具体分析了
  灵玖软件Nlpir Parser智能平台文章关键词提取系统能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
  文章关键词提取系统的主要特色在于:
  1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;
  2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征;
  3、精准排序:关键词按照影响权重排序,可以输出权重值;
  4、开放式接口:文章关键词提取组件作为灵玖软件Nlpir Parser智能平台的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。
    随着时代的发展,汉语中新词语的不断涌现是一个客观规律。而当今Nlpir Parser智能平台新词语发现的研究很好地满足人们的现实需求。
快速回复
限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
上一个 下一个