• 88阅读
  • 0回复

NLPIR大数据技术可有助理解自然语言 [复制链接]

上一主题 下一主题
 


  从计算机问世以来,人类就一直希望能让计算机理解和合成人类的自然语言,即人类的日常语言,这就是“自然语言理解”,机器翻译、人机对话、语音识别和语音合成、汉字的识别,都是自然语言理解关心的问题。其中最核心的目标是让计算机理解和合成自然语言,即教会计算机听话和说话。如果这一核心目标能够达到,人类将从人工翻译、计算机编程语言的学习等大量工作中解放出来,人类也将从计算机理解和合成自然语言的过程中观察到人类心智活动的机制。
  但是,随着计算机技术的发展,我们发现自然语言的理解和合成机制比最初设想的要困难得多,这种困难主要不在计算机方面,而在自然语言方面。计算机科学近几十年己经取得了重要进展,但自然语言理解的工作进展并不显著,原因就在于我们对自然语言的运转规律认识远远不够,我们平时司空见惯的言谈说话,实际上是一个相当复杂的心智活动过程。
  人们最初想用马尔柯夫过程(Markov process)来理解和合成自然语言。马尔柯夫过程是一类重要的随机过程,其原始模型为马尔柯夫链,由俄国数学家马尔柯夫1907年提出的。马尔柯夫过程的基本思想是:一个事件在己知的目前(现在)状态下,它未来的演变(将来)不依赖于它以往的演变(过去)。但是,经过实际的实验和研究自然语言的组合过程比马尔柯夫过程要复杂。在自然语言的理解和合成过程中,要求计算机能够识别组词成句的层次。当一个句子有两个不同的层次时,就存在歧义。
  NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
  自然语言理解面临个一难题,即元语言问题,这也是哲学家和心理学家甚为关注的问题。要完成自然语言理解工作,必须要有一套语法语义规则,还要有一个庞大的词库,词库中既有被解释被描写的词(对象语言),也有用来解释和描写的词(元语言)。
  NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,包括:全文精准检索、新词发现、分词标注、统计分析与术语翻译、文本聚类、分类过滤、正负面分析、自动摘要、关键词提取、文档去重等十多项功能模块。用户可以使用该软件对自己的数据进行处理。
  自然语言理解目前在语音识别、语音合成、文字输入、信息检索方面取得了重要进展,在NLPIR大数据技术的帮助下句子的理解和合成方面语义问题也的到了改善,语言是观察心智活动最重要的窗口,我们对语言的运转机制有了更深入的认识,对人的心智活动过程也有了相当深入的了解。
快速回复
限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
上一个 下一个