• 793阅读
  • 0回复

灵玖大数据处理:自然语言理解与处理 [复制链接]

上一主题 下一主题
 

只看楼主 倒序阅读 使用道具 楼主  发表于: 2016-10-27
自然语言具备两个属性:语言属性与自然属性。“语言”属性表现为公认的某些约定俗成的内在规律性;“自然”属性是说并不存在某个人为制造的、严格的语法规则体系来约定人们的语言表达方式,这是和程序设计语言大相径庭的。自然语言需要遵循一定的内在规律,但更大程度上是“存在即合理”。按照相关文献中的描述,计算机对自然语言的研究和处理,大抵经过如下三个过程:
(1). 把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;
(2). 把这种严密而规整的数学形式表示为算法,使之在计算上形式化;
(3). 根据算法编写计算机程序,使之在计算机上加以实现。
一个自然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等,但这些却还是远远不够的。比如一个系统如果要回答提问或者直接参与对话,它不仅需要知道很多语言结构的知识,而且还要知道人类世界的一般性知识并具备人类的推理能力。因此许多语言学家通常把对语言的分析和理解分成如下几个主要层次:词法分析、句法分析、语义分析、篇章分析。
首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。其次,句法分析通过使句子成分特征化来分析句子结构特征,通过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的作用,并以一定结构来表达诸如从属关系、成分关系等,目的是判定句子中各种结构性成分。第三,为了理解一个提问,一般还需要更多的语义和语用知识来帮助理解句子的意思,通过分析找出词义、结构意义及其结合意义,从而确定句子所表达的真正含义,而语义信息的标记需要包含概念完全集与关系图的支持,需要对句法成分做出细致的语义分类,它一般应包括语言层面(即反映语言表面现象的知识,如同义词关系、层次关系等)、本体论层面(描述概念之间复杂的语义关系)、常识层面等。虽然这项工作浩繁,但目前已经取得了一些初步成果。最后,篇章分析用于对多个语句、段落之间在结构或者语义上的相互关系进行分析。
从技术路线上看,计算机自然语言处理可大致分为基于语言学规则分析的方法和基于统计的方法这两类主要方法(当然,也有不同的分类方法,限于篇幅在此不再赘述),前者通过对语言学知识的形式化规则处理将语言学知识转化为计算机可处理的形式,而后者则是从大规模真实语料库中获得统计信息,并将之用于自然语言的分析处理。
基于规则分析的方法主张以建立形式化的知识系统来表述语言知识,其本质是一种确定性的演绎推理方法,如60年代Chomsky的转换生成语法TG、Woods的扩充转移网络,以及随后的Montague语法、格语法与语义网络理论等。多数文献中又将它大致分为基于语法规则和语义规则两个方面。目前,语法和语义理论开始趋于融合,如后来发展的TG理论引进了语义因素,Bresnan和Kaplan的词汇功能语法用一种结构来表达特征、功能、词汇和成分的顺序。虽然这些方法基本可以完成对单个句子的分析,但很难覆盖全面的语言现象,特别是对于段落或篇章的理解更是无从下手,同时,规则之间相容性和适用范围也存在一些限制。另一方面,自上个世纪80年代以来,由于大量语料库的出现以及计算机处理能力的提高,也由于基于规则的方法迟迟未能达到人们预期目标,基于统计的方法逐渐兴起。该方法主张通过搜集实际语言材料形成语料库,并在此基础上进行分析和处理。它通过构造统计模型来对语料库中描述的实际出现的语言现象进行统计,进而得到统计意义上的语言知识,其本质是非确定性的基于概率的推理方式。
由于知识是通过对语料库进行分析后抽取出的,因此它可为语言处理提供较为客观的依据。但基于统计的方法本质上是一种非确定性推理方法,可能会掩盖一些小概率事件。由于有些统计方法无法解决的问题利用规则方法却容易得到解决,因此以实用性为目标,将基于规则的方法与基于统计的方法有机结合起来,构建面向大规模真实文本的信息处理乃是未来发展之趋势。
快速回复
限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
上一个 下一个