知识库分类索引
技术分类
厂商分类

自然语言处理

自然语言处理(Natural Language Processing,NLP )是人工智能涉及到的非常重要的技术之一,其目的是用自然语言实现人机交互,涉及到计算机科学、人工智能、语言学等众多学科。

实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,即自然语言理解,也能以自然语言文本来表达给定的意图、思想等,即自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单。

具体来说,造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。例如,在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是截取能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。有时不同的边界截取会产生不一样的语义,例如,在一些对联中,由于没有标点,不同的词语边界截取就会产生不一样的意思。除此之外,还包括多音字、多义词、不同的口音等,这些都给计算机理解人类自然语言造成了很大障碍。

因此,从1949年美国人威弗提出的机器翻译设计方案之后,自然语言处理技术的发展经历了多个阶段,从最早利用语法规则、单词或短语对应进行翻译,到现在以大规模真实语料库和大规模、信息丰富的信息词典为基础,强调对大规模真实文本的处理能力。即:
(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等。

从现有的理论和技术现状看,针对具体应用、具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化,但是,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标。

相关新闻
    暂无相关新闻
自然语言处理相关厂商
暂无相关厂商

分隔