1.2.2 问答系统概念及分类

问答(Question Answering,QA)[24]是一个人和计算机交互的过程,该过程包括对用户信息需求(自然语言提问)的理解;检索相关文档、数据或者来建立的知识库中的知识;把有用的答案从这些数据源中抽取、鉴定和区分出来;以有效的方式解释和展示。Oleksandr Kolomiyets等人[25]认为问答是一个更完善的信息检索系统,其信息需求通过自然语言的陈述和疑问句表达。

上述定义说明:(1)问答是一个实践研究性的活动,其研究方法是信息检索和自然语言处理,研究内容为相关文档、数据或来建立的知识库,研究任务是抽取答案并返回给用户;(2)问答是不同于关键词检索,新型的智能的信息检索方式,实现需要依靠大量的技术来实现。Mark T.Maybury也利用图1-3清晰地表示出问答系统研究涉及的内容包括自然语言处理、信息检索、人机交互等技术,其中信息检索技术是问答系统的基础,自然语言处理是问答系统的实现手段,人机交互是问答系统实现人和计算机交互的桥梁。

图1-3 问答系统和其研究的关系

Mark T.M..New directions in question answering[M].AAAI Press; Cambridge,Mass.:Copublished and distributed by The MIT Press,2004.

学者从应用领域、使用用户、答案的数据源、响应时间、实现方式和技术等维度研究问答系统,因此,问答系统可以划分为很多种类型。本书依据问答系统的内容和方法,从应用领域、数据源和响应时间对其进行分类(如图1-4)。

图1-4 问答系统分类

依据问答系统的领域的不同可以把问答系统划分为开放域问答系统和受限域问答系统。开放域问答系统是指用户的问题的主题不受任何限制,面向人们所面临的所有问题。因此,开放域问答系统面向的用户对象目的不同,领域也比较广泛,从上述问答系统的历史看,这是一个研究的热点和重点,但其实现效果不理想。受限域问答系统是专门针对某个专业领域,如银行、教育、旅游、天气、体育等专业领域,此问答系统受到领域知识的支持,并且面向具有单一目的用户的对象,可以为专业用户提供服务,因此,也有大量的学者积极研究此类问答系统,以便提高对用户的信息服务。

依据问答系统的数据源可以将问答系统划分为基于知识库问答系统、常见问题集问答系统、自动问答系统和社区问答系统。基于知识库问答系统是人们通过查询知识库来获取知识的问答系统,其数据源是人们构建的常识和领域知识库。知识库[26]是管理知识的数据库,是解决问题的知识集合,包括基本事实和联系以及一些推理规则,这些知识通过专家分析现实知识,然后通过采集、整理转换成计算机能够处理的知识。常问问题集[27](Frequently-Asked Question,FAQ)是从长期的询问以及答复中归纳整理成经常被询问的问题和回复的答案,并将其集合起来而形成问题答案对的形式,其数据源是人们搜集的问题答案对。FAQ已经被应用到信息服务领域,如图书馆服务[28]、医学卫生领域[29]等。自动问答系统是计算机利用自然语言处理技术从自由文本文档或者互联网上自动获取答案的过程,其数据源是所有的文本文档和互联网信息资源。已经有越来越多的学者参与到自动文档系统的研究中,并且每年都有相关的评测会议。社区问答系统[30]就是一个基于互联网的问答系统,其实现思想是人们利用互联网Web2.0技术,在别人遇到问题求助的时候,为他人提供帮助,其数据来源是人们对于问题回答的答案。近年来,由于其答案内容的准确性相对比较高,如百度知道[31]、新浪爱问[32]、Yahoo!Answers[33]等社区问答系统得到了迅速发展。然而,社区问答系统受到时间的限制,即要等待其他用户对其回答。

依据响应时间可以分为即时响应问答系统和非即时响应问答系统。即时响应问答系统顾名思义就是用户提出问题后,系统即时返回问题的答案,比如常见问题集、自动问答系统和基于知识库的问答系统。非即时响应问答系统是需要等待专家或者用户回答的系统,比如邮件回复的问答系统和社区问答系统。但是这个即时和非即时并不是绝对的,如果社区问答系统的系统中包含相关问题,系统就可以即时地返回给用户答案。

本书的面向“三农”问答系统是专门针对“三农”领域的问题而设计的问答系统,是一个受限域的问答系统,实现过程都以“三农”知识为基础,其中包括一个“三农”常见问题的问答系统和一个“三农”自动问答系统,“三农”自动问答系统的数据源包括知识库和互联网,答案的返回也是即时的。