- 面向“三农”问答系统的关键技术研究
- 张军亮
- 1220字
- 2025-04-03 17:48:45
1.2.3 问答系统体系结构
问答系统的工作模式是“请求—响应”,系统自动分析用户提出的问题并返回答案。目前问答系统的模型有多种模块,但是几乎所有的系统都包含几个核心模块(如图1-5),图1-5表明一般问答系统包括以下几个模块:问题分析模块、文档或段落检索模块、答案处理,以及模块之间数据传输的过程。以下详细介绍这几个模块的主要功能和主要研究内容,说明自动问答系统工作原理。

图1-5 自动问答系统基本框架结构
资料来源:Mark T.M.New directions in question answering[M].AAAI Press; Cambridge,Mass.:Copublished and distributed by The MIT Press,2004.
(1)问题分析模块
问题分析是问答系统的第一个模块,是用自然语言处理技术和机器学习等技术,使得计算机自动获取用户提问问句中包含的信息,从而使系统更好地理解用户问句的意思,是实现问答系统的基础。问题分析模块一般具有两个任务和功能。
(a)抽取问句主题的关键词形式化处理
问句分析处理中,首先需要确定问句的主题,问句的关键词最能够表达问句的主题信息,为检索模块提供检索主题。因此,分析抽取问句主题的关键词是其中一个重要的功能。Moldvan等人[34]利用专有名词、动词和其他名词作为关键词的抽取范围。抽取以上的词语作为关键词、作为信息检索的检索词容易对相同主题的关键词产生漏检,为了提高文档的召回率,相关学者对形式化进行扩展研究。利用语言学知识的方法和利用大规模语料库的方法是目前问答系统中应用比较多的扩展方式。
(b)分析问句类型
在回答问题的时候,系统首先需要判定问句类型,然后确定问句答案的类型。问句分类模块利用基于模板和基于机器学习等方法,确定问题答案回答的类型,是答案抽取的基础。在本书的“‘三农’问句分类研究”的“问句分类的相关研究”中将对目前两种主要的分类问句分类方法的研究进行详细的回顾和评述,暂不在此详述。
(2)文档或段落检索模块
检索模块是问答系统的信息获取模块,主要工作包括建立文档集的索引和查询。查询的过程是利用问题分析模块抽取的问题主题关键词从数据库、索引文档或者Web中检索,并且返回同问句主题相关的记录或文档。
(3)答案处理模块
答案处理模块是问答系统中生成答案关键的模块,是结合问题分析获得答案类型,从检索模块获得的大量相关文档,查找问题的答案[35]。杜永萍[36]等人在对基于模式匹配策略的中文问答系统进行性能分析实验中,表明答案抽取是问答系统的一个重要的组成部分。问句的答案可以是一个短语、一个句子或者是一段文摘。答案抽取是问答系统中关于问句答案处理的重要部分,但其不是答案处理的最后终点;进一步对于候选答案的处理,就是依据常识性知识库验证候选答案的可信度,从而选择高可信度的候选答案作为答案返回给用户。
John Prager[37]认为假设NER分类结果是二值的,区分候选答案不是匹配答案的类型有多好,而是文档上下文更好地匹配问句,并且依据抽取方式把答案抽取分为:启发方式、基于模板方式、基于关系方式、基于逻辑方式。关于国内外学者对于答案抽取模块的研究将在本书的“‘三农’问题答案抽取关键技术研究”的“相关研究”部分中详细地回顾和评述,暂不详述。