- 面向“三农”问答系统的关键技术研究
- 张军亮
- 1371字
- 2025-04-03 17:48:41
摘要
随着“三农”信息资源需求的大量提升、信息资源数量的急速增长和农村信息基础设施的不断完善,如何提供有效的“三农”信息资源服务以满足信息需求,已成为一个亟待解决的问题,“三农”信息化建设成为我国信息化工作的重要组成部分。由于高效的问答系统能够从广泛的信息资源中,较准确地自动抽取提问问题的答案,因此,如果能有针对性地将问答系统技术应用到“三农”信息资源服务中,构建面向“三农”的问答系统,就能对解决“三农”信息资源利用问题产生积极的推动作用,能够为农民生活、农村生产、学者研究和管理者决策提供有效的“三农”问题信息服务。
在此背景和基础上,总的说来,本书以构建面向“三农”的问答系统为目标,首先,阐述了问答系统及其系统框架的基本相关概念和研究,以及由此展开的本书研究的内容、方法和意义等;其次,总结了本书研究的基础理论——中文信息处理基础理论;再次,分别研究了“三农”概念簇的知识表示、基于混合策略的“三农”FAQ系统、面向“三农”问句分类以及面向“三农”的答案抽取等关键技术;最后,构建出面向“三农”问答系统。具体而言,本书的主要研究工作包括以下几个方面。
第一,基于K最近邻(K-Nearest Neighbor,KNN)分类算法的“三农”概念簇的研究。本书主要进行“三农”知识组织的研究,首先,用“三农”概念簇表示“三农”知识,利用基于DOM(Document Objecct Model)树从网络《农业大词典》抽取词条和释义部分的方法,通过正则表达式从释义部分抽取词条的口语名称和设计“三农”词表的结构;其次,从词条释义部分抽取、人工选择和合并特征词,生成特征向量,并利用KL(Karhunen-Loeve)变换对特征向量降维;最后,生成KNN的“三农”概念簇,并通过实验验证出,本书的特征向量的生成、降维和基于KNN的“三农”概念簇方法是有效的。
第二,基于混合策略的面向“三农”常见问题问答(Frequently Asked Questions,FAQ)系统的研究,以FAQ系统的检索匹配方法为主要研究对象。首先,通过问句之间的表层和语义相似度计算问句之间的相似度、利用LSA计算用户提问问句和常见问题集的答案部分间的相似度;其次,采取混合策略法将这两个相似度组合到一起,形成本书的“三农”FAQ系统的检索方法:基于混合策略匹配方法,并通过实验验证了这种方法的有效性。
第三,面向“三农”问句分类体系和分类方法研究。本书参考开放域问句的分类体系和“三农”领域知识,设计了面向“三农”自动问答系统的问句分类体系;把疑问词、“三农”概念簇、HowNet义原作为问句分类特征,将信息熵作为特征值,并设计了基于模板的粗分类和基于支持向量机(Support Vector Machine,SVM)的精细分类算法;并通过实验表明本书选取的特征向量和分类方法能够有效地满足需求。
第四,面向“三农”自动问答答案抽取方法研究。本书针对不同的“三农”问句类别和答案选择源,提出了不同的答案抽取解决方式。对事实性问句,可采用基于“三农”知识库的抽取;对原因性问句,利用原因性线索词的模板指导抽取;对于方式性问句,则采用基于自动文摘的方式性的抽取。实验验证了本书的答案抽取方法的有效性。
第五,面向“三农”问答系统的构建与实现。介绍了面向“三农”问答系统构建的网络环境和服务器端技术,以及实现所应用的相关技术和结果。
第六,本书还对研究的主要工作进行了总结,指出了研究的不足之处,并提出了下一步研究工作的构想。
关键词:“三农”自动问答;“三农”概念簇;“三农”常见问题集;“三农”问句分类;答案抽取