1.1.2 技术环境

计算机和互联网的发展为人们方便地储存数据、交流信息和共享知识提供了保障,使人们能够在任何时候、任何地方都能通过网络获取所需信息;同时,如何能够使得用户方便地从浩瀚的数据或信息的海洋中查询到所需知识,一直是学者们关注和研究的问题。信息检索和自然语言处理是解决这些问题的主要研究方向之一,在自然语言处理的基础上,通过有效的信息检索反馈结果,提供有效的信息服务,是本书的主要研究内容。现有的信息检索和自然语言处理理论和技术自然也就成为本书的研究基础。

信息检索包括信息收集、信息组织,以及信息查询三个各部分。信息收集是把和用户相关的信息资源都收集到一起,例如Web信息检索就是利用网络爬虫自动搜集网页中的超链,并把其内容下载到本地;信息组织是通过索引的方式对收集到的信息进行整理组织;信息查询是处理用户的查询请求并返回结果的过程,依据检索中采用的技术,信息查询模型可分为布尔模型、向量空间模型、概率模型等。目前,已有大量的学者和公司对信息检索技术进行研究,并取得了一些实际应用的成果,例如,开发开源的实用检索工具(如Lucene[5]、Lemur[6]等)和Web搜索引擎(如Google[7]、百度[8]等)为用户提供检索服务。

但是,现有的检索系统,无论是受限领域的检索还是互联网搜索引擎,一般都是基于关键字检索,这样的检索有几个方面的不足:首先,检索返回的结果往往是和答案相关的文本或网页的集合,还需要用户从这些集合查找和筛选,这样就需要耗费用户大量的时间和精力;其次,用户要从复杂的实际问题中抽取检索词,检索要求通过逻辑组合几个关键词来表达,这本身就很难有效表达清楚用户的实际检索目的,从而就难以检索到满足用户需求的检索结果。另外,尽管目前的检索方法实现起来比较简单,然而其实质是句子的表层关键词的匹配,没有涉及语言的语义层面,因此,检索结果就经常很难满足人们的需求,也对检索者的检索能力和关键词提取能力提出了较高的要求。