论文部分内容阅读
在网络高速发展的时代,文档数据在Internet上的量非常具大,而且在以很快的速度增长。怎样从如此巨大的网络信息中获取用户需要的信息是人工智能和网络的一个主题。为了便于用户从信息资源中获取各种信息,各种各样获取信息的技术被人们研究、发明出来。在严格意义上说,信息检索包括文档的检索、分类、过滤、聚类等多项技术,这些技术可以使用户在一个大的信息集合中找到需要的文档,然而,网络层面的技术则是使用户从这些需要的相关文档中找到更精细的事件,从而满足了用户对信息抽取的更高需求。综上所述,信息抽取(IE)可以丰富信息检索(IR)技术。IE将Internet中杂乱无章的文本信息通过条理化简化为某些特定条件的集合,可作为数据整理的基础。此外,还能对信息检索、知识问答、自主化信息服务等的实现起功能上的支持作用或者提高它们的性能。传统的一阶隐马尔可夫模型HMM(1),观察值的输出概率仅与模型此刻的状态相关联;改进一阶隐马尔可夫模型HMM(2),观察值的输出概率不仅与模型此刻的状态相关联,还与模型此刻的前一个状态相关联;二阶隐马尔可夫模型HMM(3),不仅仅是观察值的输出概率与模型此刻的状态和此刻的前一个状态相关联,同时模型的状态转移概率也与模型此刻的状态和此刻的前一个状态相关联。HMM较高的准确度是通过使用释放概率矩阵,对具体的文本词汇进行统计训练。但是,它并没有考虑到文本与其前后文信息的关系和信息文本本身所含有的特定信息,并且,上述内容在信息抽取过程中十分重要。基于最大熵的隐马尔可夫模型ME-HMM之所以能在一定程度上,大大的提高信息抽取的精确度,就是因为它基于最大熵的角度,考虑文本与其前后文信息的关系和信息文本本身所含有的特定信息。但是,它也有一点不足,就是它没有统计特定的信息文本词汇,只单单考虑了信息的抽象部分的特征,所以,有时其准确度低于HMM。本文提出一种HMM(2)和一种HMM(3),并分析最大似然算法(ML)和维特比(Viterbi)算法,以此对比这三者在信息抽取中的抽取精确度,通过仿真实验证明,HMM(2)和HMM(3)都比HMM(1)有更高的抽取精确度。同时本文将HMM和最大熵结合在一起来研究中文信息抽取的算法,分析抽取的精确度。