论文部分内容阅读
超文本信息抽取是Intemet信息重组的重要手段。通过对政府公文信息格式进行了研究,提出了一种基于XML的信息抽取中间件模型,通过基于串匹配与串频统计相结合的分词处理、利用遗传算法的词类标注以及基于改进的隐马尔科夫模型的XML模板自动填充,可以快速的对Intemet上的政府公文信息进行信息重组,以供相关应用系统使用。