论文部分内容阅读
通过研究Deep Web数据库的集成及词频数准确估算问题,提出Deep Web数据库三层集成构建体系和一种有效估算Deep Web数据库的大小和词频关系的方法,可以准确有效地估算Deep Web数据库中的信息数据大小词频数。实现了对Deep Web数据库宏观处理。对文本特征提取算法进行研究,研究了瑕疵文本去除率(去伪)和有用文本提取率(存真)等性能比较指标,得到算法瑕疵文本去除率相对传统算法是最优秀的,然而其存真的有用文本提取率UR相对较低。仿真实验表明:当数据集样本数大于5000时,词频趋于收敛稳定,取