论文部分内容阅读
针对基于VSM的文档排版格式检查算法中,段落无法同时与多个逻辑标签对比,段落逻辑标签判断正确率召回率较低的问题。在原VSM算法的基础之上,根据模糊模式识别中的隶属度原理为定性分量的量化设计了隶属度表,分析去量纲化后各分量的变化范围和差异程度的变化,找到适用于格式向量的去量纲化方法,分析去量纲化方法和相似度度量方法结合之后的逻辑标签判断效果,找到与去量纲化方法匹配的相似度度量方法。实验表明,较以往算法,改进算法可以将段落与任意逻辑标签对比,减少去量纲化与相似度度量中信息的丢失,有效提高逻辑标签判断的准确率及