论文部分内容阅读
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。