论文部分内容阅读
使用基于关键词匹配的方法,分析了HTML语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如〈TITLE〉〈/TITLE〉和〈META〉〈/META〉;另一类起局部修饰作用,强调了网页的部分内容,如〈Hn〉。从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型。实验表明,这种方法有一定的可行性。