论文部分内容阅读
基于统计的主词提取会产生信息冗余或数据稀疏等情况;而基于句法规则的主题词提取技术,又因为大量不规范语句而无法析出正确的主题词。目前普遍采取的统计与规则互补办法,虽然发挥了两种体系的优势,但仍未能有效解决;(1)主题词在文本中的分布;(2)中隐性主题词的提取;(3)主题词信息的权重与排序等问题。根据我们的直觉与语料库检验,文本主题词的分布是不平均的。如果我们能通过对文本标注,从而提取出富含主题词的语句,那么,根据现有的自然语言处理技术,建构一套主题词规则化提取的数学模型和算法是可能的,这将为文本主题词统计结