论文部分内容阅读
法律检索是帮助法律专业从业人员提高工作效率,帮助普通公众了解法律的重要手段。然而,现有法律检索系统主要依赖于专业用户的检索技能来保证检索效果,检索技术相对落后。法律检索中存在两个关键问题尚待解决: 检索结果定位不准确:用户检索的目标是寻找相关法律条文,而检索只能返回整部法律。 不能识别查询和相关文档之间的语义关联:检索基于关键词匹配,无法处理查询和相关文档之间的词不匹配问题。 为了提高法律检索的效果,实现面向法律专业从业人员和普通公众的权威、准确、易用的法律检索服务,论文在分析法律特点的基础上,设计并实现了基于国家法律库的分布式法律检索系统。并针对法律检索中的两个关键问题,提出了细粒度法律检索和基于主题模型的法律领域查询扩展两个可行的解决方案。 细粒度法律检索方法在分析法律文本特征的基础上,提出了法律文本结构识别和条文化拆分方案,建立以条文为基础的法律细粒度索引,使检索结果直接定位至相关条文;结合法律特征,综合文本相似度和法律效力、时效性因子,优化法律文档相关度排序;以实现符合用户检索目标的定制化法律检索。 基于主题模型的法律领域查询扩展方法,利用主题模型挖掘文档在语义层次上的相似性,并基于主题模型计算生成合适的语义扩展词,以帮助检索系统识别原查询的语义信息;利用自动生成的法律领域停用词表,优化主题模型特征选取;通过主题词语分布和上下文共现筛选扩展词语,并结合主题模型调整扩展词语的权重,在兼顾扩展词语语义的同时,减少语义漂移;综合提升法律检索对查询语义的识别和检索效果。 通过对法律检索系统的规范化测量评估实验表明,结合了主题查询扩展方法的细粒度法律检索在召回率及Precision@N指标上有着明显的提升,能够有效地提升法律检索的实际效果。