古诗词是中国宝贵的文化遗产.利用计算机对诗词进行辅助研究,对语言、文学、传承普及中华文化,具有重要意义.然而,关于诗词的知识是高度碎片化的,原因是互联网上的诗词知识,不仅存在于诗词本身,还分布于诗词的各种解读资料,比如诗词的注释、译文、赏析等.若以知识图谱的方式,捕捉古诗词中词语之间潜在的语义联系并将它们以知识的方式关联起来,能够将诗词碎片化的知识有条理地整合在一起,从而更好地对古诗词知识进行推理和分析.基于此,提出了一种古诗词知识图谱的构建方法.构建图谱的节点时,首先利用改进的Apriori算法产生诗词中的候选词,然后检验候选词是否出现在诗词注释和中文词典中,从而判断其是否构成图谱节点.构建图谱的边时,首先利用注释信息在词语之间建立语义联系,然后用人工构建的诗词分类体系在抽象的语义之间建立联系.最终得到一个内容覆盖全面且包含多层词语语义联系的古诗词图谱.古诗词图谱可用于对诗词各种不同维度的分析研究,相比于基于字的数据分析,利用古诗词图谱能够从语义的角度更加深入具体地辅助文学研究.以唐诗为例,说明了古诗词图谱在诗词分析中的必要性.此外,古诗词图谱还适用于各种关于诗词的推理和分析任务,以判定诗词题材和分析诗词情感这2个任务为例,证明了古诗词图谱的有效性和应用价值.
[数字人文, 古诗词, 知识图谱, 数据分析, 推理分析]
[刘昱彤, 吴斌, 白婷]