网站地图XML 硕士毕业论文栏目为您提供《我国知识图谱研究演进特征可视化分析》范文一篇,希望对您在论文写作的时候有所帮助
范文大全

我国知识图谱研究演进特征可视化分析

添加时间:2019-02-27 10:45 来源:情报科学 作者:夏立新 王凯利 程秀峰
  摘要:【目的/意义】从动态视角出发, 通过对我国知识图谱研究的时空及主题演进的可视化分析, 梳理其演进特征, 提出发展建议, 以促进该领域的可持续发展。【方法/过程】以CNKI期刊全文数据库为信息源, 以“知识图谱”为主题检索相关文献。通过函数拟合识别我国知识图谱发展阶段, 以k-core方法分析相关机构研究的持续性, 以阶段新关键词梳理我国知识图谱在分析方法、分析工具、应用领域及数据来源四方面的演进情况。【结果/结论】我国知识图谱研究的发展进程可分为起步阶段、低速发展阶段和高速发展阶段, 且现如今正处于加速发展期。相关研究机构分布较离散, 且研究持续性差。分析方法、分析工具和数据来源较固定, 应用领域广, 且其发展呈现出多元化、交叉化、社会化、时代化和国际化的特点。
 
  关键词:知识图谱; 演进特征; 可视化分析;
 
 
  1 引言
 
  知识经济时代, 人们关注的焦点逐渐从获取知识转向关注知识之间的联系, 知识图谱也得到越来越多研究者的青睐。知识图谱是将应用数学、图形学、信息可视化技术、信息科学等学科理论与方法与计量学引文分析、共现分析等方法结合, 用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法[1]。知识图谱不仅是一项重要的科研工具, 更是一个系统的研究领域, 因此对其自身发展态势的研究也至关重要。
 
  迄今为止, 已有部分学者将知识图谱作为研究主题进行相关分析。如2010年魏瑞斌对国内知识图谱研究进行可视化分析, 发现当前时间节点的研究人员和机构相对集中, 研究论文的合著率较高且研究主题鲜明[2];2012年杨思洛等以中国知网为数据源, 分析我国知识图谱的研究集中在理论、方法、工具与应用, 并探讨其发展趋势[3];2015年曹树金等基于SSCI与SSCI期刊论文分析了知识图谱研究的脉络、流派与趋势[4];2017年张妮等基于WOS和CSSCI中知识图谱相关论文, 借助Citespace进行分析发现, 国内外知识图谱的研究热点为知识图谱理论及方法研究、数据处理和数据挖掘、知识图谱的学科应用和经济社会应用, 并展望其发展趋势[5]。
 
  通过梳理各时间段的研究文献发现, 学者们对知识图谱的研究多从静态视角出发进行整体分析, 缺乏对知识图谱随时间变化的演进分析。另一方面, 同进行一般学科分析相似, 学者们对知识图谱的研究普遍集中在研究热点和发展趋势两方面, 缺少对热点及趋势的特征识别。为弥补相关研究的不足, 本文拟从动态视角, 分阶段分析我国知识图谱研究的时空及主题演进情况, 并总结其演进特征, 以促进该领域的可持续发展。
 
  2 数据来源
 
  中国知网作为世界上最大的、连续动态更新的中国学术期刊全文数据库, 由于涵盖自然科学、工程技术、农业、医学、哲学、人文社会科学等众多领域, 常被用做计量分析对象。本研究以CNKI期刊全文数据库为数据源, 以“知识图谱”为检索词进行主题检索, 将截止日期限定为2017年12月31日 (检索日期为2018年5月3日) 。结果共得到2740篇相关文献, 去除通知、贺词、重复等无效文献后, 共得到有效文献2681篇。
 
  数据库中包含上述2681条学术论文题名、作者、机构、关键词等知识单元。根据研究目的, 将提取年份、机构、关键词等知识单元用于文献时序、空间格局及研究主题的演进特征分析。
 
  3 时空演进特征分析
 
  3.1文献时序演进
 
  文献数量的时序变化是衡量学科领域发展的重要指标, 通过对某一学科领域学术论文的统计, 绘制相应的分布曲线图, 能够明晰学科领域所处的发展阶段, 预测学科领域的发展趋势和动态[6]。
 
  统计发现, 我国有关知识图谱及相关议题的研究文献最早可追溯到2005年大连理工的陈悦、刘则渊教授于《科学学研究》上发表的《悄然兴起的科学知识图谱》一文[7]。本文在介绍有关科学知识图谱基本概念的基础上, 从数据库、数据格式及存取、数据分析算法、可视化和互动设计等方面阐述了有关科学知识图谱绘制的最新进展, 并展望了其应用前景, 堪称国内知识图谱研究的开山之作。该文被引频次524次 (其中《中国期刊全文数据库》共351篇引证文献, 《中国博士学位论文全文数据库》共40篇引证文献, 《中国优秀硕士学位论文全文数据库》共118篇引证文献, 《国际会议论文全文数据库》共3篇引证文献, 《中国重要会议论文全文数据库》共12条引证文献) , 可见此文在我国知识图谱研究领域的影响力之巨大。
 
  图1显示了我国知识图谱研究论文的产出及累积量的变化曲线。由图可知, 我国知识图谱研究一直保持良好的发展势头, 文献产出量持续增长。对我国知识图谱研究文献累积量的增长趋势进行模拟, 得到拟合曲线符合指数型函数 (Y=2.1008e0.6007x) , 且曲线的拟合程度较高 (R2=0.9503) 。这表明我国知识图谱研究的文献累积增长趋势符合普赖斯指数增长规律。
 
  图1 我国知识图谱研究文献增长趋势

 
  为进一步反映我国知识图谱研究的发展进程, 拟进行发展阶段的识别。文献计量学的奠基人之一D.S.Price在对各种科学指标进行大量统计的基础上, 提出了科技文献增长的“四个阶段理论”[8]。第一阶段学科刚刚诞生, 绝对论文数量少, 呈不稳定增长。第二阶段学科进入大发展时期, 理论迅速发展, 论文数量急剧增加, 较严格地服从指数增长。第三阶段理论日趋成熟, 论文数量增长减缓, 演变为线性增长。第四阶段随着理论的完备, 文献日趋减少, 曲线逐渐平行于横坐标, 或出现不规则的各类震荡。
 
  由我国知识图谱研究年发文量可知, 2005-2007年间, 虽然年发文量一直在增加, 但数值较低 (低于10篇) , 符合“四个阶段理论”中第一个阶段的描述特征。2008年以后, 年发文量急剧增长, 2012年的年发文量突破了100篇, 可视为发展分界点。为了正确识别我国知识图谱研究的发展阶段, 笔者对2008-2011年的年累积发文量进行指数回归, 得到2009-2011年我国知识图谱研究文献累积量符合指数型增长, R2值达到0.9971 (如图2) , 可知此阶段符合普赖斯文献增长第二阶段的特征。对2012-2017年的年累积发文量分别进行指数和线性回归, 得到指数回归的拟合效果较线性回归更佳 (R2值0.9982>0.9468) (如图3) , 故此阶段也符合普赖斯文献增长第二阶段的特征, 且增速相较于2009-2011年有所提升。
 
  经文献计量分析可知, 自2005年起, 我国知识图谱研究进程可划分为三个阶段: (1) 起步阶段 (2005-2007年) , 该阶段知识图谱研究文献相对较少 (<10) 。 (2) 低速发展阶段 (2008-2011年) , 该阶段知识图谱研究发文量较起步阶段相比有很大提高。 (3) 高速发展阶段 (2012年以后) , 该阶段知识图谱研究文献量保持高速增长, 且年发文量突破百余篇。总体来讲, 我国知识图谱研究文献正值普赖斯“四个阶段理论”所描述的第二个阶段——指数增长期, 本学科也正处于大发展时期, 有着良好的研究前景, 值得众多学者及研究人员的持续关注和重视。
 
  图2 2008-2011年间年发文累积量拟合图

 
  图3 2012-2017年间年发文累积总量拟合图

 
  3.2空间格局演进
 
  一个学科研究主体的分布情况可以反映出学科的研究规模、受社会的关注程度和认同度, 也可以反映该学科的科学生产力、总体实力与发展趋势等情况[9]。通过分析我国知识图谱研究主体分布特征, 能更好地了解知识图谱及其相关研究的科学生产力的分布情况。
 
  3.2.1机构文献量
 
  以文献第一作者所在机构为统计对象并对机构进行合并, 即可得到我国知识图谱研究的机构来源。经统计, 2005-2017年间的2681条学术文献中, 共有646家机构参与到知识图谱及其相关研究中。表1列出了文献产出量在20篇以上的20家机构。
 
  表1 机构及其文献量 (top20>20篇)

 
  由表1可知, 各大高校是我国知识图谱研究的主力, 其中武汉大学是产出最多的机构 (100篇) , 约占发文文献总量的3.73%, 其次是大连理工大学、南京大学、陕西师范大学、华中师范大学和温州大学, 2005年以来, 他们的发文量均高于40篇。此外, 知识图谱及其相关研究的文献产出量在20~40篇之间的机构有14家。可见, 此20家机构是我国知识图谱研究学科发展的重要推动力。
 
  图4 机构发文量与机构数量关系图

 
  为从整体上把握我国知识图谱研究机构文献量的分布, 图4绘制机构发文量与机构数量关系图。横坐标为646家机构中每家机构的发文数量, 从1~100不等, 共35类, 机构发文量最少为1篇, 最多为100篇, 发文量在20篇以上的机构共计20家, 占总机构数的3.1%;纵坐标为35类机构发文量中每类值的机构数量, 有超过一半 (51.5%) 的机构发文量仅为1篇, 12.8%的机构发文量为2篇, 两者累积达64.3%。从文献量来看, 64.3%的机构 (发文量为1篇或2篇) 所发表的文献量占文献总量的18.8%, 而3.1%的机构发表的文献量占文献总量的28.3%。由分析可知, 我国知识图谱及相关议题的研究力量较为分散, 且有较多机构的发文量较少。
 
  3.2.2机构演进特征
 
  自2005年第一篇以知识图谱为研究对象的论文发表以来, 我国知识图谱研究相关文献在持续增长, 参与研究的机构也在逐年增多。为进一步分析相关研究机构的演进情况, 本研究构建了机构—年份共现矩阵。考虑到我国知识图谱有13年的时间跨度, 本文拟分阶段进行机构演进特征分析。在我国知识图谱起步阶段 (2005-2007) 、低速发展 (2008-2011) 、高速发展 (2012-2017) 阶段划分的基础上, 将高速发展阶段划分为2012-2014和2015-2017两个时间段, 以减小时间粒度, 以便更好地反映机构演进特征。根据机构—年份共现矩阵生成机构—阶段共现矩阵, 并根据共现次数按阶段排序, 部分结果见表2。
 
  表2 机构—阶段共现矩阵

 
  表2 机构—阶段共现矩阵



 
  从表2可以看出, 大连理工大学是研究持续性最好的机构, 它是唯一一个自2005年起的四个阶段均参与知识图谱及相关议题的研究活动当中的机构, 并且在起步阶段为我国的知识图谱研究做出重大贡献, 大连理工大学可以说是我国知识图谱研究的发源地。查阅S1阶段的相关研究文献可知, 该阶段文献均由大连理工大学以刘则渊为代表的研究团队发表, 除刘则渊外, 该研究团队还包括许振亮、姜春林、侯剑华、侯海燕、陈悦等成员。S1阶段三年间, 大连理工发表知识图谱相关文献共计15篇, 且每篇都有较高的引用次数, 对后来我国知识图谱的发展产生了深远影响。
 
  表2还显示了部分后续阶段进入知识图谱研究领域的相关机构, 为了使观察更清晰直观, 本研究使用NetDraw可视化工具绘制机构-阶段共现矩阵的可视化图谱, 并结合kcore分析算法将可视化图谱分解。k-core分析是由S.B.赛德曼 (Seidman) 提出的分析方法, 意为一个k-core是一个最大子图, 其中的每个点都至少与其他K个点临接, 即k-core中所有点的度数至少为K[10]。分解后, 四个阶段节点位于最大的k-core子图中, 为了凸显机构的演进特征, 笔者在各kcore子图中添加了阶段节点。经分解, 共获得3个子图:1-core子图 (图5) , 2-core子图 (图6) , 3-core子图 (图7) 。各子图中, 圆节点为研究机构, 方节点为阶段节点, 节点间连线代表某阶段间某一机构发表过知识图谱及相关议题的研究论文, 连线越粗表明该机构在该阶段间发表的相关论文越多。
 
  图5 1-core子图

 
  1-core子图展示的是研究持续性较差的机构, 即这些机构只在四阶段中某一个阶段参与了知识图谱及相关议题的研究。S2阶段 (2008-2011年) , 北京青年政治学院、慈溪市图书馆、甘肃省农科院、陕西省图书馆、商丘师范学院、浙江省科技信息研究院、中央教育研究所、九江学院等15个研究机构参与到知识图谱及其相关议题的研究之中;S3阶段 (2012-2014年) , 湖北工业大学、山东财经大学、广东省科技图书馆、广州军区武汉总医院、苏州市图书馆、东北石油大学、青岛市科学信息技术研究所、湖北中医药大学等66个研究机构参与到知识图谱及其相关议题的研究之中;S4阶段 (2015-2017年) , 福州大学、电子科技大学、中国农业科学院、华南理工大学、华侨大学、安徽师范大学、桂林理工大学、内蒙古工业大学等393个研究机构参与到知识图谱及其相关议题的研究之中。上述机构共计474家, 约占研究机构总数的73.37%。
 
  图6 2-core子图
 
 

 
  2-core子图展示的是研究持续性一般的机构, 即这些机构在四阶段中有两个阶段参与了知识图谱及相关议题的研究。S2阶段和S3阶段, 浙江树人大学、东北财经大学、大连海事大学、中国人民公安大学和大连民族学院5个研究机构参与到知识图谱及其相关议题的研究之中;S2和S4阶段, 河北大学、大连交通大学、北京理工大学、中国医科大学、江苏建筑职业技术学院、南京理工大学6个研究机构参与到知识图谱及其相关议题的研究之中;S3和S4阶段, 吉林大学、华南师范大学、安徽大学、北京科技大学、中央财经大学、中南大学、黑龙江大学、山西大学等118个研究机构参与到知识图谱及其相关议题的研究之中。上述机构共计129家, 约占研究机构总数的19.97%。
 
  图7 3-core子图

 
  3-core子图展示的是研究持续性较好的机构, 即这些机构在四阶段中有三个阶段参与了知识图谱及相关议题的研究。由于第一阶段只有大连理工大学一家机构参与研究, 且持续了知识图谱整个学科发展进程, 因此3-core中显示的为S1, S2, S3阶段均参与研究的机构, 共有包括武汉大学、南京大学、天津师范大学、中国科学院、江苏大学、华中师范大学、军事医学科学院、上海交通大学、中山大学等在内的43家机构, 约占研究机构总数的6.66%。
 
  表3 我国知识图谱研究主题关键词

 
  由以上数据可知, 随着我国知识图谱研究的不断发展, 有越来越多的研究机构参与到知识图谱及相关议题的研究活动中。然而众多机构在此领域研究的持续性较差, 超过七成的机构 (73.37%) 仅在学科发展进程中短暂性地参与研究, 而包括大连理工大学在内的研究持续性较好的机构仅占研究机构总数的6.81%。因此, 各研究机构应在已有研究的基础上, 持续并加强我国知识图谱及相关议题的研究工作, 以促进我国知识图谱研究的学科发展。
 
  4 主题演进特征分析
 
  4.1研究主题
 
  关键词是文献的精髓, 是文章内容的凝练[11]。通过对某一学科领域文献的关键词进行共现分析, 可确定该领域的主要研究主题, 理清该学科的研究重点及热点。因此, 本研究提取检索文献的所有关键词作为研究对象。经统计, 本研究共获得2681篇文献的3767个关键词, 其中频次为1的关键词有2859个。
 
  对合并后的关键词进行词频统计, 并由高到低排列。学者Donohue于1973年提出, 存在关键词由高频转为低频的临界区, 只有处于临界区内的词才最适合描述文献的主题[12]。临界值点公式为:
 
  其中, n为临界值点词的频次, I1点词的为频次为1的关键词个数。以n为临界值中点, 以最高频处为临界区上界, 取与n到上界之间等距的另一端为临界区的下界[13]。计算可得n约为75, 最终得到我国“知识图谱”研究主题的高频关键词最低频次为37, 共计24个, 详见表3。
 
  为直观揭示我国知识图谱研究主题及关键词关联关系, 选取频次不小于15的关键词, 共计67个进行分析。先抽取关键词共现矩阵, 并经过Ucinet处理导入NetDraw绘制关键词共现的可视化图谱。图1是基于中心度的可视化图谱, 图中圆形节点代表关键词, 节点越大代表关键词中心度越高, 也即该关键词与其他关键词的共现频次越高。连线代表关键词之间存在共现关系, 线条越粗, 表明它所连接的两个高频关键词的共现频次越高。
 
  图8显示, 整个网络以知识图谱、可视化、研究热点、研究前沿、Citespace、共词分析、文献计量为中心呈发散状, 以科学计量学、文献计量学、信息可视化、社会网络分析、CNKI、CSSCI、情报学、图书馆学、大数据、研究现状、CitespaceⅡ、CitespaceⅢ、共现分析、引文分析、聚类分析等为次中心节点。知识图谱是一种基于已有数据源, 运用不同分析方法和分析工具, 可视化地展示学科特点的研究方法, 图8中的核心关键词就包含了各种数据库、分析方法、分析工具及应用领域等内容。
 
  图8 我国知识图谱研究核心关键词可视化图谱

 
  4.2研究主题演进
 
  在前文划分的S1, S2, S3, S4四个阶段的基础上, 对比四阶段的在数据源、研究方法、研究工具、应用领域四个方面的演进情况。鉴于知识图谱研究中每个阶段在此四方面有较高的重合性, 本研究引进新主题判定流程。将S1阶段的主题词作为主题词库, S2阶段的主题词与主题词库中的主题词进行匹配筛选, 匹配筛选后获得新主题词, 下一步将S1与S2阶段主题词合并去重生成新的主题词库, 作为S3阶段的匹配对象, 重复此过程直至获得所有阶段的新主题词[14]。本研究中合并去重后, 得到四个阶段的主题词共计3766个, 图9显示了我国知识图谱研究阶段新词量及其占比 (阶段新词占比=阶段新词数/四阶段总词数) 。
 
  图9 我国知识图谱研究阶段新词图示

 
  图9中的数据再次印证了我国知识图谱研究的知识量呈增长态势, 但就新词占比数来看, 知识图谱研究的创新性还有待提高, 这与知识图谱本身分析方法、分析工具等的有限性不无关系。
 
  图1 0 起步阶段—S1 (2005-2007) 我国知识图谱研究新关键词共现图

 
  图1 1 低速发展阶段—S2 (2008-2011) 我国知识图谱研究新关键词共现图 (频次≥2)

 
  图1 2 高速发展阶段—S3 (2012-2014) 我国知识图谱研究新关键词共现图 (频次≥4)

 
  图1 3 高速发展阶段—S4 (2015-2017) 我国知识图谱研究新关键词共现图 (频次≥7)

 
  为了直观描述我国知识图谱的主题演进, 图10、图11、图12、图13可视化展示了我国知识图谱研究各阶段新关键词中的较高频关键词。图中节点或节点标签越大, 表明该节点的中心度越高。下面, 我们将依次阐述知识图谱分析方法、分析工具、应用领域及数据来源的演进情况。
 
  4.2.1分析方法演进
 
  我国知识图谱分析方法主要有共现分析、共引和共被引分析、多元统计分析以及战略坐标图四大类, 词频统计分析穿插其中。
 
  (1) 共现分析使用较多的有关键词共现、机构共现和作者共现。关键词是对学科领域现状及趋势分析的重要研究源, 除了直接对文献著录的关键词直接进行分析外, 对突变词的检测和分析也是知识图谱研究的重要手段。机构共现和作者共现可用于研究机构及作者的合作情况, 单位与单位之间, 国家与国家之间都存在合作关系, 研究机构和作者的合作关系有助于了解某领域研究的外部特征。
 
  (2) 共引和共被引分析使用较多的有文献共 (被) 引、作者共 (被) 引和期刊共 (被) 引。文献共引指与某文有相同参考文献的文献, 共引文献数量越多, 文献间的相关性越大, 可用来确定经典文献。同理, 作者共引可用来确定某领域研究学者的学术流派及学科结构, 期刊共引可用来确定某领域的核心期刊群及其之间的关系。
 
  (3) 多元统计分析中使用较多的有因子分析、多维尺度分析和聚类分析。多元统计分析的核心原理很相似, 即将词以相似度为依据, 完成低纬向高纬的转化。其中, 多维尺度分析常与聚类分析结合使用。
 
  (4) 战略坐标图是以向心度和密度作为横纵坐标, 以二维坐标图的形式展示学科发展的成熟度。鉴于战略坐标图四个象限含义的丰富性, 其常被研究者选为探索学科热点及其发展趋势的重要研究方法。
 
  总的来说, 我国知识图谱研究方法呈现出以下特点: (1) 知识图谱研究方法在整个学科发展中变化不大, 只在2012-2014年间战略坐标图方法表现出广泛的应用性。 (2) 由各阶段图谱中研究方法的关联关系可知, 不同的研究方法常被一起使用。 (3) 从根源上讲, 我国知识图谱研究主要借鉴和引进国外方法, 专门提出或改进方法的论文较少, 这也是国内研究需要加强和改善的地方。
 
  4.2.2分析工具与数据源演进
 
  (1) 我国知识图谱分析工具主要有SPSS、Citespace (Ⅰ、Ⅱ、Ⅲ) 、VOSViewer、Bibexcel、SATI、Ucinet等。SPSS是通用的社会统计软件, 知识图谱研究中常用SPSS工具进行多维尺度分析、因子分析和聚类分析。Citespace适合进行多元、分时、动态复杂网络分析, 且其自身也在随应用环境不断更新, 迄今为止, 已发展到CitespaceⅤ, 而截止2017年的论文分析中使用Ⅲ及以前版本的居多。VOSViewer是荷兰莱顿大学开发的专门用于可视化的工具。Bibexcel和SATI都是专门的文献分析软件, 可实现文献统计分析, 为后续生成可视化图谱做准备。值得一提的是, SATI是为数不多的由国人开发的文献题录信息统计分析工具, 2012年《信息资源管理学报》发表的《文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例》一文详细阐述该软件, 并于后续知识图谱研究中得到推广使用[15]。Ucinet是目前较流行的社会网络分析软件, 其集成了包括Pajek、Netdraw、Mage在内的多个可视化软件, 可对知识间的关系进行分析和展示。鉴于各阶段图是在新关键词中较高频次词汇绘制而成, 存在诸如Bibcomb、Histicite、Wordsmith、TDA等未展示出来的研究工具。
 
  表4 基于新关键词的我国知识图谱研究主题演进情况

 
  注:*鉴于单元格空白, 人工阅检阶段文献补充关键词
 
  (2) 我国知识图谱研究的数据源随分析工具的发展变化而演进。由于我国知识图谱发展的起步阶段没有直接提取出来的工具和数据源类关键词, 通过人工阅检相关文献, 得到此阶段的数据源为SCI和SSCI, 这与同样人工阅检出研究工具为SPSS和Citespace的结果相吻合。我国知识图谱研究工具基本来自国外, 特别在知识图谱研究的起步阶段, 研究工具不支持分析中文文献和数据库, 因此该阶段大连理工大学的刘则渊团队所做研究的数据对象皆为外文文献。直至我国知识图谱研究到达低速发展阶段, 分析工具越来越多样, 且大多具有中文版本, 使得对中文文献的分析成为可能, 因此也随之出现了像CSSCI、CNKI这样的中文数据源。知识图谱研究到达高速发展阶段以后, 其研究方法和数据来源基本定型, 除了已有研究工具的版本更新外, 没有出现较大变化。总体上, 我国知识图谱研究最具代表性的中文数据源有CNKI和CSSCI, 外文数据源为SCI和SSCI。同样, 由于统计对象为较高频次的关键词, 也还有万方、维普等中文数据源及其他外文数据源存在。
 
  由以上分析可知, 我国知识图谱研究分析工具及数据源存在以下特点: (1) 研究工具的发展对数据源的选择有重要影响。 (2) 不同分析工具适合不同的分析方法, 可根据研究目的的不同选择不同的分析工具。 (3) 研究工具也常组合使用, 如先用文献题录分析工具提取字段, 再用可视化工具生成图谱。 (4) 我国自主研发的分析工具较少, 建议为当前众多分析工具开发支持多维度与可视化应用的接口, 提高分析软件的集成性。 (5) 引文数据库没有统一的著录格式, 且数据库分次导出文献时有上限限制, 这些都为分析工作增加了负担。建议优化引文数据库结构, 规范数据管理, 改善检索性能, 强化数据导出功能。
 
  4.2.3应用领域演进
 
  知识图谱的应用领域一般具有“新”或“热”的特征, 旨在通过对目标领域的分析把握其发展态势。因此, 统计并梳理知识图谱应用领域的新关键词, 可以窥见我国各时间段的研究重点及整体趋势。
 
  (1) 研究重点。从关键词来看, 我国知识图谱应用较多的是对某学科和某主题进行知识图谱分析。如学科知识图谱:姜春林从共词分析视角探究经济学的研究热点领域, 发现1998-2006年间我国经济学研究主要集中在“三农”、“金融”、“资本市场”和“调控”四个方面[16];王琪等以1991-2009年间与“体育”相关的博士论文为数据, 深入探讨了科学知识图谱在体育学科研究中的应用前景[17];李迎迎以2000-2015年间博硕论文为研究对象, 探索我国图书情报学的研究主题及其变化趋势[18]。如主题知识图谱:沈晨等以CSSCI数据库中2003-2009年数据为统计源, 通过引文分析研究“开放存取”研究领域的现状和发展趋势[19];叶平浩等以CNKI中2012年以前的“网络舆情”相关文献为研究对象进行分析, 发现此时间节点上国内的网络舆情研究处于快速发展阶段, 且网络舆情的收集、分析、深加工将成为研究热点[20];王晴用CitespaceⅢ分析2015年以前的“慕课”研究相关文献, 发现当前我国“慕课”研究的热点集中在技术支持、教学效果、教学活动、教学模式等问题[21]。总体看来, 我国知识图谱研究的应用较广泛, 涵盖了大部分领域, 但主要还是集中在图书情报学及其相关主题领域。
 
  (2) 整体趋势。我国知识图谱应用领域的整体趋势表现出以下特点: (1) 多元化。知识图谱研究的多领域应用性是其主要特征和一大优势, 并将在后续研究中继续发挥作用。 (2) 交叉化。当今时代, 各学科联系异常紧密、息息相关, 学科交叉特征越来越明显, 除分析单一学科或主题外, 运用知识图谱分析交叉学科的文献也越来越多, 这无疑是促进学科发展的一大助力[22]。 (3) 社会化。知识图谱研究积极与社会热点相融合, 如大数据、网络舆情、专利分析等, 充分发挥了知识图谱研究的优势, 彰显了其社会价值。 (4) 时代化。通过观察知识图谱应用领域的相关关键词发现, 从“数据挖掘”到“云计算”再到“慕课”, 知识图谱的研究对象一直紧跟时代、与时俱进。 (5) 国际化。随着国际交流合作的日益增强, 各学科的国际化发展趋势愈加明显, 立足国情, 兼具国际视野, 方是可取之法。
 
  结合各阶段新关键词图谱及梳理结果, 整理出我国知识图谱研究在分析方法、分析工具、应用领域及数据来源四个方面的演进情况, 具体见表4。
 
  5 结语
 
  本研究以分析我国知识图谱研究的时空及主题演进, 并总结其演进特征为目的, 在CNKI数据库中以“知识图谱”为主题词检索相关文献并导出其题录信息。通过分析其文献时序演进、空间格局演进及研究主题演进三方面的特征, 以期为我国知识图谱研究的发展提供借鉴和参考。
 
  (1) 通过对我国知识图谱研究文献的年发文量及年累积发文量进行统计, 识别出我国知识图谱研究文献正值普赖斯“四个阶段理论”所描述的第二个阶段——指数增长期, 且将我国知识图谱研究进程细分为起步阶段、低速发展阶段和高速发展阶段。总体来说, 我国知识图谱研究正处于大发展时期, 有着良好的研究前景, 值得众多学者及研究人员的持续关注和重视。
 
  (2) 通过对我国知识图谱研究文献的机构进行统计及可视化分析发现, 研究机构的分布较分散, 且众多机构的发文量较少。另一方面, 研究机构的持续性较差, 只有大连理工大学唯一一家从主题发展初期至今一直参与研究的机构, 为我国知识图谱的研究和发展做出重大贡献。因此, 建议各研究机构应在已有研究的基础上, 持续并加强我国知识图谱及相关议题的研究工作, 强化机构间的交流与合作, 使我国知识图谱研究得以深化和发展。
 
  (3) 通过对各阶段我国知识图谱研究新关键词的梳理与可视化, 从分析工具、分析方法、应用领域、数据来源四个方面阐述了知识图谱研究的主题演化及特征。其中知识图谱分析方法主要有共现分析、共引和共被引分析、多元统计分析以及战略坐标图四大类, 词频统计分析穿插其中;知识图谱分析工具主要有SPSS、Citespace (Ⅰ、Ⅱ、Ⅲ) 、VOSViewer、Bibexcel、SATI、Ucinet等;知识图谱中文数据源主要有CNKI和CSSCI, 外文数据源主要有SCI和SSCI。此三方面作为知识图谱研究过程中不可缺少的条件, 常根据研究目的的不同选择性地结合使用, 因此在演化过程中也表现出相互影响的现象。我国知识图谱研究的应用领域较广泛, 且主要分析对象为某学科或某主题, 其趋势特征表现为多元化、交叉化、社会化、时代化和国际化。在今后的研究中, 建议我国学者们在注重知识图谱应用的同时, 对知识图谱的研究方法和研究工具多加创新, 同时优化数据库的结构, 规范数据管理, 为高质量的知识图谱分析研究提供支撑。
 
  虽然本研究能够在一定程度上反映我国知识图谱研究的演进特征, 但仅涉及文献时序、空间格局及研究主题三方面的分析, 发文者及载文期刊等的演进特征尚未涉及, 诸如此类有待后续进一步研究。
 
  参考文献
 
  [1] 秦长江, 侯汉清.知识图谱--信息管理与知识管理的新领域[J].大学图书馆学报, 2009, 27 (1) :30-37, 96.
  [2] 魏瑞斌.国内知识图谱研究的可视化分析[J].图书情报工作, 2011, 55 (8) :126-130.
  [3] 杨思洛, 韩瑞珍.知识图谱研究现状及趋势的可视化分析[J].情报资料工作, 2012, (4) :22-28.
  [4] 曹树金, 吴育冰, 韦景竹, 马翠嫦.知识图谱研究的脉络、流派与趋势--基于SSCI与CSSCI期刊论文的计量与可视化[J].中国图书馆学报, 2015, 41 (5) :16-34.
  [5] 张妮, 王婧媛.基于CiteSpace的知识图谱国内外研究热点分析与趋势展望[J].情报资料工作, 2017, (3) :33-41.
  [6] 邱均平, 杨思洛, 宋艳辉.知识交流研究现状可视化分析[J].中国图书馆学报, 2012, 38 (2) :78-89.
  [7] 陈悦, 刘则渊.悄然兴起的科学知识图谱[J].科学学研究, 2005, (2) :149-154.
  [8] 丁学东.文献计量学[M].北京:北京大学出版社, 1998.
  [9] 赵蓉英, 赵月华, 郭凤娇.时空维度的科学计量学演进研究[J].情报资料工作, 2016, (1) :5-10.
  [10] Gatignon H, Robertson T S.A Propositional Inventory for New Diffusion Research[J].Journal of Consumer Research, 1985, 11 (4) :849-867.
  [11] 谭晓, 张志强.图情领域中专利分析主题的研究进展--基于WOS的文献分析[J].图书情报工作, 2012, 56 (20) :85-91.
  [12] Donohue, J.C.Understanding scientific Literature:A Bibliographic Approach[M].Cambridge:The MIT Press, 1973:49-50.
  [13] 苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社, 2004:222-223.
  [14] 赵蓉英, 魏绪秋.我国移动图书馆研究主题及其演化路径分析[J].图书馆, 2017, (5) :22-26.
  [15] 刘启元, 叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现--以中外图书情报学为例[J].信息资源管理学报, 2012, 2 (1) :50-58.
  [16] 姜春林, 杜维滨, 李江波.经济学研究热点领域知识图谱:共词分析视角[J].情报杂志, 2008, (9) :78-80, 157.
  [17] 王琪, 徐成立.知识图谱视野下我国体育科学研究的发展路径--基于1991~2009年体育学博士论文关键词共词网络的可视化分析[J].体育学刊, 2010, 17 (12) :118-125.
  [18] 李迎迎.基于博硕论文的我国LIS研究主题变化趋势[J]情报科学, 2016, 34 (9) :99-104, 137.
  [19] 沈晨, 高志敏.2003-2009年我国开放存取研究知识图谱:基于CSSCI来源期刊[J].图书情报工作, 2011, 55 (24) 61-65, 60.
  [20] 叶平浩, 张李义.基于知识图谱的网络舆情研究现状分析[J].情报杂志, 2013, 32 (2) :34-39.
  [21] 王晴.我国MOOCs研究的网络结构与主题聚类--基于CiteSpaceⅢ的知识图谱分析[J].中国远程教育, 2015, (5) :18-23, 79.
  [22] 闵超, 孙建军.学科交叉研究热点聚类分析--以国内图书情报学和新闻传播学为例[J].图书情报工作, 2014, 58 (1) :109-116.
电话 13701839868
扫一扫
快速咨询官方微信
微信号:13701839868
优选论文官方微信