学术成果

首页 > 科学研究 > 学术成果 > 正文

多源异构学术成果大数据的整合与揭示

发布时间:2022-03-12 来源:知网

作者:侯鑫鑫1,朱文佳1,朱莉1,谢琳1,刘佳2

作者单位:1. 复旦大学图书馆,上海 200433; 2. 中国科学院武汉文献情报中心,湖北 武汉 430071; 3. 科 技大数据湖北省重点实验室,湖北 武汉 430071

摘要:[目的/意义]为了解决学术成果大数据重复冗余多、精确匹配难等问题,以及当前大多数成果数据管理平台对数据清洗机制黑匣化,无法人机交互也无法验证有效性等问题。 [方法/过程]文章设计建立可对关键环节实现人工校准机制的交互式数据整合系统,通过编辑距离和余弦相似度算法进行数据查重,根据数据的特点和业务需求进行数据的合并; 对每个位次的作者和机构进行标注,数据精确关联到每个作者的每个位次; 设置数据关联的优先级和监控机制,实现多源异构数据的关联和匹配; 通过迭代与回滚更新数据,提高数据的准确度。[结果/结论]文章以15多万条复旦数据进行检验,二级机构匹配的准确率达到了95%,学者姓名匹配的准确度达到了90%,系统准确度较高。

关键词:学术成果; 大数据; 数据整合; 相似度算法; 人机交互; 数据监控与验证

来源期刊:情报理论与实践

出版时间:2020-12-04

专辑:信息科技

专题:计算机软件及计算机应用;图书情报与数字图书馆

分类号:TP311.13;G353.1

收录数据库CNKI

版权所有:复旦大学
地址:上海市杨浦区邯郸路220号   邮编:200433