1. 首页 > 人文历史

历史人文大数据平台 加强人文社科数据资源建设与管理

历史人文大数据平台 加强人文社科数据资源建设与管理

作者:王晓光(武汉大学信息管理学院教授、武汉大学信息资源研究中心副主任、教育部人文社会科学重点研究基地)

编者注

目前,大数据的发展日新月异。随着信息技术与人类生产生活的融合,以及互联网的迅速普及,全球数据呈现爆发式增长和大规模集聚的特点,对经济发展、社会治理和人民生活产生了重大影响。 .

习近平总书记强调,“利用大数据提升国家治理现代化水平”,“善于获取数据、分析数据、运用数据,是领导干部做好本职工作的基本技能。 本期特设专题,探讨如何充分发挥大数据在人文社科研究和新型智库建设中的作用。

近年来,全球掀起了新的数字革命,人类进入了大数据时代。数据正在成为人类社会最重要的资源和资产。大数据给人类社会的方方面面带来了巨大的变化,特别是在科学研究领域,大数据及其分析工具正成为人类认识和改造世界的重要手段。然而,与自然科学相比,人文社会科学在数据资源的利用方面存在一定差距。以往的社会科学研究虽然使用数据,但大多是小规模的样本数据,而不是海量或全数据。随着社会数字化转型的深入,数据资源在人文社科研究中的地位不断提升,人文社科研究范式和研究问题发生了变化。如何加强人文社科数据资源的建设和规范管理,以适应科研数字化转型的趋势,成为值得研究和解决的重大问题。

5月26日历史人文大数据平台,中国国际大数据产业博览会外的大数据标识。新华社

人文社科数据资源建设方兴未艾

与书目信息一样,数据是学术研究的基本资源。 2009年以来,我国人文社会科学领域数据资源建设开始加速。人文社科基金资助的数据资源建设科研项目也开始线性增长。统计数据显示,党的十八大以来,国家社科基金重点重大项目与数据资源建设相关的项目数量明显增加。 2017年国家社科基金重大招标项目中,与数据资源建设相关的项目数量更为可观。这些项目主要集中在语言学、历史学、文学、图书情报学等学科。从地域上看,主要集中在北京、上海、广东、江苏、浙江等地区。近两年,随着专题数据资源的快速增长,国内领先的研究型大学也开始建设人文社科数据中心或数据平台,以支持人文社科研究范式的创新和转型,如清华大学中国经济系。社会数据中心、北京大学开放研究数据平台、复旦大学社会科学数据平台等

人文社科数据资源建设的蓬勃发展表明,我国人文社科基础研究环境和组织结构正在向数字化转型历史人文大数据平台,数据驱动的研究范式正在人文社科领域悄然兴起。社会科学。随着这一范式的兴起,人文社会科学领域的开放思维、计算思维、定量思维、协作思维也受到学者们的更多关注,推动了文学领域的大规模宏观研究历史人文大数据平台 加强人文社科数据资源建设与管理,长期历史领域的定量研究和艺术领域的研究。视觉计算研究的出现,文化领域的时空可视化研究等等,这些新兴的研究课题都离不开强大的专题数据库和计算平台。随着数字人文和计算社会科学的发展,人文社会科学领域的可计算数据资源发挥着越来越大的学术价值。

诸多不足制约人文社科数据资源建设

数据库建设流程不规范,系统平台可用性不强。目前,很多人文社科数据资源的建设都是以重大科研项目为驱动,具有一定的项目实施周期。在现有的学术评价体系下,传统的印刷出版物,如专着、论文,是科研成果的首选形式。因此,在项目实施过程中,以学术研究为核心,引导项目团队以项目结束为目标。较少关注数据库建设的规范性和长期性。很多数据库系统选型落后,数据服务平台功能单一历史人文大数据平台 加强人文社科数据资源建设与管理,检索效率低,不支持机器阅读和原件下载。系统平台整体可用性较差,难以满足项目外用户的实际需求。

数据资源质量控制不严,内容可靠性弱。与自然科学数据相比,人文社会科学数据生命周期更长,历史数据价值突出,后期使用概率高,因此对质量要求更高。然而,由于人文社科领域的数据来源广泛,不仅包括互联网上的用户行为数据,还包括结构化的行业统计数据,以及从传统书刊中提取的非结构化文本片段,数据模型非常不同。在数据库设计过程中,由于缺乏既懂专业又懂数据库设计的复合型人才,很多专题数据库的结构设计比较随意,结构很不规则,往往不能满足数据库的要求设计范式。在数据库内容采集过程中,往往缺乏质量控制标准和规范,导致无法保证数据内容的可信度和可靠性。

数据发布标准不统一,流通共享成本高。数据的自由流通和共建共享是充分发挥数据资源价值的关键。目前,人文社科数据资源主要由各领域学术机构独立分散,缺乏图书馆联盟等第三方机构的技术协调。数据库建成后也在网上自由发布,标准不一,普遍缺乏便于机器读取和交互的数据接口。用户无法查看其详细的数据结构,更不能通过链接数据相互共享链接,使得数据难以跨域流通和自动聚合,无法通过自动连接的方式构建和使用语义数据网络。

关键数据资源缺乏定义,难以保证数据主权。随着大数据、物联网和数字中国建设的推进,人文社科领域的数据资源将逐渐从调查获取和人工发布转向感知获取和自动发布,例如社交媒体数据、金融系统数据、用户隐私数据、商品流通数据,可借助网络媒体系统、电子政务系统、电子商务系统,以及日益强大的智慧城市基础设施运营,自动获取。其中部分数据资源属于“关键数据资源”,不仅涉及个人隐私,而且对国家数据主权和整体国家安全具有潜在影响,不能跨境自由流通和传输。目前,人文社科领域对“关键数据资源”没有明确的定义,但随着数据资源的快速增长,其潜在的安全问题正在显现,需要未雨绸缪,明确概念。

提高人文社科数据资源管理水平的对策与建议

发布数据资源建设规范,指导数据资源建设过程。数据资源建设类似于软件开发,流程控制是关键。要研究发布人文社科数据资源建设规范,包括数据资源分类与格式规范、数据资源建设机构资质要求、数据库系统选型要求、内容维护规范、网络出版标准等。主题数据库和数据平台的建设将指导整个过程。

建立数据资源评价标准,确保数据内容质量。针对不同领域、不同类型的数据资源制定详细的评价标准,核心是质量评价和价值评价。对不同形式的数据资源执行专家机器、传统科学计量学和新兴的基于网络的评估。将评价结果作为各类数据资源建设项目资助、实施和验收的必要条件,保障人文社科数据资源高质量建设和运营。

探索数据资源的长效维护机制,实现数据服务的可持续发展。鉴于数据资源运营成本高昂,要探索建立学术机构、出版机构、图书馆机构、数据服务公司共同运维的长效合作机制,通过政府资助历史人文大数据平台,商业销售、托管服务等方式。人文社科数据资源的可持续发展与运营,避免数据资源因建设而无服务而“短命”。

成立数据资源管理联盟,促进数据资源的开放共享。参照中国高等教育文献保障系统(CALIS),建立数据资源管理联盟。以“智慧数据”为理念,开展数据模型技术研究、数据模型技术应用推广与培训。鼓励数据资源建设主体利用开放链接数据、知识图谱、简单知识组织系统等新兴语义技术和标准,以语义、关联的方式释放数据资源,提高人文智慧水平和开放共享水平和整个社会科学数据资源。

设立数据资源建设专项资金,增加数据资源投入。设立国家、省部级人文社科数据资源建设专项资金,通过稳定的项目资金支持,提高人文社科数据资源供给水平。在相关政府部门,设立专门的全国高校数据资源管理办公室,统筹管理人文社科数据资源建设。

建立数据交换系统,建设全国统一的人文社科数据资源门户。将公开发布的数据库视为正式出版物,建立数据交换系统和全国统一的人文社科数据资源门户,定期从各数据库收集目录数据或原始数据,并进行评估和长期保存。开展数据资源和数据分析工具应用培训和宣传,推动人文社科数据驱动研究范式发展。

建立“关键数据资源”管控机制,提高数据主权意识。参照出版领域重大选题审批制度,建立哲学、政治、经济学、历史,法律。对“关键数据资源”流转实施白名单管理,严格控制“关键数据资源”跨境流转,保障我国数据主权安全。

《光明日报》(2018年7月5日第11期)

本文由某某资讯网发布,不代表某某资讯网立场,转载联系作者并注明出处:https://www.chuangxinguoxue.cn/renwenlishi/511.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息