科学数据引用国家标准研制与推广

更新时间:2009-03-28

1 标准研制背景

数据尤其是科学数据具有可以反复使用、不断增值的特点,其中蕴藏着巨大的价值和潜力,是与自然资源、人力资源一样重要的战略资源。通过长期观测或工作积累而获得的科学数据,具有极高的科研价值,为相关领域的科研工作提供重要参考和支持,是国家科技创新和发展的基础性资源,它与公开发表的科技文献一样具有引用和参考价值。

尽管科研领域意识到科学数据引用的必要性和重要性,但科研工作者对科学数据的引用方式差别较大。国际上一些大型的组织机构和科研项目对该课题进行了积极探索并取得了一些初步成果[1–6]。众多致力于数据引用的国际组织和数据中心,如德国科学基金会(German Research Foundation,DFG)、英国数字监管中心(Digital Curation Centre,DCC)、哈佛大学社会科学研究所等先后启动数据引用项目,发布了专门针对科学数据的引用规范指南文件和要求。如DFG资助的STD-DOI 项目提出数据引用包括Creator(s)、Publication year、Dataset name、Publisher、Persistent identifier等基本元素。DCC 建议的引用元素包括:Author、Publication data、Title、Edition、Version、Feature name and URI、Resource type、Publisher、Unique numeric fingerprint(UNF)、Identifier、Location(a persistent URL),其中,the author, the title and date,the location, and the publisher 是必选元素。哈佛大学社会科学研究所项目 Dataverse Network 规定,数据引用基本格式包括6个必须元素 Author、Date、Title、Unique global identifier、Universal Numeric Fingerprint(UNF)、Bridge service和一个可选元素Value[fieldname]。地球和环境科学数据出版信息系统 PANGAEA 规定数据引用元素包括Author(s)、Year of publication、Title、Source institution、DOI等基本元素。国际数据仓储库 Dryad 支撑发表论文的数据引用元素包括Creator、Publication Year、Data from: Title、Dryad Digital Repository、Identifier等基本元素。

同国外相比,国内在数据引用方面的研究相对落后,没有形成统一的格式,引用内容相对宽泛,还不能很好地反映数据本身的特征。如,中国科学院计算机网络信息中心地理空间数据云要求使用者在使用本数据时,所产生研究成果注明“数据来源于中国科学院计算机网络信息中心 地理空间数据云(http://www.gscloud.cn)”。寒区旱区科学数据中心要求用户在使用全部或部分 “寒区旱区科学数据中心”所提供的数据的基础上产出的研究成果中(包括公开发表的论文、论著、数据产品和未公开发表的研究报告、数据产品、系统开发等),须在相关成果的显著位置上明确注明数据来源;除对数据来源署名有特殊要求以外,用户须依据以下规范注明数据来源(1)中文成果:数据来源于“寒区旱区科学数据中心(http://westdc.westgis.ac.cn)。(2)英文成果:This data set is provided by Cold and Arid Regions Science Data Center at Lanzhou(http://westdc.westgis.ac.cn)。

在此背景下,2014年9月26日,全国信息技术标准化技术委员会发布综合 [2014]67号文“2014年第一批国家标准制修订计划的通知”,其中,《信息技术科学数据引用》(以下简称《科学数据引用》)作为一个标准,获批立项。该标准的目标是通过借鉴国内外现有的科研成果,针对国内科学数据管理特点,提出科学数据引用规范,推动科学数据规范化引用和共享。

2 标准研制过程

《科学数据引用》作为自主制定标准,由全国信息技术标准化技术委员会(SAC/TC28)提出并归口;主要起草单位包括中国科学院计算机网络信息中心、中国电子技术标准化研究院、北京科技大学、中国科学院地理科学与资源研究所、北龙泽达(北京)数据科技有限公司、北京航空航天大学、成都勤智数码科技股份有限公司。

机械设计是一门应用性很强、对学生工程设计能力培养十分有意义的课程.作为地方性高校,应用型人才是我们的培养目标,这就要求我们面对学生的整体素质、社会对学生能力和素质的需求做较多的思考.虽然上述课程质量标准还存在一定的不足,但可以逐步完善,同时通过机械设计课程质量标准的研究与制定,使我们对课程的定位更明确、课程的教学过程更规范、教学措施更有效.

2016年4月14日,标准工作组参加并通过了标准的内审会,10月9日至11月9日在全国信息技术标准化网上公开征求意见,并根据收集到的意见,完成标准送审稿。11月17日,全国信息技术标准化技术委员会秘书处在北京组织召开该标准审查会。审查专家组同意该标准送审稿通过审查,并建议标准编制组按审查专家意见修改完善,尽快形成报批稿上报。同年11月底,结合标准审查会审查意见,经过修改,形成了报批稿。2017年12月29日,国家标准化管理委员会公布《中华人民共和国国家标准公告(2017年第32号)》[7],《科学数据引用》(标准号为GB/T35294-2017)正式发布,自2018年7月1日起正式实施。

3 标准主要内容

先有宋公明夜看小鳌山,被刘高陷害,引出了花荣、秦明和黄信一筹好汉大闹清风寨;后有梁山人马趁元宵节夜里百姓赏灯城中无备,袭击大名府,搭救玉麒麟;大聚义后,宋江一心招安,带着众心腹到东京探访李师师,不想忍了一肚子鸟气的黑旋风李逵狂性大作,杀将起来,将东京搅了个鸡犬不宁,同样是发生在元宵夜里。

公示语汉语语法存在错误。汉语语法有误,逻辑混乱时,译者更是骑虎难下。在介绍“薄胎刻纹铜器”时,是这样说的“纹饰錾刻细如发丝,线条流畅生动,描绘宴飨、狩猎等画面”。这句话的主语混乱,一会儿是“纹饰錾刻”,一会儿又是“线条”,“描绘宴飨、狩猎等画面”的主语不知道是什么。此类问题在其他中文公示语中也并不少见,将译者置于进退两难的境地。

本标准规定科学数据通用引用格式为:作者.名称(版本)。创建机构 [创建机构],创建时间。传播机构 [传播机构],传播日期。唯一标识符;解析地址。

Where: Fi is the i-th foot bolt′s axial pulling force; Li is distance which is from the i-th foot bolt′s axis to frame bolt group′s centroid.

示例:

中国科学院华南植物园.中国热带亚热带植物学基础数据库(V2)。中国科学院华南植物园[创建机构],2004.中国科学院计算机网络信息中心[传播机构],2014-12-03.csdb:cn.csdb.tbotany.www;

在式(2)中,令γ=2Dx-η, α=PΘ(2Dx*-η*),以及γ=2Dx*-η*, α=PΘ(2Dx-η),得

其中,“中国科学院华南植物园”是作者,“中国热带亚热带植物学基础数据库”是名称,“V2”是版本号,“中国科学院华南植物园”是创建机构,“2004”是创建时间,“中国科学院计算机网络信息中心”是传播机构,“2014-12-03”是传播日期,“csdb:cn.csdb.tbotany.www”是唯一标识符,

《科学数据引用》研制工作启动以来,工作组通过文献调研、项目组讨论和专家研讨等方式开展工作。在文献调研部分,工作组调研了4家国际组织、16家国内外科研机构和9 所高校科学数据引用研究进展,内容涉及科学数据引用元素、引用格式、引用粒度和引用版本等核心问题。随着工作的深入开展,工作组内部进行了多次讨论,充分征求各参与单位的意见和建议;组织中国科学院计算机网络信息中心、中国科学技术信息研究所等领域专家进行专题研讨;同时参与全国信标委大数据标准工作组国家标准草案征求意见会等讨论会。

http://citation.csdb.cn/csdb:cn.csdb.tbotany.www.

·具有唯一性;

4 科学数据标识

4.1 标识符通用要求

科学数据引用的核心问题是数据标识符的选取和解析。《科学数据引用》建议唯一标识符应能够满足以下通用要求:

本标准提出科学数据引用元素共有9个:作者、名称、创建机构、创建时间、传播机构、传播时间、唯一标识符、解析地址、版本。其中,创建机构定义为创建该科学数据的机构名称,传播机构定义为科学数据传播分发机构,考虑到两个字段都是单位名称,用户可能会混淆,特意在引用格式里增加了[传播机构]和[创建机构]作为限定词。

·无歧义地标识一条数据;

“http://citation.csdb.cn/csdb:cn.csdb.tbotany.www”是解析地址。

《科学数据引用》标准研制工作组基于大量的文献调研,参考国内外现有的科学数据引用元素,并考虑到科学数据生产、发布传播、访问获取等诸多因素。最终,标准规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容,适用于科学数据传播机构和数据使用者等。其中,科学数据传播机构可根据本标准设计数据引用系统,并声明数据引用规则;数据使用者可根据本标准著录科学数据引用信息,规范数据引用行为。

·分层的架构体系,标识机制灵活、可扩展;

④ 朱星.金瓶梅的故事梗概和主要人物评介[J].河北大学学报(哲学社会科学版),1980(03):89-98.

·具备解析系统的支持,该系统通过解析唯一标识符定位到所标识的数据资源;

·应具备自主可控的解析技术,能够实现我国信息资源的自我管理;

·建议唯一标识符首先解析到数据的元数据,而不是直接解析到数据实体。元数据中包括该条数据的描述信息以及访问数据实体的链接地址,方便用户判断数据价值继而再进一步访问数据。

(1)显效,心绞痛彻底消失;病情控制良好。(2)有效,心绞痛的发作次数明显减少,且心绞痛分级减少≤1级。(3)无效,心绞痛的发作次数无变化,心绞痛分级未改善。以[(显效+有效)/例数*100%]公式计算两组的总有效率。

4.2 三类典型的数据标识符

选取科学数据标识符存在诸多困难。首先,数据类型复杂,格式众多。其次,数据标识粒度难以采用统一的标准。如地学数据量庞大,数据维度多样且内涵丰富,标识一些数据聚类形成的数据集对大部分研究者来说就能满足其需求,而一些数值型数据,每一条都具有标识和引用价值,因此需要标引到数据记录。

数据标识在不同领域和应用中采用不同的方式,目前在科学数据通用领域,常用的标识符如科技资源标识(China Science and Technology Resource,CSTR)[8]、对象标识符(Object Identifier, OID)[9]、数字化对象识别符(Digital Object Identifier,DOI)[10]等。其中,科技资源标识是由国家科技基础条件平台中心为主研制的国家标准(标准号为GB/T32843-2016)。该标识符由中国科技资源代号(CSTR)、科技资源标识注册机构代码、科技资源类型代码和内部标识符4部分组成。中国科技资源代号与科技资源标识注册机构代码之间用半角符号“;”隔开,其余各部分之间用半角符号“.”进行分割。对象标识符OID 是由国际标准化组织/国际电工委员会、国际电信联盟共同提出的标识机制,用于对任何类型的对象、概念或者“事物”进行全球无歧义、唯一命名。OID 编码结构为树状结构,不同层次之间用“.”分隔,层数无限制。数字化对象识别符DOI 由国际数字对象识别号基金会负责,包括前缀和后缀两个部分,中间用“/”分割。前缀部分由基金会确定,以“10.”开头,以区别于其他使用Handle系统的标识符应用;后缀部分由资源发布者自行指定,用于区分一个单独的数字资料,具有唯一性。

4.3 国家物联网标识管理公共服务平台

解析机制是唯一标识符访问的一个重要组成部分,也是实现标识符可操作性和互操作性的基础。唯一标识符的表达方式多种多样,为解析系统开发和利用带来挑战。目前,国内标识符注册解析管理系统——“国家物联网标识管理公共服务平台”是国家发改委于2013年5月正式批复,由中国科学院计算机网络信息中心牵头,联合工信部电子科学技术情报研究所、工信部电信研究院、中国物品编码中心三家单位共同建立物联网统一标识管理和公共服务平台。

国家物联网标识管理公共服务平台向所有行业开放,积极实现行业数据对接合作,最终构建物联网标识一物一码、互联互通全流程可追溯的标识码解决方案。目前该平台已经实现 HANDLE、ECODE、CSTR、OID、DOI、NIOT等多个标识系统的注册和解析[11]

5 标准应用推广

2017年12月,《科学数据引用》国家标准正式发布以后,中国科学院计算机网络信息中心作为该标准的第一完成单位,积极推动标准的应用和推广。目前,科学数据发布大致可以分为三种形式:一是通过类似学术论文的形式,经过同行评议后正式出版,即所谓的数据论文;二是利用专门的数据发布平台进行存储和服务,如figshare、PANGAEA、Dryad等国际上知名的数据存储库;三是某些学科领域(如生物信息学)的传统期刊在发布论文时,要求作者同时提交与该篇论文相关的数据,并存储到指定的数据平台。目前,针对科学数据发布的三种形式,中国科学院分别推出《中国科学数据》[12]、科学数据存储库(Science Data Bank,ScienceDB)[13]、中国科学院期刊在线采编发云服务平台都在积极采用《科学数据引用》国家标准的相关规定。

此外,《科学数据引用》国家标准还应用到了数据库建设与服务项目中,如国家科技基础条件平台基础科学数据共享网通过数据引用解析系统自动生成了项目内近 200个数据(集)的引用信息。在数据检索页面,每一条检索结果同时提供了该数据的引用信息,用户可以直接将这段引用信息复制下来,放到参考文献中,方便其对该数据的引用标注。同时,在基础科学数据共享网门户网站也提供了数据引用标识解析服务,用户输入有效的唯一标识符,即可解析到数据访问页面或该数据的元数据描述页面。

6 结束语

《科学数据引用》国家标准的正式发布,标志着科学数据可以像学术论文一样被引用和参考,在一定程度上推动数据共享和数据服务,同时也可以增强科学数据知识产权保护的意识。2018年3月17日,国务院办公厅正式发布了《科学数据管理办法》,为中国科学数据的工作确定了行动纲领。管理办法明确提出“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据。”同时,科技部和财政部配合《科学数据管理办法》的发布,今年年初已经印发了《国家科技资源共享服务平台管理办法》。平台管理办法也要求“用户使用国家平台科技资源形成的著作、论文等发表时,应明确标注科技资源标识和利用科技资源的情况,并应事先约定知识产权归属或比例。”可以说,这两个管理办法的发布,为科学数据引用规范的应用和推广提供了政策上的支持和保障,倡导和培养引用科学数据的良好习惯。当然,标准在实施推广的过程中,还将根据实际使用情况,不断地进行完善和修订。

三联与凤凰讨论:男的为什么变娘?有以下几点分析:1.小孩子见到的几乎都是女老师;2.家长太呵护了;3.学校教育压抑个性;4.考试压力让男生静态;5.爸爸在孩子教育中的缺席。

参考文献

[1]Alfred Wegener Institute for Polar and Marine Research(AWI).PANGAEA [DB/OL].[2018-05-20]http://www.pangaea.de/

[2]Citing Data in Dryad[EB/OL].[2018-05-20].http://wiki.datadryad.org/Citing_Data

[3]how to Cite Datasets and Link to Publications[EB/OL].[2018-6-7].http://www.dcc.ac.uk/resources/how-guides/cite-datasets

[4]King Gary.An Introduction to the Dataverse Network as an Infrastructure for Data Sharing[J].Sociological Methods and Research, 2007(36):173-199.

[5]Penev L, Mietchen D, Chavan V, Hagedorn G, Remsen D, Smith V, Shotton D(2011).Pensoft Data Publishing Policies and Guidelines for Biodiversity Data.Pensoft Publishers[EB/OL].[2018-08-20].http://www.pensoft.net/J_FILES/Pensoft_Data_Publishing_Policies_and_Guidelines.pdf.

[6]Publication and Citation of Scientific Primary Data [EB/OL].[2018-08-20]www.std-doi.de.

[7]中华人民共和国国家标准公告(2017年第32号)[EB/OL].[2018-08-20].http://www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/

[8]《科技资源标识》国家标准[EB/OL].[2018-08-20].http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=972D1B568C2EA47679AA0EC51BC2596F

[9]国家OID注册中心[EB/OL].[2018-08-20]http://www.china-oid.org.cn/

[10]中文DOI[EB/OL].[2018-08-20]http://www.chinadoi.cn/portal/index.htm

[11]国家物联网标识管理公共服务平台[EB/OL].[2018-08-20].http://www.cniotroot.cn

[12]中国科学数据[EB/OL].[2018-08-20].http://www.csdata.org/

[13]Science Data Bank[EB/OL].[2018-08-20].http://www.sciencedb.cn/index

 
朱艳华,胡良霖,孔丽华,高瑜蔚,陈希
《科研信息化技术与应用》2018年第06期文献
100%安全可靠
7X18小时在线支持
支付宝特邀商家
不成功全额退款