欢迎访问中国科学数据大会2018!
中国科学数据大会 (2018)-- 科学数据与人工智能
 

科学数据是国家科技创新和发展的基础性和战略资源,是科研创新最基本、最活跃、影响面最宽的科技资源。随着人工智能技术的蓬勃发展,其在各学科领域的大规模交叉应用必将成为促进科研创新,推动社会经济发展,提升国家竞争力的研究热点,这对广大科研工作者来说,既是机遇也是挑战。为进一步促进科学数据与人工智能技术的深度融合与应用发展,国际科技数据委员会(Committee on Data for Science and Technology,简称CODATA)中国全国委员会特以“科学数据与人工智能”为主题组织召开“第五届(2018)中国科学数据大会”。
 

会议时间:7月24日—27日

会议地点:黑河银建施泰根博阁酒店
 

大会报告人
   

   郭华东:构建地球大数据科学工程

中国科学院遥感与数字地球研究所学术委员会主任、研究员、博士生导师。中国科学院院士、俄罗斯科学院外籍院士、芬兰科学与人文院外籍院士、发展中国家科学院院士。现任国际数字地球学会主席、国际环境遥感委员会主席、联合国教科文组织国际自然与文化遗产空间技术中心主任、“数字丝路”国际科学计划主席、国家大数据专家委员会顾问、《国际数字地球学报》和《地球大数据》主编等,曾任国科联国际科技数据委员会主席等职。从事空间地球信息科学研究,在遥感信息机理、雷达对地观测、数字地球科学等方面取得系列成果。现为中科院A类战略性先导科技专项“地球大数据科学工程”负责人。发表论文600余篇,出版专著和主编著作16部,获国家、省部级科技奖励和国际奖16项。

 

   赵国屏:生物医学大数据的基础性工作

中国科学院院士,中国科学院上海植物生理研究所研究员、国家人类基因组南方研究中心执行主任、生物芯片上海国家工程中心主任、  复旦大学微生物学与微生物工程系系主任、  中国微生物学会理事长。主要科研领域:微生物基因组学和生物信息学,进化,代谢调节,合成生物学。

 

 

   国家科技基础条件平台中心:加强和规范我国科学数据管理与开放共享的考虑

国家科技基础条件平台中心是国家科学技术部直属事业单位,致力于科技基础条件资源的专业化管理,推动科技资源建设、优化配置、开放共享与高效利用。主要科技资源包括:重大科研基础设施和大型科学仪器、科学数据和信息、生物种质和实验材料等。主要职责包括:组织开展国家科技条件资源建设和共享的战略和政策规划研究,为国家相关规划、政策的制定提供依据;了解和掌握科技基础条件资源的状况,提出科技资源优化配置的意见和建议;指导、组织和推动科技资源的建设和开放共享,提升科技资源对科技创新的支撑保障能力,促进科技资源的高效利用;此外,还承担国家工程技术研究中心、科技基础资源调查专项等过程管理工作。

 

    刘成林:人工智能技术现状与趋势


中国科学院自动化研究所副所长,在手写字符识别的图像归一化、特征提取、分类器设计、手写字符串的切分与识别等方面提出一系列有效的方法;研制的文字识别算法在日本的邮政分拣机、表格处理系统等产品中获得成功的应用,尤其是用于邮政分拣的日文手写地址识别系统是该领域第一个成功的应用。

 



 

   

李向阳:大数据共享和交易之挑战与初探 

现为中国科学技术大学计算机科学与技术学院教授、执行院长。现任 ACM 中国共同主席、ACM理事会常务理事、ACM SIGMobile China联合主席、ACM Publication Board成 员。2015 年入选国家千人计划专家,2015 年获 IEEE Fellow 和 ACM Distinguished Scientist 称号,2016 年获中国自然基金委杰出青年基金资助。

 

 


Geoffrey Boultont :The global data challenges

英国皇家学会会士、爱丁堡大学地质学钦定荣休教授、国际科技数据委员会(CODATA)主席。主要研究领域是气候和环境变化,曾获不列颠帝国勋章、英国地质学会莱尔奖。

李菂:500米口径射电望远镜(FAST)的大数据挑战及Exabyte天文学的来临

国家天文台射电天文研究部首席科学家,国家大科学工程FAST项目副总工程师,发表国际论文过百篇,引用超过2000次,专利超过5项。2005年获美国国家科学委员会学者奖, 被称为“通过国家级竞争遴选,具有杰出科研能力”。提出并命名了氢气窄线自吸收(HINSA)方法,首次直接测量分子云形成时标。星际分子氧气发现人(第二作者),并参与发现数种新空间分子。


张广洲:黑龙江省科技资源开放共享工作有关情况的报告

现任黑龙江省科技资源共享服务中心主任。全面负责黑龙江省科技类平台建设的发展战略研究、建设与管理省科技资源共享服务平台、指导地方科技资源共享服务平台子平台系统建设,规范科技类平台运行服务并进行评估和指导,为社会科技资源共享服务。同时,负责黑龙江省科技“创新券”政策制定及实施、黑龙江省大型仪器设备共享补贴及奖励工作,推动国家科技基础条件平台地方工作站建设。

 

 
 
 

大会来稿:

基于云平台的智慧图书馆系统的设计与实现
作者: 王茜 , 张黎
本文采用云计算、大数据技术,与智慧图书馆紧密结合,以信息化、智能化服务平台为支撑,有效整合信息资源,提出了智慧图书馆系统平台建设及应用的方案,拓展了基于云平台的智慧图书馆系统设计与实现领域的研究,进一步提升基于云平台的智慧图书馆应用成效,建立完善的智慧图书馆大数据平台体系。
了解详情>>
本文采用云计算、大数据技术,与智慧图书馆紧密结合,以信息化、智能化服务平台为支撑,有效整合信息资源,提出了智慧图书馆系统平台建设及应用的方案,拓展了基于云平台的智慧图书馆系统设计与实现领域的研究,进一步提升基于云平台的智慧图书馆应用成效,建立完善的智慧图书馆大数据平台体系。
基于BP神经网络的工程结构用钢自然环境腐蚀数据挖掘
作者: 王海涛 , 韩恩厚
工程结构用钢在大气和海洋自然环境下应用极为广泛,然而工程结构用钢的环境腐蚀破坏了设备、设施的完整性,给国民经济造成巨大的损失。国家在六五至九五期间在北京、青岛、武汉、江津、广州、琼海和万宁七个大气试验站,以及青岛、厦门、榆林和舟山四个海水试验站投放了17种工程结构用碳钢、低合金钢,获取了丰富的数据资源,利用BP神经网络对已有数据进行深度挖掘,可以分析数据内在的规律,描述腐蚀损伤发展演化过程,对自然环境腐蚀防护提供相应的技术支持。为此,我们分别将大气、海洋腐蚀数据分为训练数据集和预测数据集,并进行了归一化处理,神经网络采用三层结构,选取碳钢、低合金钢的合金元素、大气和海洋环境因素、暴露时间作为神经网络的输入,大气、海洋的平均腐蚀速率作为神经网络输出,隐含层节点数进行了测试获得了最优的预测误差,并通过单一因素敏感性分析方法研究了合金元素和环境因素对于大气、海洋腐蚀速率的影响,结果表明利用神经网络对大气和海洋腐蚀进行数据挖掘以此预测腐蚀行为具有一定的可行性。
了解详情>>
工程结构用钢在大气和海洋自然环境下应用极为广泛,然而工程结构用钢的环境腐蚀破坏了设备、设施的完整性,给国民经济造成巨大的损失。国家在六五至九五期间在北京、青岛、武汉、江津、广州、琼海和万宁七个大气试验站,以及青岛、厦门、榆林和舟山四个海水试验站投放了17种工程结构用碳钢、低合金钢,获取了丰富的数据资源,利用BP神经网络对已有数据进行深度挖掘,可以分析数据内在的规律,描述腐蚀损伤发展演化过程,对自然环境腐蚀防护提供相应的技术支持。为此,我们分别将大气、海洋腐蚀数据分为训练数据集和预测数据集,并进行了归一化处理,神经网络采用三层结构,选取碳钢、低合金钢的合金元素、大气和海洋环境因素、暴露时间作为神经网络的输入,大气、海洋的平均腐蚀速率作为神经网络输出,隐含层节点数进行了测试获得了最优的预测误差,并通过单一因素敏感性分析方法研究了合金元素和环境因素对于大气、海洋腐蚀速率的影响,结果表明利用神经网络对大气和海洋腐蚀进行数据挖掘以此预测腐蚀行为具有一定的可行性。
农业病害识别研究图像数据集
作者: 陈雷 , 袁媛
根据联合国粮农组织报告,每年农业病虫害造成的自然损失率超过37%,农业病虫害识别与防治对于提高农业产量具有重要意义。传统人工识别方法依赖经验,主观因素较大,不够准确;近年来计算机视觉方法逐渐发展,该方法更加客观,并支持实时在线诊断,但需要大规模训练样本的支持,因此构建可供机器学习建模使用的图像数据集对于实现高效的农业病虫害识别至关重要。为此我们构建了农业病害图像数据集,涵盖农业病害图像采集、分类、标记、存储与建模等多方面的内容,面向科研学者与农技人员两大类用户群体提供农业病害在线诊断及相关的技术咨询等服务。本数据集目前包括大田作物与蔬果花卉两大类高质量的农业病害图像数据约200GB,其中大田作物以水稻、小麦为主,蔬果花卉以黄瓜、葡萄为主。与现有大多仅含有3至5幅典型症状图像的农业病害图谱类资源存在本质区别,本图像数据集由高分辨率和高相似度的同类农作物病害原始图像数据构成,每种病害的图像数量有几百乃至上千幅,可作为病害识别建模的训练样本使用。本数据集将为农业病害识别研究领域提供宝贵的基础数据资源,同时可作为大数据环境下机器学习建模的标准图库,对促进农业病害图像识别研究的发展具有重要的实际应用价值。
了解详情>>
根据联合国粮农组织报告,每年农业病虫害造成的自然损失率超过37%,农业病虫害识别与防治对于提高农业产量具有重要意义。传统人工识别方法依赖经验,主观因素较大,不够准确;近年来计算机视觉方法逐渐发展,该方法更加客观,并支持实时在线诊断,但需要大规模训练样本的支持,因此构建可供机器学习建模使用的图像数据集对于实现高效的农业病虫害识别至关重要。为此我们构建了农业病害图像数据集,涵盖农业病害图像采集、分类、标记、存储与建模等多方面的内容,面向科研学者与农技人员两大类用户群体提供农业病害在线诊断及相关的技术咨询等服务。本数据集目前包括大田作物与蔬果花卉两大类高质量的农业病害图像数据约200GB,其中大田作物以水稻、小麦为主,蔬果花卉以黄瓜、葡萄为主。与现有大多仅含有3至5幅典型症状图像的农业病害图谱类资源存在本质区别,本图像数据集由高分辨率和高相似度的同类农作物病害原始图像数据构成,每种病害的图像数量有几百乃至上千幅,可作为病害识别建模的训练样本使用。本数据集将为农业病害识别研究领域提供宝贵的基础数据资源,同时可作为大数据环境下机器学习建模的标准图库,对促进农业病害图像识别研究的发展具有重要的实际应用价值。
“小学生眼里的科学数据”调查报告
作者: 刘思霖 , 戴静芳
科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。科学数据是科研观测、科学研究活动的成果,也是科技创新重要的对象与条件,具是信息时代最基本、最活跃、影响面最宽的科技资源。人们可能会习惯性认为科学数据是仅供科学家使用的资源,忽略了科学数据在科学普及方面的重要价值。 本文作者在上海市徐汇区东二小学组织了 “小学生眼里的科学数据”的调查,调查内容主要包括:家长的专业背景、儿童的日常生活内容、儿童的娱乐倾向、儿童对科学数据的了解、儿童接触科学数据的可能途径等。本调查以不记名的方式进行,原则要求儿童自主回答问题,家长可以给予适当协助。本调查的目标是:调查学龄儿童对科学数据的了解程度,分析家长的专业背景对儿童的专业兴趣的影响,研究探讨科学数据在科学普及方面的需求价值。 调查结果表明:学龄儿童对科学数据有强烈的兴趣,对科学理论和科学事实有丰沛的求知欲,对参与科学研究活动有迫切的渴望。作者认为:我们应紧紧抓住儿童对科学数据的兴趣,大力推动最新的科学数据走进儿童的学习和生活,深化我国科学普及工作,将“科技创新”的锋线前移,让我们的民族在起跑线就开始插上科技和创新的翅膀。
了解详情>>
科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。科学数据是科研观测、科学研究活动的成果,也是科技创新重要的对象与条件,具是信息时代最基本、最活跃、影响面最宽的科技资源。人们可能会习惯性认为科学数据是仅供科学家使用的资源,忽略了科学数据在科学普及方面的重要价值。 本文作者在上海市徐汇区东二小学组织了 “小学生眼里的科学数据”的调查,调查内容主要包括:家长的专业背景、儿童的日常生活内容、儿童的娱乐倾向、儿童对科学数据的了解、儿童接触科学数据的可能途径等。本调查以不记名的方式进行,原则要求儿童自主回答问题,家长可以给予适当协助。本调查的目标是:调查学龄儿童对科学数据的了解程度,分析家长的专业背景对儿童的专业兴趣的影响,研究探讨科学数据在科学普及方面的需求价值。 调查结果表明:学龄儿童对科学数据有强烈的兴趣,对科学理论和科学事实有丰沛的求知欲,对参与科学研究活动有迫切的渴望。作者认为:我们应紧紧抓住儿童对科学数据的兴趣,大力推动最新的科学数据走进儿童的学习和生活,深化我国科学普及工作,将“科技创新”的锋线前移,让我们的民族在起跑线就开始插上科技和创新的翅膀。
基于植物化学成分数据库的植物化学成分研究趋势分析
作者: 戴静芳 , 李英勇 , 赵英莉 , 周俊红 , 徐挺军 , 陈维明
中国科学院上海有机所收集了1973年-2010年上半年的植物成分研究文献6万多篇,从文献中分析提取数据,构建了植物化学成分数据库。该数据库收录了31万种植物物种、11万多种化合物,并将植物化学成分通过有机所自建的登录系统进行了整合。 本文以植物化学成分数据库为基础,按照时间轴,对植物化学成分研究的趋势变化进行了统计分析。近40年时间里,全世界科学家共研究了871科、5418属、34900多种的单植物或者多植物混合、部分真菌和细菌的化学成分。统计显示: 1) 上世纪70年代开始,植物成分研究文献发表数快速增长,2009的研究文献数量相比1977年增加了300%。 2) 日本、中国和印度是对植物成分研究兴趣最高的三个国家。2000年之前,日本研究者对植物成分研究一直居于全球之首;2001年后,来自中国研究者的文献迅速增加,远超其他国家。 3) 对研究物种的统计表明,传统的药用植物和可食用植物,是植物成分研究的长期热点。以时间轴进行划分,2000年之前以印度、日本和西方传统药用植物为多,比如印度苦楝、红豆杉等;2001年以后对中药材和可食用植物的研究明显增多,比如连翘、葡萄和水稻。 4) 部分化合物在植物中分布广泛,许多科、属内物种有共同的多个化学成分,有800多种化合物分别出现在100多种植物组分里。 5) 通过与药品数据库整合,204种药用化合物确认属于植物成分,分别出现在7760种植物组分中。
了解详情>>
中国科学院上海有机所收集了1973年-2010年上半年的植物成分研究文献6万多篇,从文献中分析提取数据,构建了植物化学成分数据库。该数据库收录了31万种植物物种、11万多种化合物,并将植物化学成分通过有机所自建的登录系统进行了整合。 本文以植物化学成分数据库为基础,按照时间轴,对植物化学成分研究的趋势变化进行了统计分析。近40年时间里,全世界科学家共研究了871科、5418属、34900多种的单植物或者多植物混合、部分真菌和细菌的化学成分。统计显示: 1) 上世纪70年代开始,植物成分研究文献发表数快速增长,2009的研究文献数量相比1977年增加了300%。 2) 日本、中国和印度是对植物成分研究兴趣最高的三个国家。2000年之前,日本研究者对植物成分研究一直居于全球之首;2001年后,来自中国研究者的文献迅速增加,远超其他国家。 3) 对研究物种的统计表明,传统的药用植物和可食用植物,是植物成分研究的长期热点。以时间轴进行划分,2000年之前以印度、日本和西方传统药用植物为多,比如印度苦楝、红豆杉等;2001年以后对中药材和可食用植物的研究明显增多,比如连翘、葡萄和水稻。 4) 部分化合物在植物中分布广泛,许多科、属内物种有共同的多个化学成分,有800多种化合物分别出现在100多种植物组分里。 5) 通过与药品数据库整合,204种药用化合物确认属于植物成分,分别出现在7760种植物组分中。
基于GAN网络的图像去卷积
作者: 徐龙 , 孙文青 , 程俊 , 颜毅华
通常,图像的欠采样会造成图像模糊,尤其是射电天文里非常普遍的综合孔径成像,其涉及频率域的稀疏采样。综合孔径采用一种间接的成像方式,其原理为:一组天线两两干涉而获得频率域的稀疏采样点,这些频域采样点经过傅里叶反变换可以获得空域图像。实际中,天线数量有限,因而采样点非常稀疏,从而造成空域图像非常模糊。本文基于近期图像、计算机视觉领域兴起的深度学习算法,开展天文图像的去卷积研究,具体地讲是借助于深度学习中的生成对抗网络GAN (Generative adversarial networks)
了解详情>>
通常,图像的欠采样会造成图像模糊,尤其是射电天文里非常普遍的综合孔径成像,其涉及频率域的稀疏采样。综合孔径采用一种间接的成像方式,其原理为:一组天线两两干涉而获得频率域的稀疏采样点,这些频域采样点经过傅里叶反变换可以获得空域图像。实际中,天线数量有限,因而采样点非常稀疏,从而造成空域图像非常模糊。本文基于近期图像、计算机视觉领域兴起的深度学习算法,开展天文图像的去卷积研究,具体地讲是借助于深度学习中的生成对抗网络GAN (Generative adversarial networks)
科学数据的可发现、可获取、互操作和可重用——FAIR原则解读
作者: 温亮明 , 李洋 , 郭蕾
科学数据是科学发现和知识创新的重要依据和基石,其丰富程度及从中萃取出信息和知识的能力成为了国家科研竞争力的重要决定因素之一。随着我国对科技投入力度的不断加大,通过各类科技计划、科研基地建设、国际项目合作以及科学公益事业等产生和积累了大批科学数据。但与良好的科学数据资源积累态势形成鲜明对比的是,我国在科学数据共享方面还存在诸多问题。尽管在国家层面陆续出台了一系列促进科学数据开发利用的相关发展战略,不少行业领域、组织机构和科研项目也制定了数据政策和相关标准蓬,但科学数据共享的实践和理论研究效果难以令人满意,其中一个重要原因就是缺乏通用的、可操作的科学数据共享指导办法。2016年,著名的学术社区Force11发布了科学数据管理指南,提出了科学数据管理准则——FAIR原则,该原则建议所有科研产出的数据在存储时努力做到Findable(可发现)、Accessible(可获取)、Interoperable(互操作)和Reusable(可重用)。目前,FAIR原则已经得到众多国际组织的认可,已被不少专家学者在多个场合提及,欧洲议会已遵循FAIR原则率先开放了欧洲科学云。可以预见的是,FAIR原则将成为科学数据管理的一套国际准则。因此,深入解析该原则的产生背景和蕴含的数据管理思想,对于我国开展科学数据共享工作具有一定的指导借鉴意义。本文首先介绍FAIR原则产生的社会背景和科学背景;其次,重点解读了FAIR原则所提倡的可发现、可获取、互操作和可重用这四个方面及其细化方向;然后,具体分析FAIR原则在落实过程中所面临的困难与挑战;最后,提出FAIR原则对我国科学数据管理的启示意义。本文认为,在现行科研环境下, FAIR原则的落实可能会面临技术、费用、法规、伦理等方面的问题,我国应该积极整合分散的数据资源,制定覆盖科学数据全生命周期的管理标准,加强科学数据核心管理技术的研发与布局,建立健全科学数据共享评价机制。期望该解读能为我国科学数据管理的实践与研究提供一定参考。
了解详情>>
科学数据是科学发现和知识创新的重要依据和基石,其丰富程度及从中萃取出信息和知识的能力成为了国家科研竞争力的重要决定因素之一。随着我国对科技投入力度的不断加大,通过各类科技计划、科研基地建设、国际项目合作以及科学公益事业等产生和积累了大批科学数据。但与良好的科学数据资源积累态势形成鲜明对比的是,我国在科学数据共享方面还存在诸多问题。尽管在国家层面陆续出台了一系列促进科学数据开发利用的相关发展战略,不少行业领域、组织机构和科研项目也制定了数据政策和相关标准蓬,但科学数据共享的实践和理论研究效果难以令人满意,其中一个重要原因就是缺乏通用的、可操作的科学数据共享指导办法。2016年,著名的学术社区Force11发布了科学数据管理指南,提出了科学数据管理准则——FAIR原则,该原则建议所有科研产出的数据在存储时努力做到Findable(可发现)、Accessible(可获取)、Interoperable(互操作)和Reusable(可重用)。目前,FAIR原则已经得到众多国际组织的认可,已被不少专家学者在多个场合提及,欧洲议会已遵循FAIR原则率先开放了欧洲科学云。可以预见的是,FAIR原则将成为科学数据管理的一套国际准则。因此,深入解析该原则的产生背景和蕴含的数据管理思想,对于我国开展科学数据共享工作具有一定的指导借鉴意义。本文首先介绍FAIR原则产生的社会背景和科学背景;其次,重点解读了FAIR原则所提倡的可发现、可获取、互操作和可重用这四个方面及其细化方向;然后,具体分析FAIR原则在落实过程中所面临的困难与挑战;最后,提出FAIR原则对我国科学数据管理的启示意义。本文认为,在现行科研环境下, FAIR原则的落实可能会面临技术、费用、法规、伦理等方面的问题,我国应该积极整合分散的数据资源,制定覆盖科学数据全生命周期的管理标准,加强科学数据核心管理技术的研发与布局,建立健全科学数据共享评价机制。期望该解读能为我国科学数据管理的实践与研究提供一定参考。
高对比度天文图像处理方法研究
作者: 王益萍
高对比度天文图像处理是指对那些中心亮度远大于其周边暗弱源的天体的成像分析,从而实现对其周边暗弱物质结构的有效分辨。 比较典型的这类天体主要有紧邻明亮恒星的系外行星、恒星的残留盘,以及类星体的宿主星系等。 由于中心的强光背景和大气湍流的影响,高对比度天体的高分辨成像观测不仅需要具有很好角分辨能力的硬件设备, 而且在后续的图像处理中也需要一些特定的处理方法。 本文将以类星体的高分辨成像观测和后续图像处理为例,重点介绍高对比天体的高分辨成像观测以及图像处理方法研究
了解详情>>
高对比度天文图像处理是指对那些中心亮度远大于其周边暗弱源的天体的成像分析,从而实现对其周边暗弱物质结构的有效分辨。 比较典型的这类天体主要有紧邻明亮恒星的系外行星、恒星的残留盘,以及类星体的宿主星系等。 由于中心的强光背景和大气湍流的影响,高对比度天体的高分辨成像观测不仅需要具有很好角分辨能力的硬件设备, 而且在后续的图像处理中也需要一些特定的处理方法。 本文将以类星体的高分辨成像观测和后续图像处理为例,重点介绍高对比天体的高分辨成像观测以及图像处理方法研究
英国地质调查局地层古生物资料数字化的实践
作者: 王媛 , 杨娇 , 陈中阳 , 侯旭东 , 樊隽轩
GBDB(Geobiodiversity Database,http://www.geobiodiversity.com)是一个基于互联网、数据库和GIS等技术开发的古生物学和地层学数字化科研平台,该平台一直秉持开放、共享的原则面向全球用户提供稳定的免费在线服务。自2006年创建以来,GBDB平台中已经整合了全球海量的地层古生物资料,并集成了地理可视化、地层可视化、野外露头360度全景可视化、定量地层对比等多种分析工具和应用功能,可用以辅助开展地层学、古生物学、古地理学等多方面的综合研究。近几年,GBDB在国际上的影响力不断扩大,先后成为了两个权威国际学术组织——国际地层委员会(International Commission on Stratigraphy,ICS)和国际古生物协会(International Palaeontological Association,IPA)的官方数据库,并且于2018年1月与国际沉积学家协会(International Association of Sedimentologists,IAS)建立了正式合作关系。 英国地质调查局(British Geological Survey,BGS)是世界上历史最悠久的国家地调局,在其上百年的历史中积累了海量的露头剖面和钻井资料,但这些资料一直未能数字化,而仅是以纸质报告的形式保存在英国地调局内部。作为一个公共组织,英国地调局希望推动这些重要资料的数字化和开放获取,从而吸引更多的用户使用其数据资源。经过全球调研与比较,2017年初,英国地调局正式邀请GBDB团队赴英,承担其地层古生物资料的数字化工作。 2017年11月至2018年1月,GBDB团队受邀访问英国地调局,开展了为期三个月的地层古生物资料的数字化合作工作。截至2018年1月31日,已完成13000余条文献数据的录入,3900个地层古生物报告的扫描,以及1100个剖面和钻井资料的标准化和录入工作,并结合英国资料的实际情况,开发完成了一系列标准化规范和辅助工具,例如,坐标系统转换工具,可以将英国传统的国家网格参考系统(NGR)和北爱尔兰坐标系统,转换为当今主流的地理坐标系统。所有已数字化的资料均可通过GBDB网站在线查询和获取。GBDB团队还为该合作项目开发了专门的在线访问系统(http://www.geobiodiversity.com/BGSPortal.aspx),用于相关的数据检索、查询和可视化。第一阶段数字化工作的顺利开展,为后续的长期合作奠定了坚实的基础。
了解详情>>
GBDB(Geobiodiversity Database,http://www.geobiodiversity.com)是一个基于互联网、数据库和GIS等技术开发的古生物学和地层学数字化科研平台,该平台一直秉持开放、共享的原则面向全球用户提供稳定的免费在线服务。自2006年创建以来,GBDB平台中已经整合了全球海量的地层古生物资料,并集成了地理可视化、地层可视化、野外露头360度全景可视化、定量地层对比等多种分析工具和应用功能,可用以辅助开展地层学、古生物学、古地理学等多方面的综合研究。近几年,GBDB在国际上的影响力不断扩大,先后成为了两个权威国际学术组织——国际地层委员会(International Commission on Stratigraphy,ICS)和国际古生物协会(International Palaeontological Association,IPA)的官方数据库,并且于2018年1月与国际沉积学家协会(International Association of Sedimentologists,IAS)建立了正式合作关系。 英国地质调查局(British Geological Survey,BGS)是世界上历史最悠久的国家地调局,在其上百年的历史中积累了海量的露头剖面和钻井资料,但这些资料一直未能数字化,而仅是以纸质报告的形式保存在英国地调局内部。作为一个公共组织,英国地调局希望推动这些重要资料的数字化和开放获取,从而吸引更多的用户使用其数据资源。经过全球调研与比较,2017年初,英国地调局正式邀请GBDB团队赴英,承担其地层古生物资料的数字化工作。 2017年11月至2018年1月,GBDB团队受邀访问英国地调局,开展了为期三个月的地层古生物资料的数字化合作工作。截至2018年1月31日,已完成13000余条文献数据的录入,3900个地层古生物报告的扫描,以及1100个剖面和钻井资料的标准化和录入工作,并结合英国资料的实际情况,开发完成了一系列标准化规范和辅助工具,例如,坐标系统转换工具,可以将英国传统的国家网格参考系统(NGR)和北爱尔兰坐标系统,转换为当今主流的地理坐标系统。所有已数字化的资料均可通过GBDB网站在线查询和获取。GBDB团队还为该合作项目开发了专门的在线访问系统(http://www.geobiodiversity.com/BGSPortal.aspx),用于相关的数据检索、查询和可视化。第一阶段数字化工作的顺利开展,为后续的长期合作奠定了坚实的基础。
文化遗产语料库的构建及其在数据挖掘中的应用
作者: 梁勇奇 , 杨瑞霞 , 耿同
文化遗产为人们提供归属感和安全感,为更好地认识过去,解决现在和未来可能的问题提供借鉴。文化遗产属性数据,作为文化遗产保护中的基础数据,对保护决策,监测要素选择,具有指导意义。自然语言处理基于语言学的知识,使用计算机处理文本,能高效地从文本中获取特定信息。语料库是一组特定语义的文本,为自然语言处理提供支撑。 文化遗产语言技术联盟(CHLT)将计算机语言学,自然语言处理和信息检索等技术整合,数字化希腊文、拉丁文、古诺尔斯文,建立语料库,并创建了高效的检索系统。该语料库是语言层面的语料库,还未细致到某个更专业的领域。在古建筑管理领域,有基于建筑百科全书构建的语料库,应用于古建筑的语义理解和系统性地数据管理。在生物医学领域,有基于生物医学事件相关关键词构建的语料库,用于文献中的数据挖掘。 截止2017年,列入联合国教科文组织(UNESCO)名录的全球世界文化遗产有800余项,其中有200余项具有多处,经过对坐标位置信息等梳理统计,遗产地分布地点有4000余处,遍及世界各地。每项遗产地具有独特的价值与环境等属性特征,这些信息可以从UNESCO网站的申遗文本、Wiki百科介绍等文本资料中提取。在大数据时代,世界遗产认知、保护和利用需要对遗产地进行系统性的数据管理。而目前尚没有一套针对世界文化遗产属性特征的语料库,用于信息提取。因此,利用文化遗产文本资源,构建一套文化遗产属性特征的语料库,利用自然语言处理中自动、高效的数据挖掘模型,从大量的文本资源提取属性信息,并形成文化遗产属性数据集,对于文化遗产的认知和保护具有重要意义。 本文从世界文化遗产数据管理及环境监测的角度,通过UNESCO和Wiki百科等网站,获取世界文化遗产相关信息的文本,选择遗产地的价值属性、类型、位置、构成、可视性、周边城镇、地表覆被、水文、气候等作为关键属性信息并进行标注,构建文化遗产语料库,通过语义理解和自然语言处理,实现关键属性信息的自动提取,形成世界文化遗产属性数据集,为文化遗产数据管理和环境监测要素分析等提供数据支持。同时,该语料库也能直接用于相关领域的自然语言处理算法开发。
了解详情>>
文化遗产为人们提供归属感和安全感,为更好地认识过去,解决现在和未来可能的问题提供借鉴。文化遗产属性数据,作为文化遗产保护中的基础数据,对保护决策,监测要素选择,具有指导意义。自然语言处理基于语言学的知识,使用计算机处理文本,能高效地从文本中获取特定信息。语料库是一组特定语义的文本,为自然语言处理提供支撑。 文化遗产语言技术联盟(CHLT)将计算机语言学,自然语言处理和信息检索等技术整合,数字化希腊文、拉丁文、古诺尔斯文,建立语料库,并创建了高效的检索系统。该语料库是语言层面的语料库,还未细致到某个更专业的领域。在古建筑管理领域,有基于建筑百科全书构建的语料库,应用于古建筑的语义理解和系统性地数据管理。在生物医学领域,有基于生物医学事件相关关键词构建的语料库,用于文献中的数据挖掘。 截止2017年,列入联合国教科文组织(UNESCO)名录的全球世界文化遗产有800余项,其中有200余项具有多处,经过对坐标位置信息等梳理统计,遗产地分布地点有4000余处,遍及世界各地。每项遗产地具有独特的价值与环境等属性特征,这些信息可以从UNESCO网站的申遗文本、Wiki百科介绍等文本资料中提取。在大数据时代,世界遗产认知、保护和利用需要对遗产地进行系统性的数据管理。而目前尚没有一套针对世界文化遗产属性特征的语料库,用于信息提取。因此,利用文化遗产文本资源,构建一套文化遗产属性特征的语料库,利用自然语言处理中自动、高效的数据挖掘模型,从大量的文本资源提取属性信息,并形成文化遗产属性数据集,对于文化遗产的认知和保护具有重要意义。 本文从世界文化遗产数据管理及环境监测的角度,通过UNESCO和Wiki百科等网站,获取世界文化遗产相关信息的文本,选择遗产地的价值属性、类型、位置、构成、可视性、周边城镇、地表覆被、水文、气候等作为关键属性信息并进行标注,构建文化遗产语料库,通过语义理解和自然语言处理,实现关键属性信息的自动提取,形成世界文化遗产属性数据集,为文化遗产数据管理和环境监测要素分析等提供数据支持。同时,该语料库也能直接用于相关领域的自然语言处理算法开发。
题目:SKA大数据的科学应用、需求和挑战
作者: 安涛 , 武向平 , 洪晓瑜 , 叶叔华
以宏伟科学目标为驱动的平方公里阵列(SKA)射电望远镜即将开建,建成后将是最大的天文观测装置,开创人类探索宇宙的新纪元,将推动人们对宇宙起源、生命起源、宇宙磁场起源、引力的物理本质等天文学和物理学领域的重大前沿问题的认识。SKA大规模阵列拥有超级灵敏、超大视场、超快巡天速度和超高时间/空间/频率分辨率,由此产生了海量观测数据。能否对SKA数据进行有效处理和分析是SKA取得预期科学成果的关键。分布于几个主要成员国的SKA区域中心将承担数据分析、天文软件开发、科学研究、科学产品长期存储、服务支持的职能。中国SKA科学团队计划建设中国SKA区域中心,协同信息产业界一道应对大规模数据运输、存储、读写、运算、管理、归档、发布等挑战,并逐步过渡到未来的国际SKA科学和数据中心,为全世界SKA用户提供计算资源和科学产品,参与全球创新合作,为解决人类共同关注的科学目标做出贡献。
了解详情>>
以宏伟科学目标为驱动的平方公里阵列(SKA)射电望远镜即将开建,建成后将是最大的天文观测装置,开创人类探索宇宙的新纪元,将推动人们对宇宙起源、生命起源、宇宙磁场起源、引力的物理本质等天文学和物理学领域的重大前沿问题的认识。SKA大规模阵列拥有超级灵敏、超大视场、超快巡天速度和超高时间/空间/频率分辨率,由此产生了海量观测数据。能否对SKA数据进行有效处理和分析是SKA取得预期科学成果的关键。分布于几个主要成员国的SKA区域中心将承担数据分析、天文软件开发、科学研究、科学产品长期存储、服务支持的职能。中国SKA科学团队计划建设中国SKA区域中心,协同信息产业界一道应对大规模数据运输、存储、读写、运算、管理、归档、发布等挑战,并逐步过渡到未来的国际SKA科学和数据中心,为全世界SKA用户提供计算资源和科学产品,参与全球创新合作,为解决人类共同关注的科学目标做出贡献。
SKA大数据的存储、归档和管理
作者: 郭绍光 , 安涛 , 郭铨 , 劳保强 , 陆扬
SKA将产生巨量的观测数据和科学输出,天文学家需要对这些数据进行存储、检索和管理。为了应对大数据以及SKA的战略需求,需要一套支持并发、稳定、高速的管控系统。目前上海天文台采用下一代归档系统NGAS来管理相关的数据,目前相关的数据已经达到10TB量级,已经与SKA的先导阵MWA与ASKAP进行了相关的数据网络测试。NGAS 为 Next generation archive system 的缩写,是处理来自望远镜的大数据流的下一代存档系统,该系统主要为了应对射电望远镜和设备所输出的不断增长的数据。对于任何一个大型望远镜阵列,就算是单独的一个望远镜,面对数量巨大的观测数据,都需要一套稳定易用的数据归档系统。在使用该套系统的同时,团队也开发了相关的插件来支持用户便捷高效地使用大数据的存储管理系统。
了解详情>>
SKA将产生巨量的观测数据和科学输出,天文学家需要对这些数据进行存储、检索和管理。为了应对大数据以及SKA的战略需求,需要一套支持并发、稳定、高速的管控系统。目前上海天文台采用下一代归档系统NGAS来管理相关的数据,目前相关的数据已经达到10TB量级,已经与SKA的先导阵MWA与ASKAP进行了相关的数据网络测试。NGAS 为 Next generation archive system 的缩写,是处理来自望远镜的大数据流的下一代存档系统,该系统主要为了应对射电望远镜和设备所输出的不断增长的数据。对于任何一个大型望远镜阵列,就算是单独的一个望远镜,面对数量巨大的观测数据,都需要一套稳定易用的数据归档系统。在使用该套系统的同时,团队也开发了相关的插件来支持用户便捷高效地使用大数据的存储管理系统。
基于三维重建技术的化石标本三维可视化实践
作者: 杨娇 , 王媛 , 杨越 , 季承 , 樊隽轩
GBDB(Geobiodiversity Database,www.geobiodiversity.com)是一个基于古生物学和地层学的大数据平台,随着它的快速发展,不仅在学科范畴上逐渐向其他学科扩展,而且在数据的展现和分析手段上也开始整合更多的新技术和新手段。 笔者等从2018年初开始利用计算机视觉三维重建方法进行化石标本三维可视化数据的采集工作。计算机视觉三维重建方法分为接触式方法和非接触式方法。为了避免化石标本的破坏,我们采用了非接触式方法。非接触式方法又分为主动视觉法和被动视觉法。经过反复的实验与比较,可以发现,主动视觉法需要购置专业、昂贵的测量工具,生成的三维模型重建精度最高,但仅有少数1-2款设备支持彩色数据的直接采集,其他设备均需通过与相机采集的彩色照片进行叠加,从而才能实现彩色三维模型的重建;被动视觉法利用常规的单反相机即可采集数据,操作便捷、色彩丰富,虽然其分辨率略低于主动视觉法,但在光线、相机等条件足够好的情况下,完全可以胜任常规尺寸的化石标本的数字化需求。在具体实践中,我们选择了被动视觉法的单目视觉法,该方法仅需使用单反相机进行拍摄,再运用专业的三维重建软件如PhotoScan,即可以生成高质量的三维模型。PhotoScan是一款基于影像自动生成高质量三维模型的优秀软件,该软件的建模流程主要包括对齐图片、建立密集点云、生成网格、生成纹理等。通过PhotoScan软件中提供的批量处理功能,只需设定好操作流程及其参数,中途无需用户参与,即可全自动生成三维模型。针对那些对模型分辨率要求特别高的化石标本,则需购置专业的高分辨率三维扫描仪,通过设备自带的三维建模软件就可以生成化石标本的高精度三维模型。我们对市场上适用于扫描化石标本的多款三维扫描仪进行了详细的调研和适用,它们的分辨率及精度直接与其售价挂钩,但是它们均有一个共同的特点,就是在对化石标本扫描的过程中可实时建模,随时可对缺漏的地方补扫,实现了实时的“查缺补漏”。这一点明显优于被动视觉法,其效率也更高。 化石标本的高分辨率三维数字化,是搭建地层古生物研究的虚拟科研环境的重要环节,通过这种技术,可以真正实现化石标本的数字可视化访问,并可与虚拟显示、人工智能等前沿技术结合,实现对科学研究、科普、教育、影视动画制作等提供重要的支撑。
了解详情>>
GBDB(Geobiodiversity Database,www.geobiodiversity.com)是一个基于古生物学和地层学的大数据平台,随着它的快速发展,不仅在学科范畴上逐渐向其他学科扩展,而且在数据的展现和分析手段上也开始整合更多的新技术和新手段。 笔者等从2018年初开始利用计算机视觉三维重建方法进行化石标本三维可视化数据的采集工作。计算机视觉三维重建方法分为接触式方法和非接触式方法。为了避免化石标本的破坏,我们采用了非接触式方法。非接触式方法又分为主动视觉法和被动视觉法。经过反复的实验与比较,可以发现,主动视觉法需要购置专业、昂贵的测量工具,生成的三维模型重建精度最高,但仅有少数1-2款设备支持彩色数据的直接采集,其他设备均需通过与相机采集的彩色照片进行叠加,从而才能实现彩色三维模型的重建;被动视觉法利用常规的单反相机即可采集数据,操作便捷、色彩丰富,虽然其分辨率略低于主动视觉法,但在光线、相机等条件足够好的情况下,完全可以胜任常规尺寸的化石标本的数字化需求。在具体实践中,我们选择了被动视觉法的单目视觉法,该方法仅需使用单反相机进行拍摄,再运用专业的三维重建软件如PhotoScan,即可以生成高质量的三维模型。PhotoScan是一款基于影像自动生成高质量三维模型的优秀软件,该软件的建模流程主要包括对齐图片、建立密集点云、生成网格、生成纹理等。通过PhotoScan软件中提供的批量处理功能,只需设定好操作流程及其参数,中途无需用户参与,即可全自动生成三维模型。针对那些对模型分辨率要求特别高的化石标本,则需购置专业的高分辨率三维扫描仪,通过设备自带的三维建模软件就可以生成化石标本的高精度三维模型。我们对市场上适用于扫描化石标本的多款三维扫描仪进行了详细的调研和适用,它们的分辨率及精度直接与其售价挂钩,但是它们均有一个共同的特点,就是在对化石标本扫描的过程中可实时建模,随时可对缺漏的地方补扫,实现了实时的“查缺补漏”。这一点明显优于被动视觉法,其效率也更高。 化石标本的高分辨率三维数字化,是搭建地层古生物研究的虚拟科研环境的重要环节,通过这种技术,可以真正实现化石标本的数字可视化访问,并可与虚拟显示、人工智能等前沿技术结合,实现对科学研究、科普、教育、影视动画制作等提供重要的支撑。
面向极光形态分类的半监督学习模型设计与实现
作者: 蒋家楠
极光是一种发生在极地地区美妙而神奇的自然现象,被视为自然界中最漂亮的奇观之一。极光形态多种多样,对极光形态的研究对于太阳活动、日地空间电磁活动和空间天气事件的研究等等都有着重要的意义。传统的极光形态分类主要采取的方法是人眼观测图像提取预定义的特征指标再实现计算分类,其中引入了较多的人为操作为分类的自动化实现带来了困难。近年来的一些工作开始探索深度学习的方法在极光形态自动分类中的应用,能实现特征指标的自动建立和分类,但深度学习本身缺少的可解释性为解析自动建立的特征背后的物理意义带来了困难。本文以变分自编码器和半监督学习生成模型为基础,结合极光图像本身的特点,用卷积神经网络重新设计了半监督学习生成模型中的编码器网络、解码器网络和分类器。本文所使用的数据来自中国北极黄河站2003年12月至2004年1月越冬观测的典型日侧极光图像,按照极光形态信息,本文将极光图像分为弧状、帷幔冕状、辐射冕状和热点状四大类。本文将经过预处理的极光图像通过此半监督学习模型进行训练学习,使用训练得到的分类器对极光图像进行分类,实验结果表明本文所采用的基于变分自编码器的半监督学习模型可以有效应用于极光图像分类,为海量极光图像的自动分类提供了一种新方法。
了解详情>>
极光是一种发生在极地地区美妙而神奇的自然现象,被视为自然界中最漂亮的奇观之一。极光形态多种多样,对极光形态的研究对于太阳活动、日地空间电磁活动和空间天气事件的研究等等都有着重要的意义。传统的极光形态分类主要采取的方法是人眼观测图像提取预定义的特征指标再实现计算分类,其中引入了较多的人为操作为分类的自动化实现带来了困难。近年来的一些工作开始探索深度学习的方法在极光形态自动分类中的应用,能实现特征指标的自动建立和分类,但深度学习本身缺少的可解释性为解析自动建立的特征背后的物理意义带来了困难。本文以变分自编码器和半监督学习生成模型为基础,结合极光图像本身的特点,用卷积神经网络重新设计了半监督学习生成模型中的编码器网络、解码器网络和分类器。本文所使用的数据来自中国北极黄河站2003年12月至2004年1月越冬观测的典型日侧极光图像,按照极光形态信息,本文将极光图像分为弧状、帷幔冕状、辐射冕状和热点状四大类。本文将经过预处理的极光图像通过此半监督学习模型进行训练学习,使用训练得到的分类器对极光图像进行分类,实验结果表明本文所采用的基于变分自编码器的半监督学习模型可以有效应用于极光图像分类,为海量极光图像的自动分类提供了一种新方法。
生物医学大数据基础设施建设与规划
作者: 张国庆 , 李亦学 , 王泽峰 , 赵国屏
生物医学大数据从TB级的基因组时代进入到PB级的大数据时代,引发了生物医学研究向数据密集型的第四科学范式的深刻变革。如何实现从“组学”到临床与健康人群数据的生物医学大数据的整合交汇、综合管理、共享利用;如何将多层次临床与研究数据进行深度挖掘和高维度、全方位的有机整合,将大数据迅速转化为新知识,成为生物医学大数据所面临的挑战,因此生物医学大数据需要具备分类存储、标准质控、整合共享、分析挖掘的技术平台,以及安全、高效的管理运行机制。 生物医学大数据基础设施以组学数据为切入点,建立面向生命科学与生物医学领域的综合性数据平台。目前平台已经建立了以组学数据百科全书为代表的开放式基础性平台,并达到了一定的数据规模,并在此基础上发展数据平台与数据库,分析技术体系等。其中,数据平台与数据库包括以微生物组大数据平台为代表的领域示范平台,以骆驼基因组变异数据库、可翻译转录组RNA数据库等为代表的专题数据库;分析技术体系包括全基因组、外显子组、转录组等常规组学数据分析流程,微生物16S RNA、宏基因组、微生物功能注释等领域组学数据分析流程。生物医学大数据基础设施的建设,支撑了用户托管数据、用户汇交数据、第三方公开数据与受限数据等不同类型和安全需求的数据管理,开展了包括描述信息和原始数据在内的质量控制,进行了领域和专题驱动的数据整合与共享,并为用户提供与数据资源集成的分析挖掘环境。 生物医学大数据基础设施目前正在开展面向健康医学的基础环境与技术体系建设,以全面支撑生命科学研究数据与健康医学大数据的汇交、管理、共享与挖掘,形成以递交为基础、以整合为导向的数据存储中心,以主题为基础、以交互为导向的数据共享中心,以传统信息技术为基础、以前沿信息技术为导向的下一代生命科学数据转化中心。
了解详情>>
生物医学大数据从TB级的基因组时代进入到PB级的大数据时代,引发了生物医学研究向数据密集型的第四科学范式的深刻变革。如何实现从“组学”到临床与健康人群数据的生物医学大数据的整合交汇、综合管理、共享利用;如何将多层次临床与研究数据进行深度挖掘和高维度、全方位的有机整合,将大数据迅速转化为新知识,成为生物医学大数据所面临的挑战,因此生物医学大数据需要具备分类存储、标准质控、整合共享、分析挖掘的技术平台,以及安全、高效的管理运行机制。 生物医学大数据基础设施以组学数据为切入点,建立面向生命科学与生物医学领域的综合性数据平台。目前平台已经建立了以组学数据百科全书为代表的开放式基础性平台,并达到了一定的数据规模,并在此基础上发展数据平台与数据库,分析技术体系等。其中,数据平台与数据库包括以微生物组大数据平台为代表的领域示范平台,以骆驼基因组变异数据库、可翻译转录组RNA数据库等为代表的专题数据库;分析技术体系包括全基因组、外显子组、转录组等常规组学数据分析流程,微生物16S RNA、宏基因组、微生物功能注释等领域组学数据分析流程。生物医学大数据基础设施的建设,支撑了用户托管数据、用户汇交数据、第三方公开数据与受限数据等不同类型和安全需求的数据管理,开展了包括描述信息和原始数据在内的质量控制,进行了领域和专题驱动的数据整合与共享,并为用户提供与数据资源集成的分析挖掘环境。 生物医学大数据基础设施目前正在开展面向健康医学的基础环境与技术体系建设,以全面支撑生命科学研究数据与健康医学大数据的汇交、管理、共享与挖掘,形成以递交为基础、以整合为导向的数据存储中心,以主题为基础、以交互为导向的数据共享中心,以传统信息技术为基础、以前沿信息技术为导向的下一代生命科学数据转化中心。
Spark在高能物理分波分析的应用
作者: 魏占辰 , 黄秋兰 , 王轶 , 孙功星
为研究粒子物理实验中难以观察的共振态分支比及其质量和宽度,发现新的粒子,物理学家开发了分波分析方法,该方法需要在数以亿计的样本数据上进行复杂的高维空间数值拟合运算。为了完成此类高统计量、高维度的计算,物理学家通常采用配备大容量内存的4路SMP服务器,并在必要时加入GPU加速卡进一步提高计算能力。但此种方式受限于单台服务器的硬件条件和计算资源,不具有良好的可扩展性,难以适应更高统计量和更高维度的数据计算,因此本文设计并实现了一个基于Spark的高能物理数据分析系统,并在此基础上实现了一个新的并行分波分析算法。Spark提供了一个分布式的内存数据抽象模型,并分析该数据模型的依赖关系形成有向无环图,从而对计算任务进行阶段划分及流水线优化,因此并行分波分析算法能够有效利用Spark集群中的计算资源,达到充分地并行执行。但是Spark在管理大量数据时会带来较大的Java虚拟机回收资源的压力,并且不能跨作业缓存和共享数据,传统高能物理应用也无法直接访问Spark所管理的数据,因此本文还实现了一个基于Alluxio的内存数据共享系统,与数据分析系统结合成为一个完整的集群内存计算系统。分波分析算法将计算过程中的全部数据存放于内存数据共享系统中,生成该数据的元数据交由Spark管理。同时,该系统提供了数据完全本地化的机制,能够在数据访问前将其完全缓存至本机内存中,使Spark能够兼容运行依赖于本地文件系统的传统高能物理应用。目前并行分波分析算法和集群内存计算系统已经通过初步测试,测试结果表明,该系统具有良好的可扩展性和稳定性,能够适应包括高能物理在内的多种领域海量数据分析的场景;分波分析算法在该系统中效率得到极大提升,与原有串行算法相比,消耗时间缩短近13倍。
了解详情>>
为研究粒子物理实验中难以观察的共振态分支比及其质量和宽度,发现新的粒子,物理学家开发了分波分析方法,该方法需要在数以亿计的样本数据上进行复杂的高维空间数值拟合运算。为了完成此类高统计量、高维度的计算,物理学家通常采用配备大容量内存的4路SMP服务器,并在必要时加入GPU加速卡进一步提高计算能力。但此种方式受限于单台服务器的硬件条件和计算资源,不具有良好的可扩展性,难以适应更高统计量和更高维度的数据计算,因此本文设计并实现了一个基于Spark的高能物理数据分析系统,并在此基础上实现了一个新的并行分波分析算法。Spark提供了一个分布式的内存数据抽象模型,并分析该数据模型的依赖关系形成有向无环图,从而对计算任务进行阶段划分及流水线优化,因此并行分波分析算法能够有效利用Spark集群中的计算资源,达到充分地并行执行。但是Spark在管理大量数据时会带来较大的Java虚拟机回收资源的压力,并且不能跨作业缓存和共享数据,传统高能物理应用也无法直接访问Spark所管理的数据,因此本文还实现了一个基于Alluxio的内存数据共享系统,与数据分析系统结合成为一个完整的集群内存计算系统。分波分析算法将计算过程中的全部数据存放于内存数据共享系统中,生成该数据的元数据交由Spark管理。同时,该系统提供了数据完全本地化的机制,能够在数据访问前将其完全缓存至本机内存中,使Spark能够兼容运行依赖于本地文件系统的传统高能物理应用。目前并行分波分析算法和集群内存计算系统已经通过初步测试,测试结果表明,该系统具有良好的可扩展性和稳定性,能够适应包括高能物理在内的多种领域海量数据分析的场景;分波分析算法在该系统中效率得到极大提升,与原有串行算法相比,消耗时间缩短近13倍。
基于训练字典的强度关联高光谱遥感成像方法研究
作者: 汪琪 , 马灵玲 , 李传荣 , 唐伶俐 , 周勇胜
强度关联成像技术是由分离的信号光场和参考光场通过关联重构算法求解得到目标物体图像的一种全新体制成像方式,具有超分辨、抗干扰、安全性高等优势。在稀疏约束下,强度关联高光谱成像系统可以从极少的测量数据中重构出目标空间光谱图像,是解决现有高光谱遥感成像体制中高空间、光谱分辨率下的处理和传输难题的有效途径。采用一定数学模型和特征样本作为原子组成稀疏字典对信号进行稀疏表示是当前信号处理领域对稀疏性应用的有力手段,然而在强度关联高光谱遥感成像中,目标场景的空间和光谱类型复杂多变,且缺乏先验信息,往往难以构建有针对性的稀疏字典。本文针对地物光谱特征复杂多样难以有效进行光谱稀疏表示的问题,提出了基于K均值聚类方法对训练样本进行非监督分类的分类光谱稀疏字典的构建,采用K-SVD方法从大量遥感数据样本中进行字典训练,实验表明改进的训练字典在强度关联高光谱遥感图像的重构中比传统的固定字典的重构精度有明显提升。同时针对复杂的遥感场景与先验的稀疏字典之间难以精确匹配的问题,设计了在重构中根据重构的场景特征对字典原子进行自适应扩充和剔除的策略,使强度关联高光谱稀疏字典对目标的适应性更强。最后利用AVIRIS高光谱遥感数据进行了强度关联高光谱仿真重构,并搭建了基于DMD和LCTF的桌面原理演示系统,进行了实际实验验证。实验结果表明:在采样率不足的条件下,本文方法重构高光谱图像的空间分辨能力和光谱精度优于未使用先验信息的如核范数约束法等现有方法,使高光谱遥感场景的稀疏化能力和高光谱图像的重构质量得到了有效提升。
了解详情>>
强度关联成像技术是由分离的信号光场和参考光场通过关联重构算法求解得到目标物体图像的一种全新体制成像方式,具有超分辨、抗干扰、安全性高等优势。在稀疏约束下,强度关联高光谱成像系统可以从极少的测量数据中重构出目标空间光谱图像,是解决现有高光谱遥感成像体制中高空间、光谱分辨率下的处理和传输难题的有效途径。采用一定数学模型和特征样本作为原子组成稀疏字典对信号进行稀疏表示是当前信号处理领域对稀疏性应用的有力手段,然而在强度关联高光谱遥感成像中,目标场景的空间和光谱类型复杂多变,且缺乏先验信息,往往难以构建有针对性的稀疏字典。本文针对地物光谱特征复杂多样难以有效进行光谱稀疏表示的问题,提出了基于K均值聚类方法对训练样本进行非监督分类的分类光谱稀疏字典的构建,采用K-SVD方法从大量遥感数据样本中进行字典训练,实验表明改进的训练字典在强度关联高光谱遥感图像的重构中比传统的固定字典的重构精度有明显提升。同时针对复杂的遥感场景与先验的稀疏字典之间难以精确匹配的问题,设计了在重构中根据重构的场景特征对字典原子进行自适应扩充和剔除的策略,使强度关联高光谱稀疏字典对目标的适应性更强。最后利用AVIRIS高光谱遥感数据进行了强度关联高光谱仿真重构,并搭建了基于DMD和LCTF的桌面原理演示系统,进行了实际实验验证。实验结果表明:在采样率不足的条件下,本文方法重构高光谱图像的空间分辨能力和光谱精度优于未使用先验信息的如核范数约束法等现有方法,使高光谱遥感场景的稀疏化能力和高光谱图像的重构质量得到了有效提升。
天文数据挖掘天池大赛实践总结与展望
作者: 陶一寒
本报告关于天文领域数据挖掘大赛的实践总结和思考展望。国家天文台和阿里云天池平台2018年联合举办了天文数据挖掘大赛,以天体光谱智能分类为题,开放近200万条郭守敬望远镜(LAMOST)光谱,让参赛选手们了解真实的天文数据,利用人工智能和机器学习的方法来解决天文学研究中面临的大数据处理问题。大赛吸引了近千支队伍参赛,应用机器学习方法对LAMOST光谱进行分类(STAR/ GALAXY/QSO/ UNKNOWN)。这个分类问题是LAMOST光谱数据预处理和发布过程中的重要一步,目前通常还需要大量的人工参与。过去五年,在天文学领域,利用机器学习开展研究的相关论文增加了五倍。未来十年,人工智能和机器学习技术在天文学领域的应用也将持续快速发展。然而,计算机、互联网行业或其他领域可能分布着更多比天文学家们对机器学习算法更精通的人,他们也对天文数据充满好奇,希望参与天文研究。一方面天文领域提供了一个大数据算法的实验土壤,另一方面机器学习算法也能帮助减轻天文学研究者们处理数据的负担,更自动且高效地实现海量数据的分析处理。ImageNet数据集和大赛是推动计算机视觉识别领域飞速发展的成功案例。类似地,对天文中需要机器智能的问题进行抽象化总结,并发布相关数据集,通过数据挖掘大赛可以促进天文科研和科普的双向发展,实现参赛者和天文学家的互利共赢。但是天文领域相对小众,公众可能缺乏相关背景知识储备,对数据含义的理解需要一定的学习成本,开展数据挖掘大赛这条路径值得我们进一步探究。本报告将以此次大赛国家天文台方面主要负责人的角度介绍大赛背景及选题、数据集预处理、参赛选手情况、优胜算法及成果、以及大赛效果的思考、总结和展望。
了解详情>>
本报告关于天文领域数据挖掘大赛的实践总结和思考展望。国家天文台和阿里云天池平台2018年联合举办了天文数据挖掘大赛,以天体光谱智能分类为题,开放近200万条郭守敬望远镜(LAMOST)光谱,让参赛选手们了解真实的天文数据,利用人工智能和机器学习的方法来解决天文学研究中面临的大数据处理问题。大赛吸引了近千支队伍参赛,应用机器学习方法对LAMOST光谱进行分类(STAR/ GALAXY/QSO/ UNKNOWN)。这个分类问题是LAMOST光谱数据预处理和发布过程中的重要一步,目前通常还需要大量的人工参与。过去五年,在天文学领域,利用机器学习开展研究的相关论文增加了五倍。未来十年,人工智能和机器学习技术在天文学领域的应用也将持续快速发展。然而,计算机、互联网行业或其他领域可能分布着更多比天文学家们对机器学习算法更精通的人,他们也对天文数据充满好奇,希望参与天文研究。一方面天文领域提供了一个大数据算法的实验土壤,另一方面机器学习算法也能帮助减轻天文学研究者们处理数据的负担,更自动且高效地实现海量数据的分析处理。ImageNet数据集和大赛是推动计算机视觉识别领域飞速发展的成功案例。类似地,对天文中需要机器智能的问题进行抽象化总结,并发布相关数据集,通过数据挖掘大赛可以促进天文科研和科普的双向发展,实现参赛者和天文学家的互利共赢。但是天文领域相对小众,公众可能缺乏相关背景知识储备,对数据含义的理解需要一定的学习成本,开展数据挖掘大赛这条路径值得我们进一步探究。本报告将以此次大赛国家天文台方面主要负责人的角度介绍大赛背景及选题、数据集预处理、参赛选手情况、优胜算法及成果、以及大赛效果的思考、总结和展望。
GCM-Bench:一个面向微生物领域的RDF管理系统基准测试集
作者: 刘仁峰 , 徐俊刚
随着生命科学领域研究设备的精细化、研究水平的不断提升,产生的数据规模也越来越庞大且复杂多样。针对目前微生物数据异构、异地、关联性差等现状,研究人员利用RDF(Resource Description Framework)研发了全球微生物中心知识库,支持全球研究人员进行相关的研究。RDF数据管理系统有很多,如gStore、Jena、Virtuoso等,但在不同数据集上的表现差异很大,对于微生物研究人员来说难以判断和选择。因此,我们决定开发一个RDF基准测试集——GCM-Bench,通过它来评估通用RDF管理系统在微生物大数据集上的性能表现,供微生物研究人员选择RDF管理系统时参考,该系统已开源(详见https://github.com/renfliu/gcm-bench)。GCM-Bench包含三个主要部分:微生物RDF数据生成器、SPARQL测试负载和自动测试系统。在真实的全球微生物中心知识库数据集的基础上,我们建立了RDF数据模型和仿真数据生成工具。根据微生物学家的使用习惯和SPARQL查询的特点,我们定义了16个查询负载和6个更新负载。同时为了使测试环境更一致、结果更准确、过程更方便,我们建立了自动测试系统,可以自动执行测试、监控系统资源利用情况、生成测试报告。利用仿真数据生成工具,我们生成了不同规模的数据,用自动测试系统对8个常用的RDF数据管理系统进行了评估,其中包括5个单机系统(gStore、Jena、Virtuoso、4Store、RDF3X)和3个分布式系统(TriAD、gStoreD、S2RDF)。通过对比不同RDF管理系统的特点,结合基准测试的结果,我们分析了各个RDF管理系统的优缺点和使用场景。我们发现gStore在大数据集上有非常明显的优势;Virtuoso提供了一套完整的方案;RDF3X速度很快,但是对SPARQL的支持不够完善;Jena在各方面比较均衡;S2RDF可以利用现有大数据平台(Hadoop、Spark)的优势,处理大规模数据;4Store、TriAD和gStoreD在实用上还需进一步完善。我们希望GCM-Bench基准测试集能够对微生物学家和系统开发人员有所帮助。
了解详情>>
随着生命科学领域研究设备的精细化、研究水平的不断提升,产生的数据规模也越来越庞大且复杂多样。针对目前微生物数据异构、异地、关联性差等现状,研究人员利用RDF(Resource Description Framework)研发了全球微生物中心知识库,支持全球研究人员进行相关的研究。RDF数据管理系统有很多,如gStore、Jena、Virtuoso等,但在不同数据集上的表现差异很大,对于微生物研究人员来说难以判断和选择。因此,我们决定开发一个RDF基准测试集——GCM-Bench,通过它来评估通用RDF管理系统在微生物大数据集上的性能表现,供微生物研究人员选择RDF管理系统时参考,该系统已开源(详见https://github.com/renfliu/gcm-bench)。GCM-Bench包含三个主要部分:微生物RDF数据生成器、SPARQL测试负载和自动测试系统。在真实的全球微生物中心知识库数据集的基础上,我们建立了RDF数据模型和仿真数据生成工具。根据微生物学家的使用习惯和SPARQL查询的特点,我们定义了16个查询负载和6个更新负载。同时为了使测试环境更一致、结果更准确、过程更方便,我们建立了自动测试系统,可以自动执行测试、监控系统资源利用情况、生成测试报告。利用仿真数据生成工具,我们生成了不同规模的数据,用自动测试系统对8个常用的RDF数据管理系统进行了评估,其中包括5个单机系统(gStore、Jena、Virtuoso、4Store、RDF3X)和3个分布式系统(TriAD、gStoreD、S2RDF)。通过对比不同RDF管理系统的特点,结合基准测试的结果,我们分析了各个RDF管理系统的优缺点和使用场景。我们发现gStore在大数据集上有非常明显的优势;Virtuoso提供了一套完整的方案;RDF3X速度很快,但是对SPARQL的支持不够完善;Jena在各方面比较均衡;S2RDF可以利用现有大数据平台(Hadoop、Spark)的优势,处理大规模数据;4Store、TriAD和gStoreD在实用上还需进一步完善。我们希望GCM-Bench基准测试集能够对微生物学家和系统开发人员有所帮助。
卷积网络隐层在星系形态分类中的应用 ——初探与探究
作者: 佟欣
随着天文观测进入“大数据时代”,基于深度学习的星系形态分类已取得了一定的进展,但在对星系进行高效准确的识别分类之余,我们还期待着从海量、高维数据中挖掘更多隐含的信息。深度神经网络是对原始星系图片数据的高层次的抽象,是一种高维数据表达,本实验希望进一步探究高维数据表征的意义及各隐层数据表征之间的关系,以便于更好的理解星系数据本身。本实验以深度残差网络为基础,重点对残差单元进行改进,结合星系图像本身的特点,设计出了一个性能更好的深度卷积神经网络ResNet-26,将来自Galaxy Zoo-The Galaxy Challenge数据集的星系图像通过此神经网络进行训练学习,得到高维特征,并使用能有效保留相邻关系和聚类关系的t-SNE降维技术, 采用降维投影的方式对它们进行可视化。从各隐层输出的降维投影,可以更清晰地看出数据表示间的关系,从而发掘出数据分布的一些潜在问题。通过将多个投影图联合起来观察与分析,还可以研究模型中数据表示的动态变化过程。通过轨迹捆绑可以清晰看到随着层次的演进,数据中类内部的一致性和类间的区分性得到了强化。本实验还尝试通过观察图中的一些异常轨迹来检测数据集中的异常标注,这些观察也带来了关于星系分类的更深入思考。将深度学习得到的数据的高维特征进行降维可视化研究是一项充满意义与挑战的工作,我们还将进一步研究,以得到关于星系数据更有价值的反馈。
了解详情>>
随着天文观测进入“大数据时代”,基于深度学习的星系形态分类已取得了一定的进展,但在对星系进行高效准确的识别分类之余,我们还期待着从海量、高维数据中挖掘更多隐含的信息。深度神经网络是对原始星系图片数据的高层次的抽象,是一种高维数据表达,本实验希望进一步探究高维数据表征的意义及各隐层数据表征之间的关系,以便于更好的理解星系数据本身。本实验以深度残差网络为基础,重点对残差单元进行改进,结合星系图像本身的特点,设计出了一个性能更好的深度卷积神经网络ResNet-26,将来自Galaxy Zoo-The Galaxy Challenge数据集的星系图像通过此神经网络进行训练学习,得到高维特征,并使用能有效保留相邻关系和聚类关系的t-SNE降维技术, 采用降维投影的方式对它们进行可视化。从各隐层输出的降维投影,可以更清晰地看出数据表示间的关系,从而发掘出数据分布的一些潜在问题。通过将多个投影图联合起来观察与分析,还可以研究模型中数据表示的动态变化过程。通过轨迹捆绑可以清晰看到随着层次的演进,数据中类内部的一致性和类间的区分性得到了强化。本实验还尝试通过观察图中的一些异常轨迹来检测数据集中的异常标注,这些观察也带来了关于星系分类的更深入思考。将深度学习得到的数据的高维特征进行降维可视化研究是一项充满意义与挑战的工作,我们还将进一步研究,以得到关于星系数据更有价值的反馈。
科学数据中心数据元数据交换与互操作应用
作者: 卜坤 , 王卷乐
随着科学数据日益向海量、异构、多源、动态和爆发式增长的方向发展,传统的目录形式已不能有效地支撑大数据量级的科学数据资源信息的描述、发布和共享,在科学家数据共享方面的瓶颈尤为突显。科学数据以各种不同的形式分散存储在不同数据中心,这些数据系统间缺乏一致的元数据管理工具,难以实现数据的共享和互操作。为了满足数据中心开放互联的要求,本研究以开源软件为技术工具,基于OGC及相关开放标准,建立元数据交换与互操作的实验环境。实验环境基于Debian Linux系统,Python 3.5语言开发,并使用了MapServer、GDAL、pycsw、owslib等工具。针对pycsw工具进行二次开发,实现了元数据发布与检索的功能;针对系统中发布的元数据信息向pycsw格式进行字段映射,在映射过程,由Python 对元数据进行读取,对元数据项封装成字典,使用 XML/JSON 扩展包对数据进行转换发布;分别对TorCMS内容发布系统(https://github.com/bukun/TorCMS)与MapServer WMS发布标准建立了系统元数据转换的功能。另外,增加基于地理信息技术支持的数据可视化应用,来方便检索使用,并提供在线工具。作为实践应用,部署应用于WDS中国中心(http://www.wds-china.org/)、WDC可再生资源数据中心(http://eng.wdc.cn/)、UNESCO/IKCEST防灾减灾知识服务中心(http://drr.ikcest.org/)、OSGeo中国中心(http://www.osgeo.cn/)、Maplet地图云集应用网站(http://www.maplet.org/),作为元数据发布与数据交换的工具。在保持系统扩展性的基础上,减少模块的耦合性,降低设计与实现成本,将数据门户与元数据交换系统独立部署,系统之间通过符合国际/国家标准的服务接口进行信息传递与交换。从目前的系统运行情况来看,开发的系统能够较好地支撑系统之间的信息交换,实现元数据发布、转换与收割(harvest)等功能。 [WDS分会Session]
了解详情>>
随着科学数据日益向海量、异构、多源、动态和爆发式增长的方向发展,传统的目录形式已不能有效地支撑大数据量级的科学数据资源信息的描述、发布和共享,在科学家数据共享方面的瓶颈尤为突显。科学数据以各种不同的形式分散存储在不同数据中心,这些数据系统间缺乏一致的元数据管理工具,难以实现数据的共享和互操作。为了满足数据中心开放互联的要求,本研究以开源软件为技术工具,基于OGC及相关开放标准,建立元数据交换与互操作的实验环境。实验环境基于Debian Linux系统,Python 3.5语言开发,并使用了MapServer、GDAL、pycsw、owslib等工具。针对pycsw工具进行二次开发,实现了元数据发布与检索的功能;针对系统中发布的元数据信息向pycsw格式进行字段映射,在映射过程,由Python 对元数据进行读取,对元数据项封装成字典,使用 XML/JSON 扩展包对数据进行转换发布;分别对TorCMS内容发布系统(https://github.com/bukun/TorCMS)与MapServer WMS发布标准建立了系统元数据转换的功能。另外,增加基于地理信息技术支持的数据可视化应用,来方便检索使用,并提供在线工具。作为实践应用,部署应用于WDS中国中心(http://www.wds-china.org/)、WDC可再生资源数据中心(http://eng.wdc.cn/)、UNESCO/IKCEST防灾减灾知识服务中心(http://drr.ikcest.org/)、OSGeo中国中心(http://www.osgeo.cn/)、Maplet地图云集应用网站(http://www.maplet.org/),作为元数据发布与数据交换的工具。在保持系统扩展性的基础上,减少模块的耦合性,降低设计与实现成本,将数据门户与元数据交换系统独立部署,系统之间通过符合国际/国家标准的服务接口进行信息传递与交换。从目前的系统运行情况来看,开发的系统能够较好地支撑系统之间的信息交换,实现元数据发布、转换与收割(harvest)等功能。 [WDS分会Session]
国家海洋科学数据共享服务平台建设与发展
作者: 王漪 , 姜晓轶 , 康林冲
海洋科学数据是国家基础性战略资源,也是认识海洋、经略海洋的重要前提。实施海洋科学数据共享,是推进海洋强国战略和海上丝绸之路倡议的必然要求。在科技部和财政部组织指导下,国家海洋科学数据共享平台成为首批通过认定的重点领域科学数据共享平台之一。平台建设秉承开放合作、共建共赢的理念,由国家海洋信息中心牵头,联合国家卫星海洋应用中心、中国极地研究中心、中科院海洋所、中国海洋大学、大连海洋大学、华东师范大学河口海岸国家重点实验室,以及国家海洋局北海信息中心、东海信息中心、南海信息中心等单位,以“1个主中心+6个分中心”的模式,全面整合汇聚了海洋领域的各类科学数据资源,初步建成了面向全社会的网络化、智能化海洋信息服务体系。 主中心平台整合汇集了海洋水文、海洋气象、海洋生态、海洋化学、海底地形等9类学科的标准化实测数据,统计分析、实况分析、再分析、潮汐潮流预报等5类分析预报数据产品,海洋经济、海域海岛、海洋灾害专题图等众多专题产品。平台提供多种条件的数据查询检索、预览下载、数据接口、可视化展示和定制化推送等服务。各分中心在统一共享体系之下,发挥各自优势,分别面向卫星海洋数据产品、海洋调查与野外观测数据产品、海洋生物与应用海洋学等领域,发布了各具特色的海洋数据共享服务。 随着科学数据管理政策和制度环境日趋完善,平台将进一步优化调整布局,体系化海洋科学数据产品,便捷智能化共享服务方式,力争在服务海洋科技创新、海洋经济发展、海洋权益维护中发挥更大的作用。
了解详情>>
海洋科学数据是国家基础性战略资源,也是认识海洋、经略海洋的重要前提。实施海洋科学数据共享,是推进海洋强国战略和海上丝绸之路倡议的必然要求。在科技部和财政部组织指导下,国家海洋科学数据共享平台成为首批通过认定的重点领域科学数据共享平台之一。平台建设秉承开放合作、共建共赢的理念,由国家海洋信息中心牵头,联合国家卫星海洋应用中心、中国极地研究中心、中科院海洋所、中国海洋大学、大连海洋大学、华东师范大学河口海岸国家重点实验室,以及国家海洋局北海信息中心、东海信息中心、南海信息中心等单位,以“1个主中心+6个分中心”的模式,全面整合汇聚了海洋领域的各类科学数据资源,初步建成了面向全社会的网络化、智能化海洋信息服务体系。 主中心平台整合汇集了海洋水文、海洋气象、海洋生态、海洋化学、海底地形等9类学科的标准化实测数据,统计分析、实况分析、再分析、潮汐潮流预报等5类分析预报数据产品,海洋经济、海域海岛、海洋灾害专题图等众多专题产品。平台提供多种条件的数据查询检索、预览下载、数据接口、可视化展示和定制化推送等服务。各分中心在统一共享体系之下,发挥各自优势,分别面向卫星海洋数据产品、海洋调查与野外观测数据产品、海洋生物与应用海洋学等领域,发布了各具特色的海洋数据共享服务。 随着科学数据管理政策和制度环境日趋完善,平台将进一步优化调整布局,体系化海洋科学数据产品,便捷智能化共享服务方式,力争在服务海洋科技创新、海洋经济发展、海洋权益维护中发挥更大的作用。
中国天文数据中心资源平台建设与创新发展
作者: 米琳莹 , 何勃亮
中国天文数据中心(Chinese Astronomical Data Center,CAsDC)是在世界数据中心天文学科中心(WDC for Astronomy)的基础上发展而来的,中心于2012年加入世界数据系统(WDS),成为WDS的首批正式成员。 中国天文数据中心作为天文科学数据服务的基础设施,以开放性、共建共享、公益性、共赢互利为四项基本原则,坚持以用户需求为导向,数据内容服务为核心,为天文及相关领域的国内外科研、国民应用、教育科普提供丰富而系统的科学数据资源、数据服务和用户支持。 中国天文数据中心自建立以来,为中国自产天文数据提供规范化的归档、管理、长期保存和开放共享服务,支持了郭守敬望远镜(LAMOST)、丽江2.4米望远镜、兴隆2.16米望远镜、南极AST3望远镜、南极CSTAR望远镜、怀柔太阳射电望远镜、怀柔太阳磁场望远镜、北京-亚利桑那巡天(BASS)、南银冠U波段巡天等20多个国内天文望远镜和科学研究项目。 中国天文数据中心在服务国内自产数据的同时,积极对接国际虚拟天文台的规范和协议,引进先进的国际天文数据,将国产数据推向世界,在多方共同努力下,实现了LAMOST DR1、LAMOST DR2两个数据集与VizieR系统的集成,提升了我国天文数据在国际上的显示度,更大程度的发挥数据的科学价值。 科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,天文科学数据的资源建设及开放共享服务需要针对当前科技创新对科学数据管理的需求,结合天文学领域特色,以更加积极开放的心态不断创新,充分发挥天文科学数据的重要作用。
了解详情>>
中国天文数据中心(Chinese Astronomical Data Center,CAsDC)是在世界数据中心天文学科中心(WDC for Astronomy)的基础上发展而来的,中心于2012年加入世界数据系统(WDS),成为WDS的首批正式成员。 中国天文数据中心作为天文科学数据服务的基础设施,以开放性、共建共享、公益性、共赢互利为四项基本原则,坚持以用户需求为导向,数据内容服务为核心,为天文及相关领域的国内外科研、国民应用、教育科普提供丰富而系统的科学数据资源、数据服务和用户支持。 中国天文数据中心自建立以来,为中国自产天文数据提供规范化的归档、管理、长期保存和开放共享服务,支持了郭守敬望远镜(LAMOST)、丽江2.4米望远镜、兴隆2.16米望远镜、南极AST3望远镜、南极CSTAR望远镜、怀柔太阳射电望远镜、怀柔太阳磁场望远镜、北京-亚利桑那巡天(BASS)、南银冠U波段巡天等20多个国内天文望远镜和科学研究项目。 中国天文数据中心在服务国内自产数据的同时,积极对接国际虚拟天文台的规范和协议,引进先进的国际天文数据,将国产数据推向世界,在多方共同努力下,实现了LAMOST DR1、LAMOST DR2两个数据集与VizieR系统的集成,提升了我国天文数据在国际上的显示度,更大程度的发挥数据的科学价值。 科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,天文科学数据的资源建设及开放共享服务需要针对当前科技创新对科学数据管理的需求,结合天文学领域特色,以更加积极开放的心态不断创新,充分发挥天文科学数据的重要作用。
海洋科学数据共享若干关键问题研究
作者: 符昱 , 康林冲 , 相文玺
科学数据共享平台作为一种科学基础设施,是促进科技原始创新、提升国家科技竞争力的强大动力。本文以海洋科学数据共享服务平台建设为例,从共享理念、数据资源整合、系统建设和机制体制保障四个方面研究探索海洋科学数据共享的研究重点和发展方向。 多源、异构、分布的海洋科学数据的集成整合和“一站式”共享服务是共享的重点和难点。借鉴“科学数据共享联盟”的建设理念,形成了以国家海洋信息中心和海区信息中心为主中心、具有卫星海洋学、极地海洋学、河口海岸学等不同学科特色的涉海科研院所为分中心的“1+6”平台布局。在充分整合平台主中心和分中心各类信息资源的基础上,形成了全面、统一的海洋科学数据资源池,建成集海洋基础数据和信息产品的查询检索、可视化展示、在线下载、接口集成等多种功能于一体的门户服务系统。从组织管理、数据汇交与更新、运维保障和技术规范四个层面开展机制体制及标准规范建设,出台《国家海洋科学数据共享服务平台管理暂行办法》,定期开展平台内部考核评估,动态调整平台布局。 下一步将继续完善海洋科学数据汇交及更新机制和平台运维推广机制,建成国内海洋领域信息资源最丰富、服务范围最广泛、实用性最强的海洋科学数据服务体系,以“互联网+海洋”的举措,构建优化海洋数据共享体系,不断提升海洋数据和信息产品的服务深度及广度,形成国家海洋科学数据共享“一盘棋”的新格局。
了解详情>>
科学数据共享平台作为一种科学基础设施,是促进科技原始创新、提升国家科技竞争力的强大动力。本文以海洋科学数据共享服务平台建设为例,从共享理念、数据资源整合、系统建设和机制体制保障四个方面研究探索海洋科学数据共享的研究重点和发展方向。 多源、异构、分布的海洋科学数据的集成整合和“一站式”共享服务是共享的重点和难点。借鉴“科学数据共享联盟”的建设理念,形成了以国家海洋信息中心和海区信息中心为主中心、具有卫星海洋学、极地海洋学、河口海岸学等不同学科特色的涉海科研院所为分中心的“1+6”平台布局。在充分整合平台主中心和分中心各类信息资源的基础上,形成了全面、统一的海洋科学数据资源池,建成集海洋基础数据和信息产品的查询检索、可视化展示、在线下载、接口集成等多种功能于一体的门户服务系统。从组织管理、数据汇交与更新、运维保障和技术规范四个层面开展机制体制及标准规范建设,出台《国家海洋科学数据共享服务平台管理暂行办法》,定期开展平台内部考核评估,动态调整平台布局。 下一步将继续完善海洋科学数据汇交及更新机制和平台运维推广机制,建成国内海洋领域信息资源最丰富、服务范围最广泛、实用性最强的海洋科学数据服务体系,以“互联网+海洋”的举措,构建优化海洋数据共享体系,不断提升海洋数据和信息产品的服务深度及广度,形成国家海洋科学数据共享“一盘棋”的新格局。
基于光学遥感大数据时序分析的滑坡信息挖掘
作者: 周增光 , 虎振兴 , 李子扬
(1)研究背景: 全球及我国滑坡灾情严重,人员及财产损失惨重。而遥感已成为滑坡灾害检测、滑坡孕灾环境调查、滑坡动态监测与预警、灾情实时调查与损失评估等工作中不可缺少的手段。基于多卫星多传感器观测获取的光学遥感大数据时间序列影像,综合利用其较高空间和时间分辨率的特性,可为长期、定点、高频和快速地提取滑坡信息带来希望。 (2)研究问题: a) 传统非遥感大数据的方法:利用单时相遥感影像进行滑坡检测,由于异物同谱的现象,与滑坡特征相似的地物(岩石、裸道路护等)容易被误检测为滑坡;利用多时相影像的滑坡检测方法,在一定程度上排除了与滑坡光谱特征相似的地物,但多时相变化检测对遥感影像的时相依赖性较高,年际差异或季节性差对变化检测结果影响较大。b) 新的遥感大数据分析方法:为克服上述问题,本研究探索基于遥感大数据时间序列分析的滑坡信息挖掘方法,仍面临关键问题。一方面,不同时刻观测的遥感影像具有不同的观测角度和大气状况,并且不同传感器性能也存在差异,从而使得遥感大数据时间序列影像的数据质量参差不齐。另一方面,与滑坡相似的地表如裸土和岩石,以及与滑坡相似的植被破坏情况如作物收割和新修道路等,都会对滑坡检测带来严重干扰。如何从时间序列变化中检测地表覆盖异常变化并区分出滑坡,是滑坡信息挖掘的重点和难点。 (3)研究目的: 针对上述问题,研究了基于光学遥感大数据时间序列分析的滑坡时空信息挖掘方法,在对遥感大数据进行时空一致性预处理和时间序列数据构建的基础上,具体研究时间序列遥感影像的历史滑坡的检测方法、时间序列遥感数据规律性变化建模方法和时间序列异常变化中的新滑滑坡检测方法,并通过鲁甸地震前后十余年发生滑坡的检测实验,对所研究的方法进行验证和分析。 (4)研究内容: a) 基于光学时间序列遥感影像的历史滑坡信息挖掘:充分考虑与滑坡相似的地表如裸土和岩石,以及与滑坡相似的植被破坏情况如作物收割和新修道路等,对地表状态参量NDVI的改变规律,基于时间序列分析,区分滑坡和非滑坡因素,提高历史滑坡检测的准确性。另外,对地表状态参量的自然变化规律进行建模,需排除已发生滑坡的影响。b) 光学时间序列遥感数据规律性变化建模:时间序列遥感数据具有未知的演变模式,反映地物状态随着时间的变化具有持续性、周期性、趋势性、波动性和突变等方面。如何动态学习地物状态随时间演变模式十分重要。研究时间序列遥感数据演变模式动态学习方法,对未来时刻的地表状态做最佳估计。c) 时间序列异常变化中的新滑坡信息挖掘:对未来时刻地表状态进行监测,滑坡会导致地表状态参量值发生异常,但地表状态参量异常未必是滑坡导致。在发现参量序列异常变化后,还需判定异常是否是滑坡所致,从而识别出新发生滑坡。 (5)研究结果 a) 基于Landsat-5/7/8、GF-1/WFV、HJ-1AB/CCD多源卫星影像,在30米空间分辨率尺度上,构建了云南鲁甸滑坡研究区2000-2016年时间序列遥感影像,时间分辨率上约为0.5~2个月。b) 建立了云南鲁甸震区2000-2016年间面积大于90*120m2的滑坡时空编目图。c) 在30米空间分辨率尺度上,基于提取的NDVI时间序列数据和研究的LSTM建模预测和SVM分类方法,在云南鲁甸震区实验区测试,滑坡检测召回率70.60%时,精确率78.24%,与传统非遥感大数据方法(基于单时相影像解译及多时相影像变化检测)的方法相比,同等召回率水平下,滑坡识别精确率提升了21.82%。 (6)关键数据及其科学意义 本研究的方法可基于国内外现有常见的中高分辨率多光谱光学卫星数据,构建出具有0.5~2月频率级别时间序列影像,对于开展自动、区域级、长期、高频次滑坡监测具有重要基础;另外,滑坡时空信息提取的准确率接近80%,对于开展大区域滑坡灾害应急调查和快速评估具有重要意义。本研究可为后期面向滑坡监测和预测的遥感大数据分析技术研究奠定基础。
了解详情>>
(1)研究背景: 全球及我国滑坡灾情严重,人员及财产损失惨重。而遥感已成为滑坡灾害检测、滑坡孕灾环境调查、滑坡动态监测与预警、灾情实时调查与损失评估等工作中不可缺少的手段。基于多卫星多传感器观测获取的光学遥感大数据时间序列影像,综合利用其较高空间和时间分辨率的特性,可为长期、定点、高频和快速地提取滑坡信息带来希望。 (2)研究问题: a) 传统非遥感大数据的方法:利用单时相遥感影像进行滑坡检测,由于异物同谱的现象,与滑坡特征相似的地物(岩石、裸道路护等)容易被误检测为滑坡;利用多时相影像的滑坡检测方法,在一定程度上排除了与滑坡光谱特征相似的地物,但多时相变化检测对遥感影像的时相依赖性较高,年际差异或季节性差对变化检测结果影响较大。b) 新的遥感大数据分析方法:为克服上述问题,本研究探索基于遥感大数据时间序列分析的滑坡信息挖掘方法,仍面临关键问题。一方面,不同时刻观测的遥感影像具有不同的观测角度和大气状况,并且不同传感器性能也存在差异,从而使得遥感大数据时间序列影像的数据质量参差不齐。另一方面,与滑坡相似的地表如裸土和岩石,以及与滑坡相似的植被破坏情况如作物收割和新修道路等,都会对滑坡检测带来严重干扰。如何从时间序列变化中检测地表覆盖异常变化并区分出滑坡,是滑坡信息挖掘的重点和难点。 (3)研究目的: 针对上述问题,研究了基于光学遥感大数据时间序列分析的滑坡时空信息挖掘方法,在对遥感大数据进行时空一致性预处理和时间序列数据构建的基础上,具体研究时间序列遥感影像的历史滑坡的检测方法、时间序列遥感数据规律性变化建模方法和时间序列异常变化中的新滑滑坡检测方法,并通过鲁甸地震前后十余年发生滑坡的检测实验,对所研究的方法进行验证和分析。 (4)研究内容: a) 基于光学时间序列遥感影像的历史滑坡信息挖掘:充分考虑与滑坡相似的地表如裸土和岩石,以及与滑坡相似的植被破坏情况如作物收割和新修道路等,对地表状态参量NDVI的改变规律,基于时间序列分析,区分滑坡和非滑坡因素,提高历史滑坡检测的准确性。另外,对地表状态参量的自然变化规律进行建模,需排除已发生滑坡的影响。b) 光学时间序列遥感数据规律性变化建模:时间序列遥感数据具有未知的演变模式,反映地物状态随着时间的变化具有持续性、周期性、趋势性、波动性和突变等方面。如何动态学习地物状态随时间演变模式十分重要。研究时间序列遥感数据演变模式动态学习方法,对未来时刻的地表状态做最佳估计。c) 时间序列异常变化中的新滑坡信息挖掘:对未来时刻地表状态进行监测,滑坡会导致地表状态参量值发生异常,但地表状态参量异常未必是滑坡导致。在发现参量序列异常变化后,还需判定异常是否是滑坡所致,从而识别出新发生滑坡。 (5)研究结果 a) 基于Landsat-5/7/8、GF-1/WFV、HJ-1AB/CCD多源卫星影像,在30米空间分辨率尺度上,构建了云南鲁甸滑坡研究区2000-2016年时间序列遥感影像,时间分辨率上约为0.5~2个月。b) 建立了云南鲁甸震区2000-2016年间面积大于90*120m2的滑坡时空编目图。c) 在30米空间分辨率尺度上,基于提取的NDVI时间序列数据和研究的LSTM建模预测和SVM分类方法,在云南鲁甸震区实验区测试,滑坡检测召回率70.60%时,精确率78.24%,与传统非遥感大数据方法(基于单时相影像解译及多时相影像变化检测)的方法相比,同等召回率水平下,滑坡识别精确率提升了21.82%。 (6)关键数据及其科学意义 本研究的方法可基于国内外现有常见的中高分辨率多光谱光学卫星数据,构建出具有0.5~2月频率级别时间序列影像,对于开展自动、区域级、长期、高频次滑坡监测具有重要基础;另外,滑坡时空信息提取的准确率接近80%,对于开展大区域滑坡灾害应急调查和快速评估具有重要意义。本研究可为后期面向滑坡监测和预测的遥感大数据分析技术研究奠定基础。
面向分类目标的医学数据集的算法适用性研究
作者: 李勤 , 张一琰 , 辛怡
多数医学研究可转化为分类问题,如何在众多数据挖掘算法中快速选择适合当前研究的算法是一项具有挑战性的工作,对于没有数据挖掘经验的研究者尤为困难。本研究团队采用简单指标、统计指标和信息论指标三大类26个指标项对不同类型数据集的特点进行量化,选用成熟度高、用户介入度低并且家族代表性强的8种算法作为基算法,从预测精度、运行速度以及内存消耗三方面评估性能。通过构建决策树和逐步回归模型学习上述元数据,得到医学数据集的算法适用性知识。经交叉验证,适用性模型准确率均在75%以上,有望为医学工作者恰当地选择合适的数据挖掘算法提供参考依据。
了解详情>>
多数医学研究可转化为分类问题,如何在众多数据挖掘算法中快速选择适合当前研究的算法是一项具有挑战性的工作,对于没有数据挖掘经验的研究者尤为困难。本研究团队采用简单指标、统计指标和信息论指标三大类26个指标项对不同类型数据集的特点进行量化,选用成熟度高、用户介入度低并且家族代表性强的8种算法作为基算法,从预测精度、运行速度以及内存消耗三方面评估性能。通过构建决策树和逐步回归模型学习上述元数据,得到医学数据集的算法适用性知识。经交叉验证,适用性模型准确率均在75%以上,有望为医学工作者恰当地选择合适的数据挖掘算法提供参考依据。
科协系统改革监测平台指标设计和软件平台建设
作者: 张昊东 , 武虹
为了深入贯彻党的十九大精神,根据《科协系统深化改革实施方案》和中国科协党组深化改革工作的安排,中国科协调宣部、创新战略研究院课题组设计建设了科协系统改革监测平台。平台旨在建立推行关键绩效指标制度,引导培育用户导向、绩效评估的执行力文化。本文着重研究了全国学会改革动态监测指标体系和平台建设等问题。 1.任务分解与指标凝练 依据《科协系统深化改革实施方案》、《2017年科协科协工作要点》任务做工作分解结构(WBS Work Breakdown Structure),逐条分解至一级、二级、三级任务层面。 2.评价方法研究 评价方法采用“排名分值法”“专家定性评价定量化”“量质效的分级评价法”“学会改革雷达图分析”等手段,实现可统一、可量化、可考核、可追溯的评价体系应用,最大限度地集成科研活动中形成的数据、成果、经验和知识,实现全国学会、科协基层组织改革动态绩效评价的标准化、数据化、可视化。 3.改革成熟度方案设计 提出以0-5级的改革成熟度为标尺,以“跑道外”“刚起步”“常态化”“经验丰富”“专家”“顶尖”为表述的动态改革评价体系,用以评价科协系统改革状态与成效的成熟度。 4.软件平台建设 面向全国学会、省级科协、中国科协机关部门三类主体,采用开放式、可配置、模块化理念,监测对象、监测指标、权重、信息采集点等指标体系可随着改革深入进行动态调整。主要从量、质、效三个方面进行评价,通过“改革成熟度”(即多个维度指标的加权总值)反映每个学会的改革绩效。具体评价方式包括量质效评价、排名分值法、定性判断量化,有的指标仅用于统计,不用于动态排名,在单个学会监测评估基础上,生成整体情况报告。
了解详情>>
为了深入贯彻党的十九大精神,根据《科协系统深化改革实施方案》和中国科协党组深化改革工作的安排,中国科协调宣部、创新战略研究院课题组设计建设了科协系统改革监测平台。平台旨在建立推行关键绩效指标制度,引导培育用户导向、绩效评估的执行力文化。本文着重研究了全国学会改革动态监测指标体系和平台建设等问题。 1.任务分解与指标凝练 依据《科协系统深化改革实施方案》、《2017年科协科协工作要点》任务做工作分解结构(WBS Work Breakdown Structure),逐条分解至一级、二级、三级任务层面。 2.评价方法研究 评价方法采用“排名分值法”“专家定性评价定量化”“量质效的分级评价法”“学会改革雷达图分析”等手段,实现可统一、可量化、可考核、可追溯的评价体系应用,最大限度地集成科研活动中形成的数据、成果、经验和知识,实现全国学会、科协基层组织改革动态绩效评价的标准化、数据化、可视化。 3.改革成熟度方案设计 提出以0-5级的改革成熟度为标尺,以“跑道外”“刚起步”“常态化”“经验丰富”“专家”“顶尖”为表述的动态改革评价体系,用以评价科协系统改革状态与成效的成熟度。 4.软件平台建设 面向全国学会、省级科协、中国科协机关部门三类主体,采用开放式、可配置、模块化理念,监测对象、监测指标、权重、信息采集点等指标体系可随着改革深入进行动态调整。主要从量、质、效三个方面进行评价,通过“改革成熟度”(即多个维度指标的加权总值)反映每个学会的改革绩效。具体评价方式包括量质效评价、排名分值法、定性判断量化,有的指标仅用于统计,不用于动态排名,在单个学会监测评估基础上,生成整体情况报告。
GCM-Bench:一个面向微生物领域的RDF管理系统基准测试集
作者: 刘仁峰
随着生命科学领域研究设备的精细化、研究水平的不断提升,产生的数据规模也越来越庞大且复杂多样。针对目前微生物数据异构、异地、关联性差等现状,研究人员利用RDF(Resource Description Framework)研发了全球微生物中心知识库,支持全球研究人员进行相关的研究。RDF数据管理系统有很多,如gStore、Jena、Virtuoso等,但在不同数据集上的表现差异很大,对于微生物研究人员来说难以判断和选择。因此,我们决定开发一个RDF基准测试集——GCM-Bench,通过它来评估通用RDF管理系统在微生物大数据集上的性能表现,供微生物研究人员选择RDF管理系统时参考,该系统已开源(详见https://github.com/renfliu/gcm-bench)。GCM-Bench包含三个主要部分:微生物RDF数据生成器、SPARQL测试负载和自动测试系统。在真实的全球微生物中心知识库数据集的基础上,我们建立了RDF数据模型和仿真数据生成工具。根据微生物学家的使用习惯和SPARQL查询的特点,我们定义了16个查询负载和6个更新负载。同时为了使测试环境更一致、结果更准确、过程更方便,我们建立了自动测试系统,可以自动执行测试、监控系统资源利用情况、生成测试报告。利用仿真数据生成工具,我们生成了不同规模的数据,用自动测试系统对8个常用的RDF数据管理系统进行了评估,其中包括5个单机系统(gStore、Jena、Virtuoso、4Store、RDF3X)和3个分布式系统(TriAD、gStoreD、S2RDF)。通过对比不同RDF管理系统的特点,结合基准测试的结果,我们分析了各个RDF管理系统的优缺点和使用场景。我们发现gStore在大数据集上有非常明显的优势;Virtuoso提供了一套完整的方案;RDF3X速度很快,但是对SPARQL的支持不够完善;Jena在各方面比较均衡;S2RDF可以利用现有大数据平台(Hadoop、Spark)的优势,处理大规模数据;4Store、TriAD和gStoreD在实用上还需进一步完善。我们希望GCM-Bench基准测试集能够对微生物学家和系统开发人员有所帮助。
了解详情>>
随着生命科学领域研究设备的精细化、研究水平的不断提升,产生的数据规模也越来越庞大且复杂多样。针对目前微生物数据异构、异地、关联性差等现状,研究人员利用RDF(Resource Description Framework)研发了全球微生物中心知识库,支持全球研究人员进行相关的研究。RDF数据管理系统有很多,如gStore、Jena、Virtuoso等,但在不同数据集上的表现差异很大,对于微生物研究人员来说难以判断和选择。因此,我们决定开发一个RDF基准测试集——GCM-Bench,通过它来评估通用RDF管理系统在微生物大数据集上的性能表现,供微生物研究人员选择RDF管理系统时参考,该系统已开源(详见https://github.com/renfliu/gcm-bench)。GCM-Bench包含三个主要部分:微生物RDF数据生成器、SPARQL测试负载和自动测试系统。在真实的全球微生物中心知识库数据集的基础上,我们建立了RDF数据模型和仿真数据生成工具。根据微生物学家的使用习惯和SPARQL查询的特点,我们定义了16个查询负载和6个更新负载。同时为了使测试环境更一致、结果更准确、过程更方便,我们建立了自动测试系统,可以自动执行测试、监控系统资源利用情况、生成测试报告。利用仿真数据生成工具,我们生成了不同规模的数据,用自动测试系统对8个常用的RDF数据管理系统进行了评估,其中包括5个单机系统(gStore、Jena、Virtuoso、4Store、RDF3X)和3个分布式系统(TriAD、gStoreD、S2RDF)。通过对比不同RDF管理系统的特点,结合基准测试的结果,我们分析了各个RDF管理系统的优缺点和使用场景。我们发现gStore在大数据集上有非常明显的优势;Virtuoso提供了一套完整的方案;RDF3X速度很快,但是对SPARQL的支持不够完善;Jena在各方面比较均衡;S2RDF可以利用现有大数据平台(Hadoop、Spark)的优势,处理大规模数据;4Store、TriAD和gStoreD在实用上还需进一步完善。我们希望GCM-Bench基准测试集能够对微生物学家和系统开发人员有所帮助。
中国散裂中子源科学数据处理
作者: 齐法制 , 李亚康 , 张俊荣
中国散裂中子源(CSNS)是研究中子特性、探测物质微观结构和运动的科研装置,是面向国际前沿高科技、多学科应用的大型研究平台。CSNS的运行能够带动物理学、化学、生命科学、材料科学、纳米科学、医药、国防科研和新型核能开发等学科发展。 科学数据处理系统作为CSNS设施本身的重要组成部分,面向用户和科学家提供数据获取、存储、分析和共享服务,同时面向包括材料科学、生命科学、物理科学、化学学科等提供多学科综合数据分析服务。CSNS数据处理系统需要面向多学科科学数据管理和数据分析需求,提供不同架构、不同服务模式的科学数据分析环境,为用户和科研人员提供优质、便捷和高效的数据访问和数据分析服务。
了解详情>>
中国散裂中子源(CSNS)是研究中子特性、探测物质微观结构和运动的科研装置,是面向国际前沿高科技、多学科应用的大型研究平台。CSNS的运行能够带动物理学、化学、生命科学、材料科学、纳米科学、医药、国防科研和新型核能开发等学科发展。 科学数据处理系统作为CSNS设施本身的重要组成部分,面向用户和科学家提供数据获取、存储、分析和共享服务,同时面向包括材料科学、生命科学、物理科学、化学学科等提供多学科综合数据分析服务。CSNS数据处理系统需要面向多学科科学数据管理和数据分析需求,提供不同架构、不同服务模式的科学数据分析环境,为用户和科研人员提供优质、便捷和高效的数据访问和数据分析服务。
大数据驱动的资源学科发展实践
作者: 王卷乐 , 韩雪华 , 程凯 , 王明明 , 魏海硕
资源科学是研究资源的形成、演变、质量特征与时空分布及其与人类社会发展之相互关系的科学。随着资源环境全局性问题协调的需求不断增大,传统的单一资源学科的深化难以解决资源与环境可持续发展的综合性问题。在大数据驱动和信息技术支持下,使得资源科学综合科学研究这一学科灵魂问题的突破和解决成为可能,催生和促进资源科学的新发展,促进资源学科领域在大数据平台上的创新应用。本文借助中国科学院资源学科大数据创新示范平台和WDS可再生资源与环境数据中心为基础,分析了本领域在国内、国际的前沿态势,立足资源学科发展及其与“一带一路”、“美丽中国”等国家战略需求契合,分析大数据驱动的资源学科创新平台的框架、体系、技术、算法、标准,以及在“中蒙俄经济走廊交通与管线生态风险防控”等典型资源学科领域科研活动应用中的大数据驱动场景,深度探索大数据驱动资源学科领域创新发现的新型科研模式。
了解详情>>
资源科学是研究资源的形成、演变、质量特征与时空分布及其与人类社会发展之相互关系的科学。随着资源环境全局性问题协调的需求不断增大,传统的单一资源学科的深化难以解决资源与环境可持续发展的综合性问题。在大数据驱动和信息技术支持下,使得资源科学综合科学研究这一学科灵魂问题的突破和解决成为可能,催生和促进资源科学的新发展,促进资源学科领域在大数据平台上的创新应用。本文借助中国科学院资源学科大数据创新示范平台和WDS可再生资源与环境数据中心为基础,分析了本领域在国内、国际的前沿态势,立足资源学科发展及其与“一带一路”、“美丽中国”等国家战略需求契合,分析大数据驱动的资源学科创新平台的框架、体系、技术、算法、标准,以及在“中蒙俄经济走廊交通与管线生态风险防控”等典型资源学科领域科研活动应用中的大数据驱动场景,深度探索大数据驱动资源学科领域创新发现的新型科研模式。
基于网络文本的地震灾害事件信息获取与分析
作者: 韩雪华 , 王卷乐
大数据时代下海量网络文本中蕴含的灾害事件信息是防灾减灾研究和应用的重要资源。从非结构化的网络文本中快速、准确抽取灾害事件时空信息和属性信息,分析其时空动态变化模式与趋势并进行可视化表达,是当前地理信息与灾害信息领域关注的热点。本文选取2015-2017年全国地震灾害为研究对象,分析新闻报道与官方机构报道等网络文本中地震灾害事件信息的描述特点,借助网络主题爬虫、自然语言处理、命名实体识别等技术,构建地震灾害事件信息抽取规则,实现了网络文本中地震灾害事件时空与属性信息的自动解析提取;并结合地理编码技术对地震灾害事件进行空间可视化展示。在此基础之上,分析了2015-2017年全国地震灾害事件时空分布特征,并与权威机构发布的基于统计数据的地震灾害分布图进行对比,验证其准确性;针对新闻报道与官方报道两种网络数据来源,对比从中获取的地震事件信息的特征与差异;最后总结了网络文本中地震灾害信息的特征与获取分析难点,为进一步研究奠定基础。
了解详情>>
大数据时代下海量网络文本中蕴含的灾害事件信息是防灾减灾研究和应用的重要资源。从非结构化的网络文本中快速、准确抽取灾害事件时空信息和属性信息,分析其时空动态变化模式与趋势并进行可视化表达,是当前地理信息与灾害信息领域关注的热点。本文选取2015-2017年全国地震灾害为研究对象,分析新闻报道与官方机构报道等网络文本中地震灾害事件信息的描述特点,借助网络主题爬虫、自然语言处理、命名实体识别等技术,构建地震灾害事件信息抽取规则,实现了网络文本中地震灾害事件时空与属性信息的自动解析提取;并结合地理编码技术对地震灾害事件进行空间可视化展示。在此基础之上,分析了2015-2017年全国地震灾害事件时空分布特征,并与权威机构发布的基于统计数据的地震灾害分布图进行对比,验证其准确性;针对新闻报道与官方报道两种网络数据来源,对比从中获取的地震事件信息的特征与差异;最后总结了网络文本中地震灾害信息的特征与获取分析难点,为进一步研究奠定基础。
多来源科学数据汇聚模式与技术分析
作者: 王卷乐 , 石蕾 , 王明明
科学数据是“数据—信息—知识—智慧”这一创新价值链的基础,是最基本的科技创新资源。尽管我国在科学数据汇聚方面开展了一些工作,但仍然缺少系统的模式和方法支撑,工作程序也不够顺畅,影响了我国科学数据资源自身建设和参与全球竞争的能力,甚至还导致我国许多的科学数据资源汇聚到国外造成资源流失。本文聚焦于国家机构、学科领域、数据出版和社会公众等多来源科学数据汇聚模式与方法。通过对美国国家航空航天局(NASA)、美国国家海洋和大气局(NOAA)、美国国家科学基金会(NSF)、美国地质调查局(USGS)、中国国家海洋局和中国地质调查局等国内外具有影响力的国家机构,德国海洋数据中心(PANGAEA)、荷兰数据存储和网络服务中心(DANS)、澳大利亚国家数据服务中心(ANDS)和大学间政治社会研究联盟(ICPSR)等典型数据中心,亚马逊、谷歌和数据堂等商业机构的科学数据汇聚政策和具体实施策略进行详细调研分析,梳理其科学数据汇聚的不同类型模式与经验,理清不同来源渠道和类型的科学数据资源汇聚流程。重点分析了科技计划项目的科学数据汇交模式,分别从立项指南、项目申报、项目执行、项目验收和数据共享等科研项目的整个生命周期对科学数据的汇交规范进行了调研分析。最终结合我国国情提出我国科学数据合理汇聚的模式和方法建议,预期为我国科学数据资源的汇聚积累和可持续应用发展提供基础支撑,促进我国科学数据核心竞争力的提升。
了解详情>>
科学数据是“数据—信息—知识—智慧”这一创新价值链的基础,是最基本的科技创新资源。尽管我国在科学数据汇聚方面开展了一些工作,但仍然缺少系统的模式和方法支撑,工作程序也不够顺畅,影响了我国科学数据资源自身建设和参与全球竞争的能力,甚至还导致我国许多的科学数据资源汇聚到国外造成资源流失。本文聚焦于国家机构、学科领域、数据出版和社会公众等多来源科学数据汇聚模式与方法。通过对美国国家航空航天局(NASA)、美国国家海洋和大气局(NOAA)、美国国家科学基金会(NSF)、美国地质调查局(USGS)、中国国家海洋局和中国地质调查局等国内外具有影响力的国家机构,德国海洋数据中心(PANGAEA)、荷兰数据存储和网络服务中心(DANS)、澳大利亚国家数据服务中心(ANDS)和大学间政治社会研究联盟(ICPSR)等典型数据中心,亚马逊、谷歌和数据堂等商业机构的科学数据汇聚政策和具体实施策略进行详细调研分析,梳理其科学数据汇聚的不同类型模式与经验,理清不同来源渠道和类型的科学数据资源汇聚流程。重点分析了科技计划项目的科学数据汇交模式,分别从立项指南、项目申报、项目执行、项目验收和数据共享等科研项目的整个生命周期对科学数据的汇交规范进行了调研分析。最终结合我国国情提出我国科学数据合理汇聚的模式和方法建议,预期为我国科学数据资源的汇聚积累和可持续应用发展提供基础支撑,促进我国科学数据核心竞争力的提升。
漫步云端的天文大数据
作者: 何勃亮 , 崔辰州 , 樊东卫 , 米琳莹 , 李长华
云计算经过了多年的发展,目前在各个领域都有深入的发展和应用。其特点有:易于部署和开发,容错性好,按量付费,数据安全程度高等。各个云计算厂商都推出了大量的高性能云端产品,可以为用户提供多方面的应用服务。 大数据时代的来临也为云计算的高速发展带来动力。天文大数据也是一个重要类型的大数据,其特点有: 一、数据量大,诸多国内外的天文望远镜源源不断的产生各类天文数据; 二、数据维数高,现代的天文星表动辄有数百个字段,这已经是比较常见的情况 三、数据关系、数据关联复杂度高,面向天文学家的一个重要需求就是各个望远镜的数据如何产生关联。 天文领域云,是中国科学院十二五期间建立的一套天文相关云计算系统,旨在解决天文数据自生产出来,到数据处理、数据发布、科学产出等一系列数据完整生命周期管理的问题。阿里云,是全球领先的商业云计算厂商,拥有一系列的云端产品,其中某些产品非常适合天文大数据的应用范式。本文将对这两类云的天文上的应用予以解读分析。 另外,在国内外,诸多的望远镜数据已经逐步推送入云端,本文将以实际应用情况对分布在云端的天文数据进行调查和探索,介绍相关的应用效果和应用前景。最后将对天文大数据的云端应用模式进行分析和展望。
了解详情>>
云计算经过了多年的发展,目前在各个领域都有深入的发展和应用。其特点有:易于部署和开发,容错性好,按量付费,数据安全程度高等。各个云计算厂商都推出了大量的高性能云端产品,可以为用户提供多方面的应用服务。 大数据时代的来临也为云计算的高速发展带来动力。天文大数据也是一个重要类型的大数据,其特点有: 一、数据量大,诸多国内外的天文望远镜源源不断的产生各类天文数据; 二、数据维数高,现代的天文星表动辄有数百个字段,这已经是比较常见的情况 三、数据关系、数据关联复杂度高,面向天文学家的一个重要需求就是各个望远镜的数据如何产生关联。 天文领域云,是中国科学院十二五期间建立的一套天文相关云计算系统,旨在解决天文数据自生产出来,到数据处理、数据发布、科学产出等一系列数据完整生命周期管理的问题。阿里云,是全球领先的商业云计算厂商,拥有一系列的云端产品,其中某些产品非常适合天文大数据的应用范式。本文将对这两类云的天文上的应用予以解读分析。 另外,在国内外,诸多的望远镜数据已经逐步推送入云端,本文将以实际应用情况对分布在云端的天文数据进行调查和探索,介绍相关的应用效果和应用前景。最后将对天文大数据的云端应用模式进行分析和展望。
科学大数据在线众包
作者: 周小华
本次报告以地理空间数据云新推出的遥感影像在线众包编辑平台为例,结合日常运维经验,介绍面向科学大数据的众包模式以及背后的技术支持与实现。传统众包模式是由管理员直接将遥感影像的解译、分析等相关工作分发给参与用户,这种方式存在诸多问题,如过程繁琐,需要较多的人工介入,能够参与的用户量有限,且最终得到的数据质量难以得到保证。针对上述问题地理空间数据云推出了新的数据众包平台,该平台以网格为单位进行更细粒度的任务派分与监控,为了支持更大规模的应用,平台底层采用了基于ceph的可以支持更高并发度的数据剖分存储系统,同时借鉴微服务的设计理念,实现了遥感影像切割、自动聚类等多种扩展性强、易于迁移部署的数据处理服务,上层的地图渲染引擎基于mapnik进行定制实现,效率高,可支持更多的数据类型。新平台提供了更多更灵活的任务定制策略,提高了任务并发度,缩短了任务周期,同时,由于允许更多用户参与,最终质量也有更好的保证。
了解详情>>
本次报告以地理空间数据云新推出的遥感影像在线众包编辑平台为例,结合日常运维经验,介绍面向科学大数据的众包模式以及背后的技术支持与实现。传统众包模式是由管理员直接将遥感影像的解译、分析等相关工作分发给参与用户,这种方式存在诸多问题,如过程繁琐,需要较多的人工介入,能够参与的用户量有限,且最终得到的数据质量难以得到保证。针对上述问题地理空间数据云推出了新的数据众包平台,该平台以网格为单位进行更细粒度的任务派分与监控,为了支持更大规模的应用,平台底层采用了基于ceph的可以支持更高并发度的数据剖分存储系统,同时借鉴微服务的设计理念,实现了遥感影像切割、自动聚类等多种扩展性强、易于迁移部署的数据处理服务,上层的地图渲染引擎基于mapnik进行定制实现,效率高,可支持更多的数据类型。新平台提供了更多更灵活的任务定制策略,提高了任务并发度,缩短了任务周期,同时,由于允许更多用户参与,最终质量也有更好的保证。
国外开放科学数据的激励政策研究
作者: 顾立平 , 包秦雯
作为知识经济的新能源,开放科学数据可以使得人们访问数据以及分析数据,从而促进科技创新。开放科学数据涉及政府机构、资助机构、研究机构、出版商以及图书馆等的不同利益关系人,其中核心关键是研究人员。如何促进研究人员认识、参与和实际行动,是近年开放科学数据政策的焦点,也是争论最多的一类政策实践问题。本文梳理欧洲、北美和亚太地区的开放科学数据相关政策以及政策实践的配套措施,建立激励政策的分析框架,包括:认可与奖励、教育与培训、基础设施与服务等。本研究成果可以提供长期观测国外开放科学数据发展战略和实施细节的方式,进而支持我国有关政策的实施方案和任务推进。
了解详情>>
作为知识经济的新能源,开放科学数据可以使得人们访问数据以及分析数据,从而促进科技创新。开放科学数据涉及政府机构、资助机构、研究机构、出版商以及图书馆等的不同利益关系人,其中核心关键是研究人员。如何促进研究人员认识、参与和实际行动,是近年开放科学数据政策的焦点,也是争论最多的一类政策实践问题。本文梳理欧洲、北美和亚太地区的开放科学数据相关政策以及政策实践的配套措施,建立激励政策的分析框架,包括:认可与奖励、教育与培训、基础设施与服务等。本研究成果可以提供长期观测国外开放科学数据发展战略和实施细节的方式,进而支持我国有关政策的实施方案和任务推进。
数据权属和使用边界研究
作者: 顾立平
作为数据技术的新矿产,数据产权是各个机构使用、开采、提炼、拥有、转售和出借的重要战略议题。数据产权涉及数据管理服务的主体、数据接入的合作方,以及享受数据服务的公众等不同利益关系人,其中核心关键是数据权属。在什么情境下如何合法合理合规地使用数据,是近年数据政策的焦点,也是实践上争论最多的一类问题。本文梳理欧洲、北美和亚太地区的数据政策以及实践案例,建立数据权属和使用边界的分析框架,包括:(1)如何充实数据管理服务在国际国内法律法规的可论述空间的角色;(2)如何兼顾已有商业合同中的许可协议的行为约定;(3)如何发挥开放共享下的许可协议的可操作弹性。本研究成果可以提供长期观测国外国内国家级数据中心的数据政策和发展。
了解详情>>
作为数据技术的新矿产,数据产权是各个机构使用、开采、提炼、拥有、转售和出借的重要战略议题。数据产权涉及数据管理服务的主体、数据接入的合作方,以及享受数据服务的公众等不同利益关系人,其中核心关键是数据权属。在什么情境下如何合法合理合规地使用数据,是近年数据政策的焦点,也是实践上争论最多的一类问题。本文梳理欧洲、北美和亚太地区的数据政策以及实践案例,建立数据权属和使用边界的分析框架,包括:(1)如何充实数据管理服务在国际国内法律法规的可论述空间的角色;(2)如何兼顾已有商业合同中的许可协议的行为约定;(3)如何发挥开放共享下的许可协议的可操作弹性。本研究成果可以提供长期观测国外国内国家级数据中心的数据政策和发展。
多源科技资源整合、关联和服务研究
作者: 许哲平
科技资源是科研工作的基础设施和关键,包括科技文献、专利、科技成果、实物资源(标本、种质资源、实验动物、实验细胞、菌种资源、标准物质等)、仪器设备、科学数据和专家资源等。当前我国科技资源分布非常零散,在不同的研究机构、高校、政府部门中都有不同程度的分布,相应地,各资源管理单位也建设了各自的平台,虽然一定程度上实现了共享了,但是还是存在多头分散的局面,而且,大小平台在数据交互使用方面并没有遵循统一的规范标准,导致数据之间的相互调用并不容易。本报告主要从科学数据的平台梳理出发,参考国际FAIR (Findable, Accessible, Interoperable, Reusable)数据原则框架,建立科技资源-仪器设备-数据-论文-专家-机构之间的多维关系,并通过在线平台对这些关系进行实现,提出新的资源和知识服务模式和方法。
了解详情>>
科技资源是科研工作的基础设施和关键,包括科技文献、专利、科技成果、实物资源(标本、种质资源、实验动物、实验细胞、菌种资源、标准物质等)、仪器设备、科学数据和专家资源等。当前我国科技资源分布非常零散,在不同的研究机构、高校、政府部门中都有不同程度的分布,相应地,各资源管理单位也建设了各自的平台,虽然一定程度上实现了共享了,但是还是存在多头分散的局面,而且,大小平台在数据交互使用方面并没有遵循统一的规范标准,导致数据之间的相互调用并不容易。本报告主要从科学数据的平台梳理出发,参考国际FAIR (Findable, Accessible, Interoperable, Reusable)数据原则框架,建立科技资源-仪器设备-数据-论文-专家-机构之间的多维关系,并通过在线平台对这些关系进行实现,提出新的资源和知识服务模式和方法。
国家病原微生物资源保藏网络
作者: 魏强
病原微生物是进行传染病防治、科研、教学、药品和生物制品生产、出入境检验检疫等工作的重要基础和支撑条件,是保障国家社会安全、经济安全和生物安全的重要战略资源。病原微生物资源保藏应适应国家生物安全和创新驱动发展战略需要,逐渐形成国家保藏网络体系,推动国家科技资源共享服务平台构建,在确保国家生物安全前提下,服务于基础科学研究,服务于传染病防治和国家生物安全战略需求。
了解详情>>
病原微生物是进行传染病防治、科研、教学、药品和生物制品生产、出入境检验检疫等工作的重要基础和支撑条件,是保障国家社会安全、经济安全和生物安全的重要战略资源。病原微生物资源保藏应适应国家生物安全和创新驱动发展战略需要,逐渐形成国家保藏网络体系,推动国家科技资源共享服务平台构建,在确保国家生物安全前提下,服务于基础科学研究,服务于传染病防治和国家生物安全战略需求。
不同应用场景下的科学数据汇聚共享模式与实践
作者: 李成赞
科学数据是科技创新的战略性资源,其开放共享对科学、经济及社会的发展具有重要价值。本文结合科学数据汇聚开放共享的典型案例场景,提炼出五种典型的数据汇聚与开放共享模式:单源数据共享模式、分布式注册/收割模式、基于数据存储库的集中存缴模式、以数据期刊为代表的科学数据出版,并对这些模式进行分析,识别出各种模式的应用场景、典型特征及主要共享瓶颈。希望上述研究能够有助于厘清当前科学大数据开放共享的有关现状,并对其未来推进有所裨益。
了解详情>>
科学数据是科技创新的战略性资源,其开放共享对科学、经济及社会的发展具有重要价值。本文结合科学数据汇聚开放共享的典型案例场景,提炼出五种典型的数据汇聚与开放共享模式:单源数据共享模式、分布式注册/收割模式、基于数据存储库的集中存缴模式、以数据期刊为代表的科学数据出版,并对这些模式进行分析,识别出各种模式的应用场景、典型特征及主要共享瓶颈。希望上述研究能够有助于厘清当前科学大数据开放共享的有关现状,并对其未来推进有所裨益。
生命与健康大数据整合及资源体系建设
作者: 章张
The BIG Data Center at Beijing Institute of Genomics (BIG) of the Chinese Academy of Sciences provides freely open access to a suite of database resources in support of worldwide research activities in both academia and industry. With the vast amounts of omics data generated at ever-greater scales and rates, the BIG Data Center is continually expanding, updating and enriching its core database resources through big-data integration and value-added curation, including BioCode (a repository archiving bioinformatics tool codes), BioProject (a biological project library), BioSample (a biological sample library), Genome Sequence Archive (GSA, a data repository for archiving raw sequence reads), Genome Warehouse (GWH, a centralized resource housing genome-scale data), Genome Variation Map (GVM, a public repository of genome variations), Gene Expression Nebulas (GEN, a database of gene expression profiles based on RNA-Seq data), Methylation Bank (MethBank, an integrated databank of DNA methylomes), and Science Wikis (a series of biological knowledge wikis for community annotations). In addition, three featured web services are provided, viz., BIG Search (search as a service; a scalable inter-domain text search engine), BIG SSO (single sign-on as a service; a user access control system to gain access to multiple independent systems with a single ID and password) ...
了解详情>>
The BIG Data Center at Beijing Institute of Genomics (BIG) of the Chinese Academy of Sciences provides freely open access to a suite of database resources in support of worldwide research activities in both academia and industry. With the vast amounts of omics data generated at ever-greater scales and rates, the BIG Data Center is continually expanding, updating and enriching its core database resources through big-data integration and value-added curation, including BioCode (a repository archiving bioinformatics tool codes), BioProject (a biological project library), BioSample (a biological sample library), Genome Sequence Archive (GSA, a data repository for archiving raw sequence reads), Genome Warehouse (GWH, a centralized resource housing genome-scale data), Genome Variation Map (GVM, a public repository of genome variations), Gene Expression Nebulas (GEN, a database of gene expression profiles based on RNA-Seq data), Methylation Bank (MethBank, an integrated databank of DNA methylomes), and Science Wikis (a series of biological knowledge wikis for community annotations). In addition, three featured web services are provided, viz., BIG Search (search as a service; a scalable inter-domain text search engine), BIG SSO (single sign-on as a service; a user access control system to gain access to multiple independent systems with a single ID and password) and Gsub (submission as a service; a unified submission service for all relevant resources). All of these resources are publicly accessible through the home page of the BIG Data Center at http://bigd.big.ac.cn.
中国科学院实验动物大数据平台建设
作者: 田勇
中国科学院特色与模式动物平台是2006年在财政部专项经费支持下建立的。中国科学院从2006年起整合了中国科学院现有的人才与资源的优势,遴选了具备一定硬件设施及研究队伍的单位组建了中国科学院特色与模式动物实验平台。通过10年的建设,中国科学院模式与特色动物实验平台以“整合资源、服务科研、服务社会”为目标,为院内外成员提供模式与特色动物的实验动物品系和遗传信息等交流共享平台,促进中国科学院生物医药研究的发展。 在中国科学院科技促进发展局的领导下,中国科学院模式与特色动物实验平台于2016年初成立了全新的工作委员会,重新遴选了位于北京、上海、广东、湖北、云南、安徽等地的中国科学院实验动物设施,顺利启动了“十三五”中国科学院模式与特色动物实验平台项目,并在项目启动第一年成立了中国科学院模式与特色动物利用联盟实验动物资源数据平台,有效提升全院实验动物模型的研发和支撑能力。 2017年,平台在上年度工作的基础上,继续加强对中科院重大科研支撑力度。目前已包含中科院实验动物平台联盟成员发布的各类实验动物信息数据及主要生物学特性。截止到2017年12月31日,大数据平台共统计有1132种基因型实验动物,包括各种实验动物相关的词条和生物学特性。2018年,实验动物大数据平台将积极和完善采集实验动物相关数据,争取在2-3年内,使得大数据平台的数据总量再提升一倍,有力推动国家实验动物支撑体系建设。
了解详情>>
中国科学院特色与模式动物平台是2006年在财政部专项经费支持下建立的。中国科学院从2006年起整合了中国科学院现有的人才与资源的优势,遴选了具备一定硬件设施及研究队伍的单位组建了中国科学院特色与模式动物实验平台。通过10年的建设,中国科学院模式与特色动物实验平台以“整合资源、服务科研、服务社会”为目标,为院内外成员提供模式与特色动物的实验动物品系和遗传信息等交流共享平台,促进中国科学院生物医药研究的发展。 在中国科学院科技促进发展局的领导下,中国科学院模式与特色动物实验平台于2016年初成立了全新的工作委员会,重新遴选了位于北京、上海、广东、湖北、云南、安徽等地的中国科学院实验动物设施,顺利启动了“十三五”中国科学院模式与特色动物实验平台项目,并在项目启动第一年成立了中国科学院模式与特色动物利用联盟实验动物资源数据平台,有效提升全院实验动物模型的研发和支撑能力。 2017年,平台在上年度工作的基础上,继续加强对中科院重大科研支撑力度。目前已包含中科院实验动物平台联盟成员发布的各类实验动物信息数据及主要生物学特性。截止到2017年12月31日,大数据平台共统计有1132种基因型实验动物,包括各种实验动物相关的词条和生物学特性。2018年,实验动物大数据平台将积极和完善采集实验动物相关数据,争取在2-3年内,使得大数据平台的数据总量再提升一倍,有力推动国家实验动物支撑体系建设。
大天区图像巡天和数据分析
作者: 邹虎
随着望远镜和观测技术的发展,越来越多的大型巡天项目为全世界天文工作者提供了大量的数据进行全方位的科学研究。其中,最为成功的是斯隆数字巡天(SDSS)。它同时具备大视场测光和光谱巡天的能力,已经在天文领域取得了非凡的成就。未来,国际上将开展大视场的深度图像巡天项目和大型地面空间望远镜如LSST、WFIRST和JWST,以及国内将建设的4米、6.5米和12米光学红外望远镜和空间站光学巡天项目(CSST)等,如何从海量的观测数据中快速准确地提取对天文学家有用的信息变得越来越重要。国家天文台BATC课题组开展了一些列的巡天项目,如利用兴隆施密特望远镜开展的超新星巡天、利用美国的2.3米Bok望远镜开展的南银冠u波段巡天(SCUSS)和北京-亚利桑那巡天(BASS)。基于这些巡天项目,我们逐步建立了科学的合作队伍,积累了大量观测和数据处理的经验。目前超新星巡天每年能否稳定地发现数十颗超新星候选体;SCUSS已经完成了所有的观测并成功释放了科学数据。从2015年开始,BASS逐年稳定地积累观测数据,并逐步地更新数据处理和分析软件。观测有望于2018年底结束。目前已经释放了第一版和第二版数据。这些巡天经验为中国即将开展的望远镜观测和大型巡天项目的顺利进行和科学研究提供了最为基本的保障。
了解详情>>
随着望远镜和观测技术的发展,越来越多的大型巡天项目为全世界天文工作者提供了大量的数据进行全方位的科学研究。其中,最为成功的是斯隆数字巡天(SDSS)。它同时具备大视场测光和光谱巡天的能力,已经在天文领域取得了非凡的成就。未来,国际上将开展大视场的深度图像巡天项目和大型地面空间望远镜如LSST、WFIRST和JWST,以及国内将建设的4米、6.5米和12米光学红外望远镜和空间站光学巡天项目(CSST)等,如何从海量的观测数据中快速准确地提取对天文学家有用的信息变得越来越重要。国家天文台BATC课题组开展了一些列的巡天项目,如利用兴隆施密特望远镜开展的超新星巡天、利用美国的2.3米Bok望远镜开展的南银冠u波段巡天(SCUSS)和北京-亚利桑那巡天(BASS)。基于这些巡天项目,我们逐步建立了科学的合作队伍,积累了大量观测和数据处理的经验。目前超新星巡天每年能否稳定地发现数十颗超新星候选体;SCUSS已经完成了所有的观测并成功释放了科学数据。从2015年开始,BASS逐年稳定地积累观测数据,并逐步地更新数据处理和分析软件。观测有望于2018年底结束。目前已经释放了第一版和第二版数据。这些巡天经验为中国即将开展的望远镜观测和大型巡天项目的顺利进行和科学研究提供了最为基本的保障。
全球微生物模式菌株基因组国际合作计划
作者: 马俊才 , 吴林寰
微生物作为地球上分布最为广泛、生物量最大、生物多样性最为丰富的生命形式,推动地球化学物质循环,影响人类健康乃至地球的整个生态系统。模式菌株在微生物定名和发表时,被作为分类概念的准则,对于微生物的分类、鉴定、功能研究具有重要意义。 模式菌株由于其参考性和唯一性,对微生物的鉴定、功能研究和大规模组学数据分析都对于具有重要的价值。目前已知的微生物模式菌株广泛地分布在全球的保藏中心,已测序的微生物基因组还存在大量的空缺。通过对所有已知物种的模式菌株进行组学数据解析,具有重大的科学意义和战略意义。由中国科学院微生物研究所以及世界微生物数据中心共同倡导的全球微生物模式菌株基因组国际合作计划将在5年内完成超过10000株微生物模式菌株的基因组测序并将建立一整套从基因组到功能的研究体系,包括样本、质量控制、数据分析等标准化的方法和体系,引领国际标准的建立。利用基因组数据,建立全球微生物物种发育树,将推动微生物系统发育学迈入组学时代,对系统发育方法进行革新,同时将建立全球最大的微生物参考基因组权威数据平台,为微生物分类、微生物组、微生物代谢及功能研究提供标准与参考。利用模式基因组测序并进行基于大数据分析的功能研究,为解决地球演化等大量基础科学问题提供重要手段。
了解详情>>
微生物作为地球上分布最为广泛、生物量最大、生物多样性最为丰富的生命形式,推动地球化学物质循环,影响人类健康乃至地球的整个生态系统。模式菌株在微生物定名和发表时,被作为分类概念的准则,对于微生物的分类、鉴定、功能研究具有重要意义。 模式菌株由于其参考性和唯一性,对微生物的鉴定、功能研究和大规模组学数据分析都对于具有重要的价值。目前已知的微生物模式菌株广泛地分布在全球的保藏中心,已测序的微生物基因组还存在大量的空缺。通过对所有已知物种的模式菌株进行组学数据解析,具有重大的科学意义和战略意义。由中国科学院微生物研究所以及世界微生物数据中心共同倡导的全球微生物模式菌株基因组国际合作计划将在5年内完成超过10000株微生物模式菌株的基因组测序并将建立一整套从基因组到功能的研究体系,包括样本、质量控制、数据分析等标准化的方法和体系,引领国际标准的建立。利用基因组数据,建立全球微生物物种发育树,将推动微生物系统发育学迈入组学时代,对系统发育方法进行革新,同时将建立全球最大的微生物参考基因组权威数据平台,为微生物分类、微生物组、微生物代谢及功能研究提供标准与参考。利用模式基因组测序并进行基于大数据分析的功能研究,为解决地球演化等大量基础科学问题提供重要手段。
《基于SDO的一体化数据汇聚、管理与服务体系建设思考与实践》
作者: 刘峰 , 陈昕 , 朱艳华 , 夏景隆
随着国内外信息化建设的发展,特别是数据开放共享系统化实施的深入;分布式数据汇聚,管理与服务的模式具有非常普遍的应用场景需求。为此我们提出了基于科学数据对象(SDO)进行一体化设计的完整解决方案,分别从分布式数据汇聚、集成组织管理和统一数据共享服务三个层面进行了自下而上的框架体系设计、关键技术研究和系统化的研发设计。目前这种体系建设的思路已经在关键项目中取得了较好的应用示范效果,并在我院十三五信息化建设等大型项目中进行持续推进应用研发。
了解详情>>
随着国内外信息化建设的发展,特别是数据开放共享系统化实施的深入;分布式数据汇聚,管理与服务的模式具有非常普遍的应用场景需求。为此我们提出了基于科学数据对象(SDO)进行一体化设计的完整解决方案,分别从分布式数据汇聚、集成组织管理和统一数据共享服务三个层面进行了自下而上的框架体系设计、关键技术研究和系统化的研发设计。目前这种体系建设的思路已经在关键项目中取得了较好的应用示范效果,并在我院十三五信息化建设等大型项目中进行持续推进应用研发。
微生物数据中心促进全球微生物资源共享与合作研究
作者: 吴林寰 , 马俊才
世界微生物数据中心(WDCM)是全球微生物领域最重要的实物资源数据平台。中科院微生物研究所以WDCM为平台,坚持开展“以我为主”的国际合作,通过倡导全球微生物菌种保藏目录(Global Catalogue of Microorganisms,GCM)重大微生物数据资源国际合作计划,推动全球微生物资源信息化建设迈向新高度。GCM计划旨在为分散于全球各个保藏中心和科学家手中宝贵的微生物资源提供一个全球统一的数据仓库,并以统一数据门户的形式,对全世界科技界和产业界提供微生物菌种资源的信息服务。目前已经有来自美国、法国、德国、荷兰等46个国家和地区的120个国际微生物资源保藏机构正式参加这一计划。同时也与亚洲微生物资源保藏联盟(ACM),亚洲生物资源网络(ANRRC)、欧洲微生物资源中心联盟(EMbaRC)等区域性网络和俄罗斯、泰国、葡萄牙等国家网络的建立了实质性合作,利用GCM的平台,为其提供区域数据管理和共享。到目前为止,GCM已经整合了超过46万的微生物实物资源的详细信息,GCM还利用先进的数据挖掘手段,从全球超过600万已发表的微生物文献及专利中,进一步提取了微生物资源的后续研究和利用的信息。因此,该信息平台对于微生物实物资源从采集、保藏、跨国转移、学术和商业应用以及利益分享的各个环节都能提供有效的数据支持,为生物多样性公约在微生物领域的实施和执行提供最重要的支撑。 WDCM作为一个合作平台,使我国科学家能够在全球的角度,组织和协调各国的相关力量,建立全球性的合作框架,也让中国有机会逐步在微生物资源的开发应用和数据共享方面占领国际微生物研究前沿和主导地位。
了解详情>>
世界微生物数据中心(WDCM)是全球微生物领域最重要的实物资源数据平台。中科院微生物研究所以WDCM为平台,坚持开展“以我为主”的国际合作,通过倡导全球微生物菌种保藏目录(Global Catalogue of Microorganisms,GCM)重大微生物数据资源国际合作计划,推动全球微生物资源信息化建设迈向新高度。GCM计划旨在为分散于全球各个保藏中心和科学家手中宝贵的微生物资源提供一个全球统一的数据仓库,并以统一数据门户的形式,对全世界科技界和产业界提供微生物菌种资源的信息服务。目前已经有来自美国、法国、德国、荷兰等46个国家和地区的120个国际微生物资源保藏机构正式参加这一计划。同时也与亚洲微生物资源保藏联盟(ACM),亚洲生物资源网络(ANRRC)、欧洲微生物资源中心联盟(EMbaRC)等区域性网络和俄罗斯、泰国、葡萄牙等国家网络的建立了实质性合作,利用GCM的平台,为其提供区域数据管理和共享。到目前为止,GCM已经整合了超过46万的微生物实物资源的详细信息,GCM还利用先进的数据挖掘手段,从全球超过600万已发表的微生物文献及专利中,进一步提取了微生物资源的后续研究和利用的信息。因此,该信息平台对于微生物实物资源从采集、保藏、跨国转移、学术和商业应用以及利益分享的各个环节都能提供有效的数据支持,为生物多样性公约在微生物领域的实施和执行提供最重要的支撑。 WDCM作为一个合作平台,使我国科学家能够在全球的角度,组织和协调各国的相关力量,建立全球性的合作框架,也让中国有机会逐步在微生物资源的开发应用和数据共享方面占领国际微生物研究前沿和主导地位。
生命与健康相关的全基因组变异知识图谱研究
作者: 宋述慧 , 肖景发
随着人类基因组计划和国际千人基因组计划的实施,已获得数百个中国人个体的全基因组数据。建立高精度的中国人群参考基因组序列,发现并解析中国人群特有的序列变异,是我国未来精准医学研究的基础。重点介绍基于已有的中国人群基因组数据建立的中国人群动态基因组数据库(VCGDB,http://bigd.big.ac.cn/vcg/)和中国人群全基因组序列的基因组变异数据库(GVM,http://bigd.big.ac.cn/vcg/)的特点和未来发展与应用前景。中国人群动态基因组数据库(VCGDB)实现了对国际千人基因组计划中中国人群体相关的全基因组测序数据的高效整合分析,并提供中国人群体基因组变异的动态信息,为今后开展大规模人群基因组测序数据的分析和展示提供了参照。中国人群基因组变异数据库(GVM)实现了对国际千人基因组计划海量中国人数据的完整、全面的整合和高效展示,体现了中国人群的变异特征。是未来精准医学研究表型与基因型关联分析的重要基础,为未来我国精准医学队列人群计划大数据的处理和分析、数据管理等提供了示范指导,也为基于基因组序列变异的遗传检测、药物研发等提供数据支持。
了解详情>>
随着人类基因组计划和国际千人基因组计划的实施,已获得数百个中国人个体的全基因组数据。建立高精度的中国人群参考基因组序列,发现并解析中国人群特有的序列变异,是我国未来精准医学研究的基础。重点介绍基于已有的中国人群基因组数据建立的中国人群动态基因组数据库(VCGDB,http://bigd.big.ac.cn/vcg/)和中国人群全基因组序列的基因组变异数据库(GVM,http://bigd.big.ac.cn/vcg/)的特点和未来发展与应用前景。中国人群动态基因组数据库(VCGDB)实现了对国际千人基因组计划中中国人群体相关的全基因组测序数据的高效整合分析,并提供中国人群体基因组变异的动态信息,为今后开展大规模人群基因组测序数据的分析和展示提供了参照。中国人群基因组变异数据库(GVM)实现了对国际千人基因组计划海量中国人数据的完整、全面的整合和高效展示,体现了中国人群的变异特征。是未来精准医学研究表型与基因型关联分析的重要基础,为未来我国精准医学队列人群计划大数据的处理和分析、数据管理等提供了示范指导,也为基于基因组序列变异的遗传检测、药物研发等提供数据支持。
无人机遥感数据航母基本概念、关键技术和进展研究
作者: 廖小罕
无人机应用大发展带来无人机遥感数据应用的迅速普及。在技术发展和市场竞争双轮驱动下,无人机遥感数据基本可以实现按需定制,数据产品在时相、分辨率、类型和实时性上可以极大地满足用户需求。无人机遥感数据产品单价比卫星数据要高很多,对气候环境的适应性更强,能克服云覆盖的干扰,商业化前景可观。 和遥感卫星数据的集中获取、处理和对外服务不一样, 遥感无人机零散分布在全国各地,拥有者众多,数据多源多样,质量参差不齐,时空基准和标准不统一,应用主要在局地小区域,数据缺乏广度和深度分析,发挥的作用有限。建设网络化的无人机遥感数据汇聚和分享体系,通过“滴水成海、汇流成川”实现数据虚拟汇集,可以发挥“聚变能”的重要作用,带来存量数据高效利用和按需获取大区域甚至全国覆盖、一年多次、超高分辨率的无人机遥感数据产品,具有超高的商业价值和应用潜力。 基本概念是,通过国家、行业或者社会力量建设全国无人机遥感数据汇聚和分享网,构建无人机遥感数据互联网汇聚和交换枢纽超级平台--无人机遥感数据航母,单一的遥感无人机有一个或者多个数据“航母”停靠。通过公益性服务或者商业化运行,实现按需定制区域和全国的数据覆盖、应对突发事件的应急遥感响应以及数据应用价值的深度挖掘。公众可以从无人机数据航母中得到高分辨率的数据、产品及计算环境服务,数据拥有者可以利用航母平台向他人共享数据,也可以利用航母平台的数据和计算环境支撑自己拥有数据的深加工,研究者可以利用航母提供的数据和计算资源运算研究模型。 构建无人机遥感数据航母需要解决诸多关键技术,主要包括1)可持续运行的无人机遥感网组织模式;2)无人机遥感组网观测关键技术和标准规范;4)海量分布无人机遥感数据虚拟汇聚、储存与访问技术;4)跨平台、跨遥感器海量数据动态快速镶嵌、拼接、融合、信息提取、分析及可视化技术;5)数据知识产权保护技术,等等。 科技部重点研发计划无人机组网观测项目研究团队围绕异构多元无人机遥感系统组网观测数据处理关键技术已经在开展工作,依托全国野外科学观测台站作为遥感无人机空港优化布局也有初步结果,基于全国无人机遥感系统资源优化调度和飞行管控的无人机管控科学测试版也已研制成功。无人航空器遥感数据元数据管理原型系统也上线测试运行。
了解详情>>
无人机应用大发展带来无人机遥感数据应用的迅速普及。在技术发展和市场竞争双轮驱动下,无人机遥感数据基本可以实现按需定制,数据产品在时相、分辨率、类型和实时性上可以极大地满足用户需求。无人机遥感数据产品单价比卫星数据要高很多,对气候环境的适应性更强,能克服云覆盖的干扰,商业化前景可观。 和遥感卫星数据的集中获取、处理和对外服务不一样, 遥感无人机零散分布在全国各地,拥有者众多,数据多源多样,质量参差不齐,时空基准和标准不统一,应用主要在局地小区域,数据缺乏广度和深度分析,发挥的作用有限。建设网络化的无人机遥感数据汇聚和分享体系,通过“滴水成海、汇流成川”实现数据虚拟汇集,可以发挥“聚变能”的重要作用,带来存量数据高效利用和按需获取大区域甚至全国覆盖、一年多次、超高分辨率的无人机遥感数据产品,具有超高的商业价值和应用潜力。 基本概念是,通过国家、行业或者社会力量建设全国无人机遥感数据汇聚和分享网,构建无人机遥感数据互联网汇聚和交换枢纽超级平台--无人机遥感数据航母,单一的遥感无人机有一个或者多个数据“航母”停靠。通过公益性服务或者商业化运行,实现按需定制区域和全国的数据覆盖、应对突发事件的应急遥感响应以及数据应用价值的深度挖掘。公众可以从无人机数据航母中得到高分辨率的数据、产品及计算环境服务,数据拥有者可以利用航母平台向他人共享数据,也可以利用航母平台的数据和计算环境支撑自己拥有数据的深加工,研究者可以利用航母提供的数据和计算资源运算研究模型。 构建无人机遥感数据航母需要解决诸多关键技术,主要包括1)可持续运行的无人机遥感网组织模式;2)无人机遥感组网观测关键技术和标准规范;4)海量分布无人机遥感数据虚拟汇聚、储存与访问技术;4)跨平台、跨遥感器海量数据动态快速镶嵌、拼接、融合、信息提取、分析及可视化技术;5)数据知识产权保护技术,等等。 科技部重点研发计划无人机组网观测项目研究团队围绕异构多元无人机遥感系统组网观测数据处理关键技术已经在开展工作,依托全国野外科学观测台站作为遥感无人机空港优化布局也有初步结果,基于全国无人机遥感系统资源优化调度和飞行管控的无人机管控科学测试版也已研制成功。无人航空器遥感数据元数据管理原型系统也上线测试运行。
面向数据流的空间聚类变化检测方法研究
作者: 李宏伟
随着信息技术的快速发展,广泛分布的传感器网络源源不断地将数据汇聚而来,而且这类数据大都带有空间位置属性,如何处理这些快速、海量、带有空间位置特性的数据流逐渐成为当前的研究热点。传统的时空数据挖掘方法主要侧重于针对静态时空数据库,在面对这种数据流时显得捉襟见肘,这就迫切要求我们积极探索新的思路和方法,以发掘其背后隐含的知识和规律。 空间聚类可以很好的反映空间对象的聚集分布,在这种快速的数据流环境下,数据不断快速的到达,数据所代表空间对象的聚类分布也在不断的发生变化。在这些变化当中往往蕴含着许多知识和规律,所以我们在数据流聚类算法的基础上,尝试对带有空间位置属性的数据流进行实时聚类,并对其中的聚类变化进行检测。 1、提出了一种基于实时聚类快照的空间聚类变化检测方法,该方法在现有数据流聚类算法的基础上,利用数据的空间位置特性对算法的在线阶段增加邻接对象维护的过程,最后在离线阶段对前后截取的聚类快照进行聚类变化事件抽取,从而对聚类变化进行检测。 2、提出了一种基于滑动窗口的空间聚类变化检测方法。该方法在滑动窗口时间模型以及聚类特征指数直方图数据结构的基础上,引入基于密度聚类的思想对该方法的在线阶段进行构建,并引入动态图的思想,对滑动窗口滑动间隔内发生的聚类变化进行检测。 3、将上述两种算法分别应用于旧金山地区犯罪数据的空间聚类变化模拟与北京市实时出租车数据慢行事件的空间分布变化检测研究,并得到了相应空间对象的分布变化趋势,揭示了相关的知识和规律。
了解详情>>
随着信息技术的快速发展,广泛分布的传感器网络源源不断地将数据汇聚而来,而且这类数据大都带有空间位置属性,如何处理这些快速、海量、带有空间位置特性的数据流逐渐成为当前的研究热点。传统的时空数据挖掘方法主要侧重于针对静态时空数据库,在面对这种数据流时显得捉襟见肘,这就迫切要求我们积极探索新的思路和方法,以发掘其背后隐含的知识和规律。 空间聚类可以很好的反映空间对象的聚集分布,在这种快速的数据流环境下,数据不断快速的到达,数据所代表空间对象的聚类分布也在不断的发生变化。在这些变化当中往往蕴含着许多知识和规律,所以我们在数据流聚类算法的基础上,尝试对带有空间位置属性的数据流进行实时聚类,并对其中的聚类变化进行检测。 1、提出了一种基于实时聚类快照的空间聚类变化检测方法,该方法在现有数据流聚类算法的基础上,利用数据的空间位置特性对算法的在线阶段增加邻接对象维护的过程,最后在离线阶段对前后截取的聚类快照进行聚类变化事件抽取,从而对聚类变化进行检测。 2、提出了一种基于滑动窗口的空间聚类变化检测方法。该方法在滑动窗口时间模型以及聚类特征指数直方图数据结构的基础上,引入基于密度聚类的思想对该方法的在线阶段进行构建,并引入动态图的思想,对滑动窗口滑动间隔内发生的聚类变化进行检测。 3、将上述两种算法分别应用于旧金山地区犯罪数据的空间聚类变化模拟与北京市实时出租车数据慢行事件的空间分布变化检测研究,并得到了相应空间对象的分布变化趋势,揭示了相关的知识和规律。
基于深度学习的舰船目标识别算法研究
作者: 刘莹` , 向超
由于我国周边的海洋面积十分辽阔,未经许可的各国各类船只侵入我国领海的现象时有发生。因此,自动地识别海面近距离的舰船的类型以及型号不仅在军事领域有重要用途,在民用海事安全监测等方面也有重要意义。然而,由于各类不同级别、不同型号的舰船的样本量很少,已有的基于深度学习的网络模型无法训练出高质量的模型。另外,海面侧拍的舰船的背景比较复杂,噪声严重。本文提出了一种能借助无标签的舰船图片来增强模型识别能力的深度神经网;提出了精确迁移学习框架(ATL)——精确地复用预训练神经网络模型来改善模型对舰船特征提取的效果;并且,提出了借助舰船背景图像来增强舰船识别模型的抗噪能力的方法。算法在我国各种型号的军舰图片数据库中得到了较好的实验结果。
了解详情>>
由于我国周边的海洋面积十分辽阔,未经许可的各国各类船只侵入我国领海的现象时有发生。因此,自动地识别海面近距离的舰船的类型以及型号不仅在军事领域有重要用途,在民用海事安全监测等方面也有重要意义。然而,由于各类不同级别、不同型号的舰船的样本量很少,已有的基于深度学习的网络模型无法训练出高质量的模型。另外,海面侧拍的舰船的背景比较复杂,噪声严重。本文提出了一种能借助无标签的舰船图片来增强模型识别能力的深度神经网;提出了精确迁移学习框架(ATL)——精确地复用预训练神经网络模型来改善模型对舰船特征提取的效果;并且,提出了借助舰船背景图像来增强舰船识别模型的抗噪能力的方法。算法在我国各种型号的军舰图片数据库中得到了较好的实验结果。
从地球科学数据共享到知识服务
作者: 诸云强
地球科学数据的共享和传播,是充分发挥、体现数据的价值和效益的前提。国家地球系统科学数据共享服务平台建立了完整的共享标准体系、解决了多项关键技术,从而为多源、分散的地球科学数据提供了长效的整合共享机制。数据出版提供了一种新的数据共享方式,能够有效保护数据作者的知识产权。在地球数据共享支撑下,现代地学研究进入“数据密集型”的第四科研范式,利用海量地学数据,通过挖掘分析、模拟预测等手段寻找、发现数据背后隐含的科学规律和问题。在第四科研范式下,集成的知识服务环境即科研信息化环境(e-Science)成为必需。e-Science将促进现代科学研究范式的变革,推动知识的发现,提升研究的效率和水平。
了解详情>>
地球科学数据的共享和传播,是充分发挥、体现数据的价值和效益的前提。国家地球系统科学数据共享服务平台建立了完整的共享标准体系、解决了多项关键技术,从而为多源、分散的地球科学数据提供了长效的整合共享机制。数据出版提供了一种新的数据共享方式,能够有效保护数据作者的知识产权。在地球数据共享支撑下,现代地学研究进入“数据密集型”的第四科研范式,利用海量地学数据,通过挖掘分析、模拟预测等手段寻找、发现数据背后隐含的科学规律和问题。在第四科研范式下,集成的知识服务环境即科研信息化环境(e-Science)成为必需。e-Science将促进现代科学研究范式的变革,推动知识的发现,提升研究的效率和水平。
科技基础性工作数据资料集成与规范化整编
作者: 诸云强
科技基础性工作的本质目标是将通过考察、观测、探测、监测、调查、试验、实验以及编撰等方式采(收)集和整理的科学数据、种质资源、科学标本、资料信息等进行广泛的传播和共享利用,满足科学研究与技术开发的基本需求。但由于其数据资料没有得到有效的集成与规范化整编,极大影响了其本质目标的实现。为了解决该问题,首先制定了系列管理规范与技术标准对数据汇交的组织管理方式、汇交内容及流程、数据管理与共享服务等进行了详细说明。基于此,开展了数据资料的汇交工作。其次,提出了基于本体的数据集成与规范化整编方法,对数据资料进行了跨项目、跨领域的融合加工。本项研究对基础性工作数据资料的广泛共享和有效利用,基础性工作数据资料的价值的提升有极大的促进作用。
了解详情>>
科技基础性工作的本质目标是将通过考察、观测、探测、监测、调查、试验、实验以及编撰等方式采(收)集和整理的科学数据、种质资源、科学标本、资料信息等进行广泛的传播和共享利用,满足科学研究与技术开发的基本需求。但由于其数据资料没有得到有效的集成与规范化整编,极大影响了其本质目标的实现。为了解决该问题,首先制定了系列管理规范与技术标准对数据汇交的组织管理方式、汇交内容及流程、数据管理与共享服务等进行了详细说明。基于此,开展了数据资料的汇交工作。其次,提出了基于本体的数据集成与规范化整编方法,对数据资料进行了跨项目、跨领域的融合加工。本项研究对基础性工作数据资料的广泛共享和有效利用,基础性工作数据资料的价值的提升有极大的促进作用。
大数据下的星团性质研究
作者: 钟靖 , 陈力
疏散星团具有空间分布广,年龄、质量范围宽等特点,易于作为统计学探针来研究银河系结构和演化。但是,由于疏散星团主要分布在银盘上,消光和背景场星的污染十分严重,星团成员星的确定相对比较困难。在大数据时代,为了对星团性质有更为准确的测量,我们综合了包括UCAC5,2MASS,LAMOST等多种测光和光谱巡天数据来确定成员星,对太阳领域20个星团的基本性质进行了细致的分析和讨论,为进一步以星团为探针研究银河系的统计性质提供了数据支持。
了解详情>>
疏散星团具有空间分布广,年龄、质量范围宽等特点,易于作为统计学探针来研究银河系结构和演化。但是,由于疏散星团主要分布在银盘上,消光和背景场星的污染十分严重,星团成员星的确定相对比较困难。在大数据时代,为了对星团性质有更为准确的测量,我们综合了包括UCAC5,2MASS,LAMOST等多种测光和光谱巡天数据来确定成员星,对太阳领域20个星团的基本性质进行了细致的分析和讨论,为进一步以星团为探针研究银河系的统计性质提供了数据支持。
基于基因算法的星团基本参数测定方法
作者: 武振宇
星团是天文学研究的重点对象之一,它是一团具有相近性质的恒星的集合体。因为星团内的恒星具有相同的距离,金属丰度,年龄等基本参数,因此由多颗恒星得到的星团的参数的精确度是很高的。求解星团的参数主要通过将观测数据与理论模型进行比较,将与观测结果最为接近的理论模型参数作为被研究星团的基本参数。但是在实际应用中,理论模型给出的参数空间的分辨率都很粗糙,致使得到的星团参数有很大的不确定性。本文主要是将理论模型参数空间细分,尽量减少理论模型分辨率不够的缺陷,同时利用基因算法找到与观测数据最为接近的理论模型。文中详细介绍了基因算法的具体应用和调试过程,结合实验星团说明了该方法的有效性,同时以疏散星团M48为例进行了实际应用,并与其他结果进行了比较。
了解详情>>
星团是天文学研究的重点对象之一,它是一团具有相近性质的恒星的集合体。因为星团内的恒星具有相同的距离,金属丰度,年龄等基本参数,因此由多颗恒星得到的星团的参数的精确度是很高的。求解星团的参数主要通过将观测数据与理论模型进行比较,将与观测结果最为接近的理论模型参数作为被研究星团的基本参数。但是在实际应用中,理论模型给出的参数空间的分辨率都很粗糙,致使得到的星团参数有很大的不确定性。本文主要是将理论模型参数空间细分,尽量减少理论模型分辨率不够的缺陷,同时利用基因算法找到与观测数据最为接近的理论模型。文中详细介绍了基因算法的具体应用和调试过程,结合实验星团说明了该方法的有效性,同时以疏散星团M48为例进行了实际应用,并与其他结果进行了比较。
多源数据融合管理-以基金委大数据为例
作者: 杜一
随着科学研究问题的空前复杂化,越来越多的科学研究问题需要用到多来源、多方面和多样的数据来解决,以大跨度、深层次的综合性为特征的系统性研究、跨学科研究成为新的学科增长点和前沿科学领域。这也就意味着数据不融合就发挥不出大数据的大价值。如同人类有许多种自然语言一样,数据难免有多种格式,即使是关于相同类型对象的数据,由于其来源的不同,在内容结构上也可能是千差万别的,可能是结构化的,也可能是半结构化和非结构化的,即使都是结构化的,其所采用的数据模型也可能是不一致的。挑战主要来自两个方面:一是尚缺乏成熟、通用的海量异构数据融合管理技术;二是如果是由科研人员个体来完成这些数据的融合管理,所需要耗费掉的时间和精力对于科研人员来说是难以承受的。多源异构数据的融合管理,其核心问题在于融合表达模型。本次报告将以“国家自然科学基金大数据知识管理服务平台”项目为例,介绍多源数据融合管理机器实践。
了解详情>>
随着科学研究问题的空前复杂化,越来越多的科学研究问题需要用到多来源、多方面和多样的数据来解决,以大跨度、深层次的综合性为特征的系统性研究、跨学科研究成为新的学科增长点和前沿科学领域。这也就意味着数据不融合就发挥不出大数据的大价值。如同人类有许多种自然语言一样,数据难免有多种格式,即使是关于相同类型对象的数据,由于其来源的不同,在内容结构上也可能是千差万别的,可能是结构化的,也可能是半结构化和非结构化的,即使都是结构化的,其所采用的数据模型也可能是不一致的。挑战主要来自两个方面:一是尚缺乏成熟、通用的海量异构数据融合管理技术;二是如果是由科研人员个体来完成这些数据的融合管理,所需要耗费掉的时间和精力对于科研人员来说是难以承受的。多源异构数据的融合管理,其核心问题在于融合表达模型。本次报告将以“国家自然科学基金大数据知识管理服务平台”项目为例,介绍多源数据融合管理机器实践。
生物组学大数据归档平台
作者: 王彦青 , 朱军伟 , 陈婷婷 , 张思思 , 陈旭 , 赵文明
为缓解当前中国生命组学数据汇交、存储与共享难的问题,中国科学院北京基因组研究所生命与健康大数据中心建立的组学原始数据归档库Genome Sequence Archive(GSA,http://bigd.big.ac.cn/gsa)。GSA遵循国际核苷酸序列数据联盟(INSDC)相关数据库建设标准,广泛收集各类生命组学数据。自2015年上线运行以来,获得包括Cell、Nature、PNAS、AJHG、GPB在内的30余个国内外期刊的认可,支持40余篇科研论文的数据归档与发布任务。截止2018年7月,GSA接收的数据来自国内外93个机构的309余名科研用户,累计递交项目信息达685个,涵盖的生物物种数量超过150个,涉及的生物学样本41,662个,生物学实验28,039个,测序反应30,580个,测序序列数据总量超过515TB,且各类数据呈现显著增长的趋势。同时,GSA系统收录的数据受到国内外科研人员的广泛关注,经统计发现,GSA系统访问用户来自于70余个国家/地区,累计访问量超过15,453人次。数据下载用户来自39个国家/地区,月平均下载量超过5 TB。
了解详情>>
为缓解当前中国生命组学数据汇交、存储与共享难的问题,中国科学院北京基因组研究所生命与健康大数据中心建立的组学原始数据归档库Genome Sequence Archive(GSA,http://bigd.big.ac.cn/gsa)。GSA遵循国际核苷酸序列数据联盟(INSDC)相关数据库建设标准,广泛收集各类生命组学数据。自2015年上线运行以来,获得包括Cell、Nature、PNAS、AJHG、GPB在内的30余个国内外期刊的认可,支持40余篇科研论文的数据归档与发布任务。截止2018年7月,GSA接收的数据来自国内外93个机构的309余名科研用户,累计递交项目信息达685个,涵盖的生物物种数量超过150个,涉及的生物学样本41,662个,生物学实验28,039个,测序反应30,580个,测序序列数据总量超过515TB,且各类数据呈现显著增长的趋势。同时,GSA系统收录的数据受到国内外科研人员的广泛关注,经统计发现,GSA系统访问用户来自于70余个国家/地区,累计访问量超过15,453人次。数据下载用户来自39个国家/地区,月平均下载量超过5 TB。
慧眼-HXMT在轨运行与科学应用简介
作者: 宋黎明 , 聂建胤
慧眼-HXMT卫星是我国的第一颗X射线天文卫星,自2017年6月发射以来进行了1000多次的观测,产生约5TB的原始观测数据,提供给用户的一级数据产品约20TB,到目前为止所有的观测数据产品(原始数据、中间数据和一级数据产品)共约100TB。 本报告将简单介绍慧眼-HXMT卫星的在轨运行情况和观测计划的实施情况,同时介绍在数据处理过程中的计算能力需求、存储需求、数据开放政策等方面的问题。 根据近期我单位空间项目的发展,本报告将介绍后续空间探测项目的情况,以及相应的计算能力、存储能力和模拟能力的要求。
了解详情>>
慧眼-HXMT卫星是我国的第一颗X射线天文卫星,自2017年6月发射以来进行了1000多次的观测,产生约5TB的原始观测数据,提供给用户的一级数据产品约20TB,到目前为止所有的观测数据产品(原始数据、中间数据和一级数据产品)共约100TB。 本报告将简单介绍慧眼-HXMT卫星的在轨运行情况和观测计划的实施情况,同时介绍在数据处理过程中的计算能力需求、存储需求、数据开放政策等方面的问题。 根据近期我单位空间项目的发展,本报告将介绍后续空间探测项目的情况,以及相应的计算能力、存储能力和模拟能力的要求。
GPU加速的引力波数据处理
作者: 都志辉
引力波的发现为人类认识宇宙打开了一扇全新的窗口。本报告首先介绍如何利用GPU并行计算技术为这一重大科学发现提供计算支持。主要内容包括两部分:一是如何大幅度提高引力波数据的处理速度,最终实现了120多倍的性能提升,为实时引力波数据处理提供了保障。二是如何利用大规模并行仿真为引力波模板匹配提供大量准确的波形。通过国内、国际合作,在GPU集群上实现了一个对双黑洞仿真引力波建模程序的性能优化,总体性能提高5倍以上。在此基础上给出了性能优化的3A原则。
了解详情>>
引力波的发现为人类认识宇宙打开了一扇全新的窗口。本报告首先介绍如何利用GPU并行计算技术为这一重大科学发现提供计算支持。主要内容包括两部分:一是如何大幅度提高引力波数据的处理速度,最终实现了120多倍的性能提升,为实时引力波数据处理提供了保障。二是如何利用大规模并行仿真为引力波模板匹配提供大量准确的波形。通过国内、国际合作,在GPU集群上实现了一个对双黑洞仿真引力波建模程序的性能优化,总体性能提高5倍以上。在此基础上给出了性能优化的3A原则。
深度学习在高能物理中的应用
作者: 程耀东
深度学习是大数据时代一种非常成功的机器学习算法。高能物理是典型的数据密集型科学计算,拥有丰富的数据资源和诸多应用需求,面临着巨大的数据处理挑战。早在上世纪90年代,高能物理学家就开始使用神经网络来处理数据,2014年以来深度学习技术被广泛应用于粒子鉴别、事例分类、事例重建、异常检测等多个场景。本报告首先介绍深度学习算法的基本原理及其在高能物理计算中应用的主要动机。然后结合实例综述卷积神经网络、递归神经网络和对抗生成网络等深度学习算法模型的应用。最后,将介绍深度学习与现有高能物理计算环境结合的现状、问题及一些思考。
了解详情>>
深度学习是大数据时代一种非常成功的机器学习算法。高能物理是典型的数据密集型科学计算,拥有丰富的数据资源和诸多应用需求,面临着巨大的数据处理挑战。早在上世纪90年代,高能物理学家就开始使用神经网络来处理数据,2014年以来深度学习技术被广泛应用于粒子鉴别、事例分类、事例重建、异常检测等多个场景。本报告首先介绍深度学习算法的基本原理及其在高能物理计算中应用的主要动机。然后结合实例综述卷积神经网络、递归神经网络和对抗生成网络等深度学习算法模型的应用。最后,将介绍深度学习与现有高能物理计算环境结合的现状、问题及一些思考。
智能时代的天文学
作者: 张彦霞
随着各种大型巡天项目的层出不群,获得了比以往大的多的天文数据。天文学步入“全波段-多信使-大数据-多时域时代”。如何处理、下载、存档、管理、迁移、分析、挖掘和可视化这些数据都是摆在天文学家面前不得不面对的课题。机器学习和人工智能成为当今大数据的主旋律,在天文领域发挥着越来越重要的作用。天文学也由此迸发出勃勃生机,呈现出新的面貌。天文观测越来越趋于自动化,处理和分析越来越流程化,分类和回归任务逐渐工具化,开始实现近数据的在线分析和计算等等。以几个大型巡天项目为例阐述天文大数据的特征,以及天文学面临的机遇与挑战。介绍几个机器学习和人工智能的应用实例。指出未来天文大数据的发展方向。
了解详情>>
随着各种大型巡天项目的层出不群,获得了比以往大的多的天文数据。天文学步入“全波段-多信使-大数据-多时域时代”。如何处理、下载、存档、管理、迁移、分析、挖掘和可视化这些数据都是摆在天文学家面前不得不面对的课题。机器学习和人工智能成为当今大数据的主旋律,在天文领域发挥着越来越重要的作用。天文学也由此迸发出勃勃生机,呈现出新的面貌。天文观测越来越趋于自动化,处理和分析越来越流程化,分类和回归任务逐渐工具化,开始实现近数据的在线分析和计算等等。以几个大型巡天项目为例阐述天文大数据的特征,以及天文学面临的机遇与挑战。介绍几个机器学习和人工智能的应用实例。指出未来天文大数据的发展方向。
基于人工智能的生态大数据应用
作者: 邓广 , 张旭
随着信息时代的兴起和全球化带来的大数据的出现,生态学家、林学家现在要面对各个领域不断涌现的海量数据集,同时也要面对社会对生态科学不断升级的需求。生态科学数据已经不是传统的实验或野外记录的数字化,而是系统、量化地大数据集积累方式。生态大数据是海量数据,是常规传统数据处理工具不容易处理的,需要通过数据密集型方法进行资源管理和分布式处理。生态学家需要采用人工智能等新型技术来应对大数据和科学社会提出的应用挑战。本文显示介绍近年发展的全球生物多样性信息设施、生态科学数据到生态大数据的转化情况;然后快速地综述一下云计算、大数据及人工智能等信息技术的最新进展;然后比较详细地讲述几个基于人工智能的生态大数据应用的案例。 偷猎是造成大型野生动物种群急剧下降的主要驱动因素之一,大型国家公园人类巡逻是保护濒危动物的最直接形式,保护机构的巡逻资源有限;美国南加州大学利用人工智能和博弈论解决全球偷猎,非法采伐,主要技术思路是使用过去的巡逻数据和偷猎证据,随着系统接收到更多的数据,它“学习”并改进其巡逻计划。世界上估计每年砍伐46-58,000平方英里的森林,按照目前的森林砍伐速度,据国家地理杂志报道,世界上的热带雨林可能在短短100年内就会消失。世界资源研究所启动了一个名为“全球森林观察”的网站,以提供关于全球森林状况的最新信息。但是,该网站只能反映事后报告森林砍伐。现在,有创业公司正在努力用人工智能和海量卫星数据来实时防治森林破坏,即及时阻止森林破坏,以在造成不可逆转的伤害之前发现森林砍伐风险。加拿大每年大约有250万公顷的土地被森林大火烧毁,阿尔伯特大学的火灾科学家在计算机平台上读取压力图,并将最新的大气数据与53年的数据所获得的数据进行比较,利用人工智能技术制作了一张自组织地图,用于识别压力波峰和波谷中的模式,以预测一段时间内的极端火灾天气。 论文也提供一个我们自己的研究案例,我们采用传统的样地数据,结合长时间序列气象数据、遥感数据,通过基于过程的生长模型来预测未来气候变化条件下落叶松人工林的生长和碳储量等情况,从而为采取何种森林经营措施提供建议。在此基础上,论文最后将对人工智能技术与生态大数据的融合提出一些展望。
了解详情>>
随着信息时代的兴起和全球化带来的大数据的出现,生态学家、林学家现在要面对各个领域不断涌现的海量数据集,同时也要面对社会对生态科学不断升级的需求。生态科学数据已经不是传统的实验或野外记录的数字化,而是系统、量化地大数据集积累方式。生态大数据是海量数据,是常规传统数据处理工具不容易处理的,需要通过数据密集型方法进行资源管理和分布式处理。生态学家需要采用人工智能等新型技术来应对大数据和科学社会提出的应用挑战。本文显示介绍近年发展的全球生物多样性信息设施、生态科学数据到生态大数据的转化情况;然后快速地综述一下云计算、大数据及人工智能等信息技术的最新进展;然后比较详细地讲述几个基于人工智能的生态大数据应用的案例。 偷猎是造成大型野生动物种群急剧下降的主要驱动因素之一,大型国家公园人类巡逻是保护濒危动物的最直接形式,保护机构的巡逻资源有限;美国南加州大学利用人工智能和博弈论解决全球偷猎,非法采伐,主要技术思路是使用过去的巡逻数据和偷猎证据,随着系统接收到更多的数据,它“学习”并改进其巡逻计划。世界上估计每年砍伐46-58,000平方英里的森林,按照目前的森林砍伐速度,据国家地理杂志报道,世界上的热带雨林可能在短短100年内就会消失。世界资源研究所启动了一个名为“全球森林观察”的网站,以提供关于全球森林状况的最新信息。但是,该网站只能反映事后报告森林砍伐。现在,有创业公司正在努力用人工智能和海量卫星数据来实时防治森林破坏,即及时阻止森林破坏,以在造成不可逆转的伤害之前发现森林砍伐风险。加拿大每年大约有250万公顷的土地被森林大火烧毁,阿尔伯特大学的火灾科学家在计算机平台上读取压力图,并将最新的大气数据与53年的数据所获得的数据进行比较,利用人工智能技术制作了一张自组织地图,用于识别压力波峰和波谷中的模式,以预测一段时间内的极端火灾天气。 论文也提供一个我们自己的研究案例,我们采用传统的样地数据,结合长时间序列气象数据、遥感数据,通过基于过程的生长模型来预测未来气候变化条件下落叶松人工林的生长和碳储量等情况,从而为采取何种森林经营措施提供建议。在此基础上,论文最后将对人工智能技术与生态大数据的融合提出一些展望。
中国太阳黑子数字化资料及其部分统计结果
作者: 林钢华
太阳黑子是太阳表面最显著的观测特征, 是太阳磁活动最直接的反映,太阳活动周形成机制是太阳物理三大未解之谜。因此利用黑子观测资料研究太阳黑子的演化, 不但对于研究太阳对全球气候以及空间环境等所产生的影响具有重大的意义,而且对于研究太阳的长期演化以及预测太阳长周期行为具有重大意义。我们项目组通过对我国手绘太阳黑子资料中物理信息的自动识别、相关物理参数的自动计算、物理信息的人工核对等工作,完成了我国自1925年以来6个太阳活动周43,811张手绘黑子图的数字化工作并获得了2,342,226条有效黑子物理参数信息。这项研究工作保护了这一珍稀历史资料,填补了全球在中国广袤经纬度范围可用黑子观测数字资料的空白,为太阳磁活动研究等都做出了不可替代的贡献。
了解详情>>
太阳黑子是太阳表面最显著的观测特征, 是太阳磁活动最直接的反映,太阳活动周形成机制是太阳物理三大未解之谜。因此利用黑子观测资料研究太阳黑子的演化, 不但对于研究太阳对全球气候以及空间环境等所产生的影响具有重大的意义,而且对于研究太阳的长期演化以及预测太阳长周期行为具有重大意义。我们项目组通过对我国手绘太阳黑子资料中物理信息的自动识别、相关物理参数的自动计算、物理信息的人工核对等工作,完成了我国自1925年以来6个太阳活动周43,811张手绘黑子图的数字化工作并获得了2,342,226条有效黑子物理参数信息。这项研究工作保护了这一珍稀历史资料,填补了全球在中国广袤经纬度范围可用黑子观测数字资料的空白,为太阳磁活动研究等都做出了不可替代的贡献。
数据出版中的数据质量评价
作者: 孔丽华
数据驱动的知识发现已成为继实验、理论、计算模拟之后的第四种科学研究范式。基于开放科学的科研诚信、验证与再现对于实验原始数据的开放共享提出越来越高的要求。本文对数据出版中对于数据质量的评价进行分析和框架体系设计,实现数据的可获取、可理解、可评估以及可重用。
了解详情>>
数据驱动的知识发现已成为继实验、理论、计算模拟之后的第四种科学研究范式。基于开放科学的科研诚信、验证与再现对于实验原始数据的开放共享提出越来越高的要求。本文对数据出版中对于数据质量的评价进行分析和框架体系设计,实现数据的可获取、可理解、可评估以及可重用。
面向开放科研框架的人文社科领域开放获取平台建设:出版界的实践与反思
作者: 余漫
随着科研投入的增加,我国的科研成果呈现井喷式增长;另一方面,开放获取、开放数据以及开放创新机制在科学界已经得到了认可,开放科学框架(Open Science Framework)这类生态系统式科研框架已经拓展到任何学科研究领域了。伴随链接开放数据(Linked Open Data)和用户生成内容的规模激增,互联网上散落了越来越多的知识元数据。如何整合资源、提高学术成果利用效率、加强成果的国际传播,进而达到“加快建设社会主义文化强国、增强文化软实力、提高我国在国际上的话语权”的目标,是当前学术机构、学者以及出版传播机构所共同面临的重点和难点。构建学术话语权是一个系统问题,涉及作者的科研规范到信息化的数字出版传播的全过程,从这个意义上来说,学术出版在中国学术话语权体系构建中具有重要的位置。考虑到国内在学术研究和成果传播所包含的科研过程、著作过程、评审过程、编校过程、数字加工过程、平台和数据库建设过程、数字化传播过程等方面和国际出版机构还存在一定的差距,通过加强与国际学术出版规范标准对接的建设过程,实际上为提升我国学术话语权提供了新的机遇。 目前,学术出版界应对诸如审稿周期长、资源共享与搜索资源优化效果差等的问题,除了采取预出版或开放存取出版模式等国际通用形式之外,同时也正在采用谷歌、Research Gate等第三方平台服务提供的直接技术支持或成果传播阶段可能遇到的复杂版权的赋权支持;通过与国际知名的学术出版/预出版平台实现资源共享和一站检索,以及对多语言和跨平台进行原生支持,或支持国际通行的数字传输协议,以实现对亚马逊、公立和大学图书馆等机构的数据自动传输等具体方案;而在精准智能检索向学者提供快速查找等知识服务的建设目标下,如何通过标引、注解或数据加工等对科研数据集进行结构化处理,也已经在国际知名出版机构——以文章连带科研过程数据一同出版的方式取得了成功的案例。尽管如此,我国在开放科学领域的发展和实践依然落后于国际同行,尤其是社会科学学科。因此有必要通过对国际或国内使用开放获取平台促进学科发展的学科的成功案例进行分析与借鉴,从数据源的加工、学术评价标准制定、提高学术成果可获得性等方面,提炼出能够提升我国科研成果整体质量和学术话语权的可行模式。
了解详情>>
随着科研投入的增加,我国的科研成果呈现井喷式增长;另一方面,开放获取、开放数据以及开放创新机制在科学界已经得到了认可,开放科学框架(Open Science Framework)这类生态系统式科研框架已经拓展到任何学科研究领域了。伴随链接开放数据(Linked Open Data)和用户生成内容的规模激增,互联网上散落了越来越多的知识元数据。如何整合资源、提高学术成果利用效率、加强成果的国际传播,进而达到“加快建设社会主义文化强国、增强文化软实力、提高我国在国际上的话语权”的目标,是当前学术机构、学者以及出版传播机构所共同面临的重点和难点。构建学术话语权是一个系统问题,涉及作者的科研规范到信息化的数字出版传播的全过程,从这个意义上来说,学术出版在中国学术话语权体系构建中具有重要的位置。考虑到国内在学术研究和成果传播所包含的科研过程、著作过程、评审过程、编校过程、数字加工过程、平台和数据库建设过程、数字化传播过程等方面和国际出版机构还存在一定的差距,通过加强与国际学术出版规范标准对接的建设过程,实际上为提升我国学术话语权提供了新的机遇。 目前,学术出版界应对诸如审稿周期长、资源共享与搜索资源优化效果差等的问题,除了采取预出版或开放存取出版模式等国际通用形式之外,同时也正在采用谷歌、Research Gate等第三方平台服务提供的直接技术支持或成果传播阶段可能遇到的复杂版权的赋权支持;通过与国际知名的学术出版/预出版平台实现资源共享和一站检索,以及对多语言和跨平台进行原生支持,或支持国际通行的数字传输协议,以实现对亚马逊、公立和大学图书馆等机构的数据自动传输等具体方案;而在精准智能检索向学者提供快速查找等知识服务的建设目标下,如何通过标引、注解或数据加工等对科研数据集进行结构化处理,也已经在国际知名出版机构——以文章连带科研过程数据一同出版的方式取得了成功的案例。尽管如此,我国在开放科学领域的发展和实践依然落后于国际同行,尤其是社会科学学科。因此有必要通过对国际或国内使用开放获取平台促进学科发展的学科的成功案例进行分析与借鉴,从数据源的加工、学术评价标准制定、提高学术成果可获得性等方面,提炼出能够提升我国科研成果整体质量和学术话语权的可行模式。
国内科学数据共享的若干挑战与实践——以寒旱区科学数据中心为例
作者: 南卓铜 , 张耀南 , 李红星 , 吴立宗 , 王亮绪 , 李新
近年来国内科学数据共享得到长足发展:大至国家层面科技数据共享被写入政策和法规,小至个人层面共享的观念已经渐入入心。国内建设了不同层次面向不同学科的科学数据中心,实现了主要的数据发布和共享功能。这些系统通过元数据或数据文档对数据加以描述,向用户提供在线或离线申请等手段访问和下载数据,用户体验越来越好。然而在实践中,数据中心仍然面临不少的挑战。首先,科学数据服务于科学研究,数据质量至关重要,数据中心如何把控和提升数据质量,并在传播过程中加以溯源,保证数据权威性,是值得关注的问题;其次,尽管科学数据多是财政投入的结果,科学数据是有版权的,共享传播过程的不可控和数据作者权益保护是数据中心需要正视的问题;第三,数据共享成效是数据中心考核评估的重要内容,数据共享成效除了下载量、用户数量等简单指标,还应当包括使用了数据的文献发表、项目申请和人才培养等内容,但因为数据用户往往不主动反馈,数据中心无法得到全面的数据共享成效;最后,科学数据尤其是观测和实验数据,具备大数据的特点,传统人工干预的数据处理和入库流程已经不能满足大数据快速处理的需求。 本文结合寒旱区科学数据中心(http://westdc.westgis.ac.cn/)的实践,介绍针对这些问题的一些措施:a)通过同行评议、唯一标识符、联合传统期刊的数据出版等手段提升和把控数据质量;b)发展数据作者参与的数据申请审核机制;c)通过建立数据服务团队开展主动式数据服务和成效追踪;d) 建立野外观测台站—数据中心的多层分布式全自动质控、入库、元数据生成和数据发布的技术体系。
了解详情>>
近年来国内科学数据共享得到长足发展:大至国家层面科技数据共享被写入政策和法规,小至个人层面共享的观念已经渐入入心。国内建设了不同层次面向不同学科的科学数据中心,实现了主要的数据发布和共享功能。这些系统通过元数据或数据文档对数据加以描述,向用户提供在线或离线申请等手段访问和下载数据,用户体验越来越好。然而在实践中,数据中心仍然面临不少的挑战。首先,科学数据服务于科学研究,数据质量至关重要,数据中心如何把控和提升数据质量,并在传播过程中加以溯源,保证数据权威性,是值得关注的问题;其次,尽管科学数据多是财政投入的结果,科学数据是有版权的,共享传播过程的不可控和数据作者权益保护是数据中心需要正视的问题;第三,数据共享成效是数据中心考核评估的重要内容,数据共享成效除了下载量、用户数量等简单指标,还应当包括使用了数据的文献发表、项目申请和人才培养等内容,但因为数据用户往往不主动反馈,数据中心无法得到全面的数据共享成效;最后,科学数据尤其是观测和实验数据,具备大数据的特点,传统人工干预的数据处理和入库流程已经不能满足大数据快速处理的需求。 本文结合寒旱区科学数据中心(http://westdc.westgis.ac.cn/)的实践,介绍针对这些问题的一些措施:a)通过同行评议、唯一标识符、联合传统期刊的数据出版等手段提升和把控数据质量;b)发展数据作者参与的数据申请审核机制;c)通过建立数据服务团队开展主动式数据服务和成效追踪;d) 建立野外观测台站—数据中心的多层分布式全自动质控、入库、元数据生成和数据发布的技术体系。
新型星族合成研究进展
作者: 李忠木 , 毛彩艳
新型星族合成是全面考虑了双星和转动恒星等各类恒星的星族合成研究体系。比起传统星族合成,它具有更接近真实天体、能够更准确地研究更多观测现象的特点。我们将介绍新型星族合成的形成以及近年的研究进展。特别是,报告将展示双星和转动恒星对星族合成研究的重要影响,如何利用新型星族合成对星系和星团等天体的特殊观测现象进行解释、对其重要参数进行测定。报告还将介绍两个新型星族合成研究的软件,帮助科学家们便捷地使用我们的模型开展工作。
了解详情>>
新型星族合成是全面考虑了双星和转动恒星等各类恒星的星族合成研究体系。比起传统星族合成,它具有更接近真实天体、能够更准确地研究更多观测现象的特点。我们将介绍新型星族合成的形成以及近年的研究进展。特别是,报告将展示双星和转动恒星对星族合成研究的重要影响,如何利用新型星族合成对星系和星团等天体的特殊观测现象进行解释、对其重要参数进行测定。报告还将介绍两个新型星族合成研究的软件,帮助科学家们便捷地使用我们的模型开展工作。
任务驱动社交网络数据挖掘
作者: 宣琦
Recently, a number of cloud platforms emerge from the Internet, such as open-source software projects, eletronic commerce, Q&A website, Wikipedia, and so on. The users on these platforms are virtually organized to accomplish various tasks efficiently and flexibly. These platforms thus provide rich datasets, which not only can be used to describe social network topologies, but also can record technical contributions of individuals and teams, enabling us to track the structures of teams and quality of products. In this talk I will introduce the concept of a task-oriented social network, which provides a unified theoretical framework to study various social and technical datasets collected from cloud platforms. In particular, I will introduce several methods for ana-lyzing the constructed layered and temporal networks in a systematic way: abstracting network structure from the data, mining the patterns of individual and team behaviors, and constructing models between behavioral patterns and performance indexes for both individuals and teams. Moreover, I will introduce the combination of the network model and machine learning methods for predicting the evolution of complex networks and design expert recommender systems.
了解详情>>
Recently, a number of cloud platforms emerge from the Internet, such as open-source software projects, eletronic commerce, Q&A website, Wikipedia, and so on. The users on these platforms are virtually organized to accomplish various tasks efficiently and flexibly. These platforms thus provide rich datasets, which not only can be used to describe social network topologies, but also can record technical contributions of individuals and teams, enabling us to track the structures of teams and quality of products. In this talk I will introduce the concept of a task-oriented social network, which provides a unified theoretical framework to study various social and technical datasets collected from cloud platforms. In particular, I will introduce several methods for ana-lyzing the constructed layered and temporal networks in a systematic way: abstracting network structure from the data, mining the patterns of individual and team behaviors, and constructing models between behavioral patterns and performance indexes for both individuals and teams. Moreover, I will introduce the combination of the network model and machine learning methods for predicting the evolution of complex networks and design expert recommender systems.
数字地质资料馆与地质数据精准管理
作者: 齐钒宇 , 吴轩 , 商云涛 , 孔昭煜
数字地质资料馆是以数字化地质资料为主体进行管理并向用户提供地质信息资源服务与数据应用服务的地质资料现代化管理与服务体系。在传统地质资料馆藏机构基础之上,以数字化地质资料电子数据资源为主要对象,兼顾实体资料库房管理,在元数据与数据集一体化管理信息系统的支撑下,通过在线服务系统和电子阅研室的集成式数字化业务工作平台向用户提供地质专业的信息资源服务与数据应用服务。随着信息技术的发展,传统以纸质资料为管理对象的资料馆越来越难满足社会的需求,也无法提供地质资料数据的精准化管理。2013年,全国地质资料馆开始建设数字地质资料馆,截至目前,全国地质资料馆数字地质资料馆已全面上线并平稳运行。数字地质资料馆服务系统,可提取所需地质资料的元数据信息,为地质资料用户提供全方位多元化服务,提供地质资料数据的精准化管理,进一步提升了地质资料信息管理与服务能力,进而推进了地质资料信息服务产业发展。信息时代背景下,地质资料正经历由传统资质资料为核心转变为以电子地质资料为主的时代。对地质资料电子数据的管理与服务需要引入更多计算机领域、信息领域的先进技术。数字地质资料馆的建立,对地质资料电子数据的管理与服务产生质的变化。
了解详情>>
数字地质资料馆是以数字化地质资料为主体进行管理并向用户提供地质信息资源服务与数据应用服务的地质资料现代化管理与服务体系。在传统地质资料馆藏机构基础之上,以数字化地质资料电子数据资源为主要对象,兼顾实体资料库房管理,在元数据与数据集一体化管理信息系统的支撑下,通过在线服务系统和电子阅研室的集成式数字化业务工作平台向用户提供地质专业的信息资源服务与数据应用服务。随着信息技术的发展,传统以纸质资料为管理对象的资料馆越来越难满足社会的需求,也无法提供地质资料数据的精准化管理。2013年,全国地质资料馆开始建设数字地质资料馆,截至目前,全国地质资料馆数字地质资料馆已全面上线并平稳运行。数字地质资料馆服务系统,可提取所需地质资料的元数据信息,为地质资料用户提供全方位多元化服务,提供地质资料数据的精准化管理,进一步提升了地质资料信息管理与服务能力,进而推进了地质资料信息服务产业发展。信息时代背景下,地质资料正经历由传统资质资料为核心转变为以电子地质资料为主的时代。对地质资料电子数据的管理与服务需要引入更多计算机领域、信息领域的先进技术。数字地质资料馆的建立,对地质资料电子数据的管理与服务产生质的变化。
《地球大数据(Big Earth Data)》的创刊与发展
作者: 王长林
随着地球科学认知与知识发现的各种获取大数据的方法和技术的不断进步,应对大数据挑战的处理和解决方案在不断地探索之中,各地学领域的数据集在不断地井喷式地产出。 与地球科学相关的地球大数据,正在成为地球科学和信息科学交叉的新领域,成为认识地球的新钥匙和知识发现的新引擎,并将成为地球科学研究创新与持续发展的驱动力。 国际数字地球学会在其成功出版《国际数字地球学报》的基础上,联合中国科学院遥感与数字地球研究所、中国科学院战略性科技先导专项“地球大数据科学工程”、中国科技出版传媒股份有限公司、英国Taylor & Francis出版集团创刊出版《地球大数据》开放获取期刊。本报告将着重介绍该刊的创刊特点及对其其今后发展的思考。
了解详情>>
随着地球科学认知与知识发现的各种获取大数据的方法和技术的不断进步,应对大数据挑战的处理和解决方案在不断地探索之中,各地学领域的数据集在不断地井喷式地产出。 与地球科学相关的地球大数据,正在成为地球科学和信息科学交叉的新领域,成为认识地球的新钥匙和知识发现的新引擎,并将成为地球科学研究创新与持续发展的驱动力。 国际数字地球学会在其成功出版《国际数字地球学报》的基础上,联合中国科学院遥感与数字地球研究所、中国科学院战略性科技先导专项“地球大数据科学工程”、中国科技出版传媒股份有限公司、英国Taylor & Francis出版集团创刊出版《地球大数据》开放获取期刊。本报告将着重介绍该刊的创刊特点及对其其今后发展的思考。
大数据时域星表的挑战及对策
作者: 吴潮 , 魏建彦
时域天文是现代天文领域的前沿课题,与引力波、超新星、伽玛暴等极端天文现象的观测目标息息相关。现代时域天文观测正朝着大视场和高时间分辨两个技术方向发展,例如我们的地基广角相机阵就是一个代表。其视场达5000平方度,时间分辨率为15秒。折算到每秒,时域星表的数据流产生率为:4×10^5条记录/秒。这对现有的数据处理技术带来几个挑战:(1)大数据星表流在线处理技术;(2)大数据时域星表的管理技术;(3)大数据星表的快速分析技术。我们将介绍我们在数据平台的选取、星表交叉处理技术、时域光变分析技术、时域星表管理技术、基于机器学习的证认技术、以及GPU加速技术等方面所做的应对挑战的尝试和体会与各位同行分享。
了解详情>>
时域天文是现代天文领域的前沿课题,与引力波、超新星、伽玛暴等极端天文现象的观测目标息息相关。现代时域天文观测正朝着大视场和高时间分辨两个技术方向发展,例如我们的地基广角相机阵就是一个代表。其视场达5000平方度,时间分辨率为15秒。折算到每秒,时域星表的数据流产生率为:4×10^5条记录/秒。这对现有的数据处理技术带来几个挑战:(1)大数据星表流在线处理技术;(2)大数据时域星表的管理技术;(3)大数据星表的快速分析技术。我们将介绍我们在数据平台的选取、星表交叉处理技术、时域光变分析技术、时域星表管理技术、基于机器学习的证认技术、以及GPU加速技术等方面所做的应对挑战的尝试和体会与各位同行分享。
中国迁地保护植物大数据平台建设思考
作者: 胡华斌 , 张征 , 朱仁斌 , 曹志坤 , 焦阳
中国植物园联盟自2013年在北京宣告成立以来,已经开展了包括本土植物全覆盖保护、植物园建设规范、植物科学知识普及以及植物园能力建设等方面的工作。为了提升各成员单位的植物科学数据管理水平,针对植物引种、栽培、管理等环节对数据管理系统的需要,积极开展了多方面的尝试,目前已开发的PIMS(Plant Information Management System)已在20多个植物园试用。在此基础上,进一步建设中国迁地保护植物大数据平台,内容包括:1)制定数据采集、汇交、整合、质控、审编以及共享的标准体系,发展数据分析、访问检索、隐私保护等共性服务的标准与规范;2)平台结构设计,形成与生态因子、遥感等数据的规范化接口,系统搜集和整合高质量海量数据;3)面向国家生物多样性公约履约、濒危物种保护等一系列的重要应用,建立物种动态模型等分析模型;4)围绕植物信息基础数据,提供数据整合与检索服务,并在数据汇交与共享方面进行示范应用。
了解详情>>
中国植物园联盟自2013年在北京宣告成立以来,已经开展了包括本土植物全覆盖保护、植物园建设规范、植物科学知识普及以及植物园能力建设等方面的工作。为了提升各成员单位的植物科学数据管理水平,针对植物引种、栽培、管理等环节对数据管理系统的需要,积极开展了多方面的尝试,目前已开发的PIMS(Plant Information Management System)已在20多个植物园试用。在此基础上,进一步建设中国迁地保护植物大数据平台,内容包括:1)制定数据采集、汇交、整合、质控、审编以及共享的标准体系,发展数据分析、访问检索、隐私保护等共性服务的标准与规范;2)平台结构设计,形成与生态因子、遥感等数据的规范化接口,系统搜集和整合高质量海量数据;3)面向国家生物多样性公约履约、濒危物种保护等一系列的重要应用,建立物种动态模型等分析模型;4)围绕植物信息基础数据,提供数据整合与检索服务,并在数据汇交与共享方面进行示范应用。
三极大数据共享与集成平台建设
作者: 车涛 , 李新 , 晋锐 , 郭学军 , 王亮绪 , 冉有华
地球三极地区的科学数据既存在数据分散、不成体系,数据众多、缺乏共享的问题,同时,也存在对于重大科学发现所需的信息挖掘的模型与方法缺乏的问题,科学大数据正在成为科学发现的新引擎,驱动着学科创新发展。 我们拟在已有科学数据中心的基础上建立一个开放型的三极科学数据中心,收集整编三极地区已有地球科学数据,包括国内外地面观测和科考数据、遥感数据产品、模型与同化数据集,形成三极数据的开放协同共享,并与国际有关三极科学数据实现互操作。该大数据平台还将集成大数据分析方法,同时遴选有关三极的冰冻圈模型、水循环模型、生态系统模型、多圈层气候模型以及社会经济评估模型,对模型进行标准化处理,统一输入和输出接口,可以构建三极科学模型库。打通地球科学数据与分析方法的链路,为相关科学家提供三极科学研究的大数据平台。
了解详情>>
地球三极地区的科学数据既存在数据分散、不成体系,数据众多、缺乏共享的问题,同时,也存在对于重大科学发现所需的信息挖掘的模型与方法缺乏的问题,科学大数据正在成为科学发现的新引擎,驱动着学科创新发展。 我们拟在已有科学数据中心的基础上建立一个开放型的三极科学数据中心,收集整编三极地区已有地球科学数据,包括国内外地面观测和科考数据、遥感数据产品、模型与同化数据集,形成三极数据的开放协同共享,并与国际有关三极科学数据实现互操作。该大数据平台还将集成大数据分析方法,同时遴选有关三极的冰冻圈模型、水循环模型、生态系统模型、多圈层气候模型以及社会经济评估模型,对模型进行标准化处理,统一输入和输出接口,可以构建三极科学模型库。打通地球科学数据与分析方法的链路,为相关科学家提供三极科学研究的大数据平台。
从极地大国到极地强国——中国极地科学数据共享面临的机遇和挑战
作者: 吴立宗
我国极地科学研究起步于20世纪八十年代初期,1984年我国政府组织了首次南极考察,到2018年,已成功组织了34次南极科学考察、8次北冰洋考察以及13次北极黄河站科学考察,获取的数据资源涉及海洋学、生物学、地球物理学、大气科学、环境科学、冰川学、天文学等多个学科,取得了举世瞩目的科研成果。十三五以来,建立了雪龙探极、冰上丝绸之路等重大项目,致力于打造极地大数据,从极地大国迈向极地强国。
了解详情>>
我国极地科学研究起步于20世纪八十年代初期,1984年我国政府组织了首次南极考察,到2018年,已成功组织了34次南极科学考察、8次北冰洋考察以及13次北极黄河站科学考察,获取的数据资源涉及海洋学、生物学、地球物理学、大气科学、环境科学、冰川学、天文学等多个学科,取得了举世瞩目的科研成果。十三五以来,建立了雪龙探极、冰上丝绸之路等重大项目,致力于打造极地大数据,从极地大国迈向极地强国。
稿件号:中国地球物理学科中心数据资源平台建设
作者: 赵秀宽 , 宁百齐 , 李国主 , 解海永
中国地球物理学科中心目前积累了一批具有自主知识产权、我国唯一的数据战略资源。 (1)电离层特性参量数据库 武汉是中国最早开始常规电离层垂直探测研究的地方,在武汉开展电离层连续垂直探测最早可以追溯到1937年10月。1946年开始,武汉空间环境观测站在不断的历史变迁中一直持续观测至今,是国际上历史最悠久的电离层垂测站之一,经收集与整理形成了我国历史最长的超过70年的电离层垂测数据资料。近年来,中国科学院地质与地球物理研究所从我国最北漠河,经北京、武汉,南至三亚建立了一条电离层测高仪子午链,该链位于北半球东经120°子午圈附近,对于深入了解电离层南北向耦合过程,具有重要的学术意义;为开展空间天气、空间气候学研究提供了最基础的数据支撑。 (2)全天空流星雷达中高层大气风场数据库 中国科学院地质与地球物理研究所从我国最北漠河,经北京、武汉,南至三亚建立了一条流星雷达观测子午链。该链位于北半球东经120°子午圈附近,流星雷达观测获得的中高层大气风场数据库与电离层特性参量数据库结合对于深入了解近地空间中能量的上下耦合、南北耦合,以及大气层/电离层耦合,具有重要的学术意义。此数据库也是国际上唯一一个覆盖中纬到低纬的地基中高层大气风场连续观测数据库。 (3)GNSS多卫星系统电离层参量数据库 为了综合GPS、GLONASS和北斗三套卫星系统的多系统优势来进行电离层探测,发挥北斗卫星系统在中国地区的电离层探测与应用能力,中国科学院地质与地球物理研究所在我国建立了中国GNSS电离层观测网(http://gnss.stern.ac.cn/),获得了大量GNSS三系统电离层监测数据。建成国际上首个GNSS三系统(同时接收GPS、GLONASS和北斗三套卫星系统信号)电离层观测数据库。此数据库为监测和研究中国及周边区域电离层结构及其变化、电离层扰动传播、电离层赤道异常峰变化和低纬电离层不规则体特性等电离层科学研究,开展电离层空间天气的预报和预警工作,以及卫星通信和导航等应用研究提供有力的数据支撑。 (4)地磁观测数据库 中国科学院地质与地球物理研究所从20世纪80年代开始开展地磁台站建设,先后建设了北京地磁台、漠河地磁台、南极长城站地磁台、南极中山站地磁台和三亚地磁台。其中,北京地磁台是我国大陆首个国际INTERMAGNET标准地磁台,为国际参考地磁场IGRF模型修正提供基础数据。地磁观测数据库对于开展地球的成因和演变过程、地球不同圈层的相互作用等研究有重要意义。
了解详情>>
中国地球物理学科中心目前积累了一批具有自主知识产权、我国唯一的数据战略资源。 (1)电离层特性参量数据库 武汉是中国最早开始常规电离层垂直探测研究的地方,在武汉开展电离层连续垂直探测最早可以追溯到1937年10月。1946年开始,武汉空间环境观测站在不断的历史变迁中一直持续观测至今,是国际上历史最悠久的电离层垂测站之一,经收集与整理形成了我国历史最长的超过70年的电离层垂测数据资料。近年来,中国科学院地质与地球物理研究所从我国最北漠河,经北京、武汉,南至三亚建立了一条电离层测高仪子午链,该链位于北半球东经120°子午圈附近,对于深入了解电离层南北向耦合过程,具有重要的学术意义;为开展空间天气、空间气候学研究提供了最基础的数据支撑。 (2)全天空流星雷达中高层大气风场数据库 中国科学院地质与地球物理研究所从我国最北漠河,经北京、武汉,南至三亚建立了一条流星雷达观测子午链。该链位于北半球东经120°子午圈附近,流星雷达观测获得的中高层大气风场数据库与电离层特性参量数据库结合对于深入了解近地空间中能量的上下耦合、南北耦合,以及大气层/电离层耦合,具有重要的学术意义。此数据库也是国际上唯一一个覆盖中纬到低纬的地基中高层大气风场连续观测数据库。 (3)GNSS多卫星系统电离层参量数据库 为了综合GPS、GLONASS和北斗三套卫星系统的多系统优势来进行电离层探测,发挥北斗卫星系统在中国地区的电离层探测与应用能力,中国科学院地质与地球物理研究所在我国建立了中国GNSS电离层观测网(http://gnss.stern.ac.cn/),获得了大量GNSS三系统电离层监测数据。建成国际上首个GNSS三系统(同时接收GPS、GLONASS和北斗三套卫星系统信号)电离层观测数据库。此数据库为监测和研究中国及周边区域电离层结构及其变化、电离层扰动传播、电离层赤道异常峰变化和低纬电离层不规则体特性等电离层科学研究,开展电离层空间天气的预报和预警工作,以及卫星通信和导航等应用研究提供有力的数据支撑。 (4)地磁观测数据库 中国科学院地质与地球物理研究所从20世纪80年代开始开展地磁台站建设,先后建设了北京地磁台、漠河地磁台、南极长城站地磁台、南极中山站地磁台和三亚地磁台。其中,北京地磁台是我国大陆首个国际INTERMAGNET标准地磁台,为国际参考地磁场IGRF模型修正提供基础数据。地磁观测数据库对于开展地球的成因和演变过程、地球不同圈层的相互作用等研究有重要意义。
医疗大数据 —— 从可及到可用
作者: 吕旭东
多年来医疗信息化的建设使得医疗机构内部积累了海量、宝贵的医疗数据资源,对这些医疗数据的有效利用将带来巨大的价值。但是,目前这些数据往往分散存储在不同的系统中,采用私有的数据存储结构和术语编码,很难被二次利用。随着大数据和人工智能技术的飞速发展,迫切需要建立一个标准化且易扩展的医疗大数据有效利用的技术体系,实现对分散且低质量的医疗数据的集成、整合和处理,不但解决医疗数据的可及性问题,而且解决医疗数据的可用性问题。本报告提出了医疗大数据有效利用技术体系的建设思路,并结合浙江大学医疗健康信息工程技术研究所的相关研究,对围绕医疗大数据可及性和可用性问题的相关技术研究进展进行了介绍。
了解详情>>
多年来医疗信息化的建设使得医疗机构内部积累了海量、宝贵的医疗数据资源,对这些医疗数据的有效利用将带来巨大的价值。但是,目前这些数据往往分散存储在不同的系统中,采用私有的数据存储结构和术语编码,很难被二次利用。随着大数据和人工智能技术的飞速发展,迫切需要建立一个标准化且易扩展的医疗大数据有效利用的技术体系,实现对分散且低质量的医疗数据的集成、整合和处理,不但解决医疗数据的可及性问题,而且解决医疗数据的可用性问题。本报告提出了医疗大数据有效利用技术体系的建设思路,并结合浙江大学医疗健康信息工程技术研究所的相关研究,对围绕医疗大数据可及性和可用性问题的相关技术研究进展进行了介绍。
CASEarth DataBox格网数据引擎关键技术介绍
作者: 王学志
面向海量对地观测数据的高效计算与检索需求,构建一套适合大规模遥感数据存储、管理、计算、分析、可视化需求的格网数据引擎,支持PB级遥感剖分格网数据的高效组织、管理分析和按需访问,从而开展新型大规模遥感数据的在线应用。基于云存储和云计算体系架构,我们设计开发了一套适合大规模地学遥感数据在线分析的软件套件:面向地学遥感大数据应用的对象存储环境(DboxStorage);面向剖分数据存取的GDAL栅格数据驱动(DboxDataset);面向大规模时空元数据检索的高并发服务引擎(DboxWebServd);面向大规模空间数据的轻量级地图渲染引擎(DboxMapServd)和面向地学大数据Map&Reduce分析的计算引擎(DBoxMRExcutor)等5部分子系统组成。实现了大规模地学遥感数据从数据存储、标准IO接口、元数据检索、地图渲染以及在线分析计算的全流程实现。
了解详情>>
面向海量对地观测数据的高效计算与检索需求,构建一套适合大规模遥感数据存储、管理、计算、分析、可视化需求的格网数据引擎,支持PB级遥感剖分格网数据的高效组织、管理分析和按需访问,从而开展新型大规模遥感数据的在线应用。基于云存储和云计算体系架构,我们设计开发了一套适合大规模地学遥感数据在线分析的软件套件:面向地学遥感大数据应用的对象存储环境(DboxStorage);面向剖分数据存取的GDAL栅格数据驱动(DboxDataset);面向大规模时空元数据检索的高并发服务引擎(DboxWebServd);面向大规模空间数据的轻量级地图渲染引擎(DboxMapServd)和面向地学大数据Map&Reduce分析的计算引擎(DBoxMRExcutor)等5部分子系统组成。实现了大规模地学遥感数据从数据存储、标准IO接口、元数据检索、地图渲染以及在线分析计算的全流程实现。
基于文献和开放数据的东南亚植物多样性平台建设
作者: 刘博 , 许哲平
东南亚地区有世界四个全球生物多样性热点地区。地形气候复杂多样,植物多样性极高,有专家学者估测该地区共约有6万余种高等植物。但是目前来说如此高的多样性并未被完事的记录与整理,而且许多科属分类问题较大,基础研究薄弱。此项目主要计划为建立一个东南亚共享植物多样性信息的平台— the Southeast Asia Plant Biodiversity Information Infrastructure (SEADiv)。我们主要通过收集现存可得到的已经出版的植物志书资料和标本采集记录信息,首先,通过文献查阅和专家讨论筛选出东南亚32个国家图书馆中419本东南亚植物志资料和其它相关文章等文献。然后通过专家讨论开会的方法选出115本为关键书籍,录入整理物种名与分布区。然后从各国标本馆中获取开放标本数据157万条。最终使用The Plant List校正所有植物相关名称,最终提供每个国家和整个东南亚的植物名录。
了解详情>>
东南亚地区有世界四个全球生物多样性热点地区。地形气候复杂多样,植物多样性极高,有专家学者估测该地区共约有6万余种高等植物。但是目前来说如此高的多样性并未被完事的记录与整理,而且许多科属分类问题较大,基础研究薄弱。此项目主要计划为建立一个东南亚共享植物多样性信息的平台— the Southeast Asia Plant Biodiversity Information Infrastructure (SEADiv)。我们主要通过收集现存可得到的已经出版的植物志书资料和标本采集记录信息,首先,通过文献查阅和专家讨论筛选出东南亚32个国家图书馆中419本东南亚植物志资料和其它相关文章等文献。然后通过专家讨论开会的方法选出115本为关键书籍,录入整理物种名与分布区。然后从各国标本馆中获取开放标本数据157万条。最终使用The Plant List校正所有植物相关名称,最终提供每个国家和整个东南亚的植物名录。
空间科学数据中心助力学科创新实践
作者: 纪珍 , 邹自明 , 佟继周
在科学大数据蓬勃发展的今天,对于数据信息的深度挖掘与分析已经成为学科发展的重要途径之一。作为高度综合与交叉性的前沿学科之一,空间科学领域数据规模的急速增长促使数据处理、分析的方法以及思维模式的转变,为学科深入研究带来了重要的发展机遇。空间科学领域也需顺应科学大数据发展趋势,发展科学大数据驱动的学科创新研究新模式与新技术。 中国空间科学数据中心立足于空间科学先导专项、子午工程、国际子午圈计划等众多重大空间科学项目,积累了丰富的天基、地基科学观测数据。空间物理、空间天文领域科学家利用这些科学观测数据开展数据分析、物理建模、关联挖掘等一系列数据应用工作,得到了世界瞩目的系列创新性成果。空间科学数据中心面向大数据时代空间科学领域科研模式的转变,基于以往科学数据资源建设和应用服务方面的实践积累,逐步从辅助科研创新活动向参与科研创新活动转化,为学科创新研究提供稳定的集数据处理与产品生产、科学数据管理、大数据平台建设、大数据应用服务于一体的综合性支撑,初步实现与空间科学重大任务的深度融合,促进科研产出已初见成果。以暗物质粒子探测卫星等三个典型大数据应用实践活动所取得的一系列成效显著的学科创新成果作为案例,从数据共享、信息化环境、共性技术及专业工具、科研社区服务四方面出发,介绍空间科学数据中心在大数据时代学科创新实践活动中的发展与转变,初步探讨数据中心面向学科创新需求的建设与发展方向。
了解详情>>
在科学大数据蓬勃发展的今天,对于数据信息的深度挖掘与分析已经成为学科发展的重要途径之一。作为高度综合与交叉性的前沿学科之一,空间科学领域数据规模的急速增长促使数据处理、分析的方法以及思维模式的转变,为学科深入研究带来了重要的发展机遇。空间科学领域也需顺应科学大数据发展趋势,发展科学大数据驱动的学科创新研究新模式与新技术。 中国空间科学数据中心立足于空间科学先导专项、子午工程、国际子午圈计划等众多重大空间科学项目,积累了丰富的天基、地基科学观测数据。空间物理、空间天文领域科学家利用这些科学观测数据开展数据分析、物理建模、关联挖掘等一系列数据应用工作,得到了世界瞩目的系列创新性成果。空间科学数据中心面向大数据时代空间科学领域科研模式的转变,基于以往科学数据资源建设和应用服务方面的实践积累,逐步从辅助科研创新活动向参与科研创新活动转化,为学科创新研究提供稳定的集数据处理与产品生产、科学数据管理、大数据平台建设、大数据应用服务于一体的综合性支撑,初步实现与空间科学重大任务的深度融合,促进科研产出已初见成果。以暗物质粒子探测卫星等三个典型大数据应用实践活动所取得的一系列成效显著的学科创新成果作为案例,从数据共享、信息化环境、共性技术及专业工具、科研社区服务四方面出发,介绍空间科学数据中心在大数据时代学科创新实践活动中的发展与转变,初步探讨数据中心面向学科创新需求的建设与发展方向。
面向生物威胁快速反应的大数据分析技术
作者: 伯
烈性传染病、生物恐怖以及合成生物技术缪用导致生物威胁的种类快速增长, 人类现有的知识、技术和产品储备往往不能有效应对“未知”生物威胁,建立针对“未知”生物威胁的快速反应系统对于维护人类健康和国家安全具有重要意义。另一方面,在生物大数据的推动下,新一代生物威胁的检测、防治技术体系正在快速形成。 我们以公开的基因组、LINCS细胞反应印记等生物大数据资源为基础,发展了海量测序数据的跨基因组快速并行过滤、大规模通路辨识、超大规模并行表达谱印记聚类和药物关联网络社团挖掘等关键技术,初步建立了非培养样品中的快速病原确证、感染损伤机理快速解析和防治药物快速重定位等关键技术方法,为最终形成以生物大数据分析为基础的生物威胁快速反应系统奠定了技术基础。
了解详情>>
烈性传染病、生物恐怖以及合成生物技术缪用导致生物威胁的种类快速增长, 人类现有的知识、技术和产品储备往往不能有效应对“未知”生物威胁,建立针对“未知”生物威胁的快速反应系统对于维护人类健康和国家安全具有重要意义。另一方面,在生物大数据的推动下,新一代生物威胁的检测、防治技术体系正在快速形成。 我们以公开的基因组、LINCS细胞反应印记等生物大数据资源为基础,发展了海量测序数据的跨基因组快速并行过滤、大规模通路辨识、超大规模并行表达谱印记聚类和药物关联网络社团挖掘等关键技术,初步建立了非培养样品中的快速病原确证、感染损伤机理快速解析和防治药物快速重定位等关键技术方法,为最终形成以生物大数据分析为基础的生物威胁快速反应系统奠定了技术基础。
三峡库区重大危险性滑坡监测预报
作者: 易武
三峡水库滑坡防治是关乎三峡工程安全及库区社会经济发展与人民生命财产安全的重大问题。报告基于湖北长江三峡滑坡国家野外科学观测站在三峡库区开展的长达几十年的地质灾害防治尤其是监测工程实践,详细介绍三峡库区重大危险性滑坡的监测预报成果。报告首先介绍了三峡库区地质灾害的发育概况,然后对应用于三峡库区地质灾害的三类防治方法(即监测预警、搬迁避让、工程治理)进行了简要阐述,紧接着详细介绍了观测站承担的三峡库首区滑坡专业监测情况,最后以新滩滑坡、链子崖危岩体防治工程以及三峡库区重大危险性滑坡监测预警体系、三峡库水作用下滑坡动态响应机制及其预测预报系统等为例,详细介绍观测站在三峡库区重大危险性滑坡监测预报方面的研究成果和工程实践。
了解详情>>
三峡水库滑坡防治是关乎三峡工程安全及库区社会经济发展与人民生命财产安全的重大问题。报告基于湖北长江三峡滑坡国家野外科学观测站在三峡库区开展的长达几十年的地质灾害防治尤其是监测工程实践,详细介绍三峡库区重大危险性滑坡的监测预报成果。报告首先介绍了三峡库区地质灾害的发育概况,然后对应用于三峡库区地质灾害的三类防治方法(即监测预警、搬迁避让、工程治理)进行了简要阐述,紧接着详细介绍了观测站承担的三峡库首区滑坡专业监测情况,最后以新滩滑坡、链子崖危岩体防治工程以及三峡库区重大危险性滑坡监测预警体系、三峡库水作用下滑坡动态响应机制及其预测预报系统等为例,详细介绍观测站在三峡库区重大危险性滑坡监测预报方面的研究成果和工程实践。
新疆融雪型洪水气象条件分析及应用
作者: 毛炜峄 , 沈永平
新疆位于欧亚大陆中部,地形复杂,地理环境特殊,是我国冰川储量最大的省区之一,同时新疆北部与天山山区还是我国三大稳定季节积雪区之一。随气象条件变化,雪、冰等融化形成径流,极端条件下会引发融雪(冰)洪水。新疆的融雪(冰)洪水多发,随气候变暖,融雪(冰)洪水规律也发生了变化。新疆的洪水种类多,不同类型洪水个例:(1)2003年维他克河发生暴雨型洪水,引发泥石流;(2)1999年高温以及山区降水引发昆仑山北坡混合型洪水;(3)2010年元月北疆塔额盆地在隆冬季节出现融雪洪水;(4)2002年 7月下旬渭干河特大洪水,是混合型洪水的一种新副型,暴雨(雪)过程为渭干河洪水提供了良好的物质基础;最大洪峰主要是流域内中低山区暴雨引起;入库洪量特别大主要是渭干河流域高山区积雪不断融化所致。 “雨洪”与“雪洪”发生的物理机制不同,雪洪物理过程更加复杂。在融雪(冰)型洪水形成过程中,水的相态发生变化,对于物质基础(积雪、冰川)的动态监测是基础,引发固态冰雪融化的温度条件变化的融雪(冰)型洪水预报、预警的条件。地面积雪监测以及卫星遥感积雪监测等可以在积雪监测中互相补充、点面结合。在关键季节急剧升温过程的监测、预报等技术是预测融雪(冰)洪水的关键。鉴于雪—洪过程的复杂性,为区别于雨洪过程,要明确一些概念,来客观地描述雪—洪物理过程,需要准确定义面降雪量、面积雪量、面雪水当量、面融雪量、面融雪强度等一系列词汇,加上水文学中长期以来使用的融雪径流、融雪—洪峰流量等,来准确地描述流域雪—洪物理过程。 2015年夏季新疆区域出现高温过程,从7月上旬后期开始,进入中旬后高温范围迅速向西、向北蔓延发展,下旬初期范围达最大、最为强盛。高温过程中全疆84.8%的测站(89站)出现高温;52.4%的测站(55站)的高温持续日数位居历史第1位;全疆21.9% 的测站(23站)极端最高气温位居历史第1位。南疆及天山山区的7月平均气温位居历史同期第1位,有54.3%的测站(57站)7月平均气温突破同期历史极值。海拔3544米的天山山区大西沟站7月份日最高气温连续突破历史极值,23日达到20.7℃。高温过程中,新疆区域7月0℃层高度位居1991年以来同期第1位,7月19-23日连续6d位居1991年以来的第1位。高温过程造成新疆高山区冰雪迅速消融,引发塔里木河流域出现融雪(冰)型洪水。 新疆阿克苏河河流洪水过程中的逐日洪峰流量与前期周边测站的零度层高度关系密切。1999年夏季阿克苏河洪水过程中逐日流量与0℃层高度之间的定量关系分析,建立了0度层高度为因子的日08时流量、日最大流量的统计模型,涨洪、落洪分段的回归效果较优。升温过程中,能够实现使用高空零度层高度的变化来定量预报特殊流域的逐日洪峰流量。 新疆洪水类型丰富,把握好引发洪水的气象要素监测和预报,是提高防洪能力的关键技术环节。针对不同区域、流域,加强引发融雪(冰)型洪水的气象条件分析研究,凝练关键气象指标,加强这些区域气象实时监测及要素预报水平,为提升当地防汛水平提供技术支撑。
了解详情>>
新疆位于欧亚大陆中部,地形复杂,地理环境特殊,是我国冰川储量最大的省区之一,同时新疆北部与天山山区还是我国三大稳定季节积雪区之一。随气象条件变化,雪、冰等融化形成径流,极端条件下会引发融雪(冰)洪水。新疆的融雪(冰)洪水多发,随气候变暖,融雪(冰)洪水规律也发生了变化。新疆的洪水种类多,不同类型洪水个例:(1)2003年维他克河发生暴雨型洪水,引发泥石流;(2)1999年高温以及山区降水引发昆仑山北坡混合型洪水;(3)2010年元月北疆塔额盆地在隆冬季节出现融雪洪水;(4)2002年 7月下旬渭干河特大洪水,是混合型洪水的一种新副型,暴雨(雪)过程为渭干河洪水提供了良好的物质基础;最大洪峰主要是流域内中低山区暴雨引起;入库洪量特别大主要是渭干河流域高山区积雪不断融化所致。 “雨洪”与“雪洪”发生的物理机制不同,雪洪物理过程更加复杂。在融雪(冰)型洪水形成过程中,水的相态发生变化,对于物质基础(积雪、冰川)的动态监测是基础,引发固态冰雪融化的温度条件变化的融雪(冰)型洪水预报、预警的条件。地面积雪监测以及卫星遥感积雪监测等可以在积雪监测中互相补充、点面结合。在关键季节急剧升温过程的监测、预报等技术是预测融雪(冰)洪水的关键。鉴于雪—洪过程的复杂性,为区别于雨洪过程,要明确一些概念,来客观地描述雪—洪物理过程,需要准确定义面降雪量、面积雪量、面雪水当量、面融雪量、面融雪强度等一系列词汇,加上水文学中长期以来使用的融雪径流、融雪—洪峰流量等,来准确地描述流域雪—洪物理过程。 2015年夏季新疆区域出现高温过程,从7月上旬后期开始,进入中旬后高温范围迅速向西、向北蔓延发展,下旬初期范围达最大、最为强盛。高温过程中全疆84.8%的测站(89站)出现高温;52.4%的测站(55站)的高温持续日数位居历史第1位;全疆21.9% 的测站(23站)极端最高气温位居历史第1位。南疆及天山山区的7月平均气温位居历史同期第1位,有54.3%的测站(57站)7月平均气温突破同期历史极值。海拔3544米的天山山区大西沟站7月份日最高气温连续突破历史极值,23日达到20.7℃。高温过程中,新疆区域7月0℃层高度位居1991年以来同期第1位,7月19-23日连续6d位居1991年以来的第1位。高温过程造成新疆高山区冰雪迅速消融,引发塔里木河流域出现融雪(冰)型洪水。 新疆阿克苏河河流洪水过程中的逐日洪峰流量与前期周边测站的零度层高度关系密切。1999年夏季阿克苏河洪水过程中逐日流量与0℃层高度之间的定量关系分析,建立了0度层高度为因子的日08时流量、日最大流量的统计模型,涨洪、落洪分段的回归效果较优。升温过程中,能够实现使用高空零度层高度的变化来定量预报特殊流域的逐日洪峰流量。 新疆洪水类型丰富,把握好引发洪水的气象要素监测和预报,是提高防洪能力的关键技术环节。针对不同区域、流域,加强引发融雪(冰)型洪水的气象条件分析研究,凝练关键气象指标,加强这些区域气象实时监测及要素预报水平,为提升当地防汛水平提供技术支撑。
曲线软聚类算法及空气质量监测点空间模式识别应用
作者: 黄恒君
在当前大数据背景之下,众多领域产生的样本观测数据呈现出明显的函数型特征,在对这种表现为连续函数或光滑曲线的数据进行聚类时,本文以B-样条基底函数做数据平滑处理,以基函数展开系数代替曲线信息,将曲线信息引入聚类算法的构建,采用基于高斯混合模型的模糊聚类算法—EM算法,通过计算密度分布的概率值大小来判断所属的类别,从而实现对数据的软聚类。最后,以北京市空气污染浓度数据为例,对所提出的基于模型的曲线聚类方法加以验证,分析了北京市空气质量监测点的空间分布规律。
了解详情>>
在当前大数据背景之下,众多领域产生的样本观测数据呈现出明显的函数型特征,在对这种表现为连续函数或光滑曲线的数据进行聚类时,本文以B-样条基底函数做数据平滑处理,以基函数展开系数代替曲线信息,将曲线信息引入聚类算法的构建,采用基于高斯混合模型的模糊聚类算法—EM算法,通过计算密度分布的概率值大小来判断所属的类别,从而实现对数据的软聚类。最后,以北京市空气污染浓度数据为例,对所提出的基于模型的曲线聚类方法加以验证,分析了北京市空气质量监测点的空间分布规律。
医学科学数据汇聚与共享平台建设
作者: 吴思竹
科学数据在科技发展和国际竞争中具有重要地位,医学领域当中,科学数据的管理、共享和 应用对于疾病治疗、药物研发、健康促进均具有重要作用。世界各国积极推动科学数据建设 和共享,我国也提出了新时期科学数据汇交和管理的要求,报告结合当前发展,介绍中国医 学科学院医学信息研究所在医学科学数据汇聚和共享平台建设方面的实践和探索工作。
了解详情>>
科学数据在科技发展和国际竞争中具有重要地位,医学领域当中,科学数据的管理、共享和 应用对于疾病治疗、药物研发、健康促进均具有重要作用。世界各国积极推动科学数据建设 和共享,我国也提出了新时期科学数据汇交和管理的要求,报告结合当前发展,介绍中国医 学科学院医学信息研究所在医学科学数据汇聚和共享平台建设方面的实践和探索工作。
《中国科学院生物标本馆大数据平台建设》
作者: 朱喜超
中国科学院生物标本馆(博物馆)工作委员会(简称“工委会”)自筹建以来,得到18家成员单位的大力支持。截止2017年底,18家生物标本馆(博物馆)共计收藏各类生物标本资源总量约2011.9万号/份,已上报标本数字化数据总数约946.4万号/件,已经提供国家自然科技资源共享平台标本信息数据590.1万号/份。构建了工委会网站,包括新闻报道、标本收藏、科技支撑、人才队伍、科普活动等5大重要版块,同时各标本馆(博物馆)根据自身的特色及优势建立了各自网站,共同组成中国科学院生物标本馆共享数据平台,并纳入中国科学院战略生物资源服务网络信息化平台,为国内外用户提供服务。本平台将进一步加大各成员单位间数据的整合力度,在加快已有标本数字化进程的基础上,着力推进数据的挖掘利用,并探索建立有效的考核、评价体系,充分发挥我国战略生物资源的价值。
了解详情>>
中国科学院生物标本馆(博物馆)工作委员会(简称“工委会”)自筹建以来,得到18家成员单位的大力支持。截止2017年底,18家生物标本馆(博物馆)共计收藏各类生物标本资源总量约2011.9万号/份,已上报标本数字化数据总数约946.4万号/件,已经提供国家自然科技资源共享平台标本信息数据590.1万号/份。构建了工委会网站,包括新闻报道、标本收藏、科技支撑、人才队伍、科普活动等5大重要版块,同时各标本馆(博物馆)根据自身的特色及优势建立了各自网站,共同组成中国科学院生物标本馆共享数据平台,并纳入中国科学院战略生物资源服务网络信息化平台,为国内外用户提供服务。本平台将进一步加大各成员单位间数据的整合力度,在加快已有标本数字化进程的基础上,着力推进数据的挖掘利用,并探索建立有效的考核、评价体系,充分发挥我国战略生物资源的价值。
深度学习在遥感影像信息提取方面的应用
作者: 李聪
众多的对地观测卫星每天都会产生庞大的数据,以ZY3卫星为例,在轨工作期间每天获取的观测数据量高达10TB以上。未来10年,全球对地卫星每天获取的观测数据将超过10PB。如何快速准确的从大量遥感影像中提取信息,是目前研究的热点,而信息提取的第一步就是遥感影像地物目标分类,这也是最重要的一步,通过有效的遥感分类方法可以在投入相对较少的人力物力情况下,准确的获取农业种植情况,海洋污染情况,土地覆盖信息等,对这些信息进行分析,可以掌握土地利用或者覆盖变化程度,可以掌握海洋大面积的水域问题,可以掌握农业区域的种植情况对农业生产给出合理化的建议,并对农业生产给出合理化的评估,甚至对全球变暖、酸雨问趣、土地沙漠化问题给出合理化分析,对相应的环境问题进行预防和治理,以致改变周边的生活环境。因此,遥感影像分类算法的研究具有重要的理论意义与实际应用价值。本文分析了深度学习在图像分类中的理论依据,在此基础上设计了卷积网络技术应用于遥感图像信息提取的技术路线,通过相关实验表明,卷积网络所自动提取的图像深层次特征可以有效的帮助传统分类器提高分类精度,该技术的使用,将为大规模地物信息自动且高质量提取开辟新的思路。
了解详情>>
众多的对地观测卫星每天都会产生庞大的数据,以ZY3卫星为例,在轨工作期间每天获取的观测数据量高达10TB以上。未来10年,全球对地卫星每天获取的观测数据将超过10PB。如何快速准确的从大量遥感影像中提取信息,是目前研究的热点,而信息提取的第一步就是遥感影像地物目标分类,这也是最重要的一步,通过有效的遥感分类方法可以在投入相对较少的人力物力情况下,准确的获取农业种植情况,海洋污染情况,土地覆盖信息等,对这些信息进行分析,可以掌握土地利用或者覆盖变化程度,可以掌握海洋大面积的水域问题,可以掌握农业区域的种植情况对农业生产给出合理化的建议,并对农业生产给出合理化的评估,甚至对全球变暖、酸雨问趣、土地沙漠化问题给出合理化分析,对相应的环境问题进行预防和治理,以致改变周边的生活环境。因此,遥感影像分类算法的研究具有重要的理论意义与实际应用价值。本文分析了深度学习在图像分类中的理论依据,在此基础上设计了卷积网络技术应用于遥感图像信息提取的技术路线,通过相关实验表明,卷积网络所自动提取的图像深层次特征可以有效的帮助传统分类器提高分类精度,该技术的使用,将为大规模地物信息自动且高质量提取开辟新的思路。
基于Spark的遥感大数据处理与特征提取
作者: 敏玉芳
随着遥感观测手段的多样性和遥感数据分辨率提高,现在的遥感数据具有海量、多源、非结构化、多尺度、处理流程多、计算耗时长等特点。如何对大规模的遥感数据进行统一存储、对多源异构数据进行统一管理,并对大规模数据进行数据分析与融合?本文基于Hadoop和Spark技术构建存储云和计算云构建遥感大数据在线处理系统,通过对遥感数据进行spark并行计算,形成遥感影像分布式处理系统。计算云实现通过网盘进行数据存储,提供遥感数据切割、转换、融合等数据处理功能;并提供统计、空间函数、特征参数提取等一些基础计算功能;基于数据云,还提供水文、气象、生态等模型的计算服务;最后提供可视化、数据共享等服务。本文中遥感影像的处理采用基于spark的遥感影像处理框架Geotrellis,利用它创建可扩展的、高性能的地理信息处理 web 服务,创建分布式的地理信息处理服务,用来处理海量数据集,并利用多核架构的优势,完成并行地理信息处理操作。
了解详情>>
随着遥感观测手段的多样性和遥感数据分辨率提高,现在的遥感数据具有海量、多源、非结构化、多尺度、处理流程多、计算耗时长等特点。如何对大规模的遥感数据进行统一存储、对多源异构数据进行统一管理,并对大规模数据进行数据分析与融合?本文基于Hadoop和Spark技术构建存储云和计算云构建遥感大数据在线处理系统,通过对遥感数据进行spark并行计算,形成遥感影像分布式处理系统。计算云实现通过网盘进行数据存储,提供遥感数据切割、转换、融合等数据处理功能;并提供统计、空间函数、特征参数提取等一些基础计算功能;基于数据云,还提供水文、气象、生态等模型的计算服务;最后提供可视化、数据共享等服务。本文中遥感影像的处理采用基于spark的遥感影像处理框架Geotrellis,利用它创建可扩展的、高性能的地理信息处理 web 服务,创建分布式的地理信息处理服务,用来处理海量数据集,并利用多核架构的优势,完成并行地理信息处理操作。
ChinaGEOSS灾害应急响应数据支持服务
作者: 张连翀 , 李国庆 , 李静
依托国家综合地球观测数据共享平台(ChinaGEOSS-DSNet)所建立的数据共享设施和共享合作网络,ChinaGEOSS灾害应急响应数据支持服务面向国际重大灾害事件的应急救援工作,快速、准确和高效地协调以中国卫星为主的天基观测资源,为受灾国政府和国际组织提供观测数据和灾害损失信息方面的援助,彰显我国作为空间大国和人道主义的责任和能力。两年来,该机制先后应用于新西兰地震,墨西哥地震,伊朗、伊拉克边境地区地震和南太平洋“吉塔”台风等重大自然灾害,累计协调国内8个机构、10多颗卫星进行应急观测和数据援助,已经成为“减灾宪章”等国际政府间应急合作机制的重要补充。
了解详情>>
依托国家综合地球观测数据共享平台(ChinaGEOSS-DSNet)所建立的数据共享设施和共享合作网络,ChinaGEOSS灾害应急响应数据支持服务面向国际重大灾害事件的应急救援工作,快速、准确和高效地协调以中国卫星为主的天基观测资源,为受灾国政府和国际组织提供观测数据和灾害损失信息方面的援助,彰显我国作为空间大国和人道主义的责任和能力。两年来,该机制先后应用于新西兰地震,墨西哥地震,伊朗、伊拉克边境地区地震和南太平洋“吉塔”台风等重大自然灾害,累计协调国内8个机构、10多颗卫星进行应急观测和数据援助,已经成为“减灾宪章”等国际政府间应急合作机制的重要补充。
题目:龙凤山区域臭氧总量观测与数据分析
作者: 宋庆利 , 于
本文从臭氧总量观测目的与意义入手,详细介绍了龙凤山区域大气本底站臭氧总量的观测及质量控制情况。龙凤山1993至2012年20年观测数据表明龙凤山臭氧总量存在明显的季节变化,从1月份开始逐渐增加,到了3月份,臭氧总量达到最大值,为429DU,然后开始明显减少,到8月达到最小值,为312DU。龙凤山臭氧总量历年变化趋势呈现缓慢上升的趋势,年平均变化率为每年0.5%左右。臭氧总量的变化在特殊情况下与天气过程有着密切的关系。本文还对龙凤山臭氧总量数据与卫星臭氧总量观测数据进行了对比分析。
了解详情>>
本文从臭氧总量观测目的与意义入手,详细介绍了龙凤山区域大气本底站臭氧总量的观测及质量控制情况。龙凤山1993至2012年20年观测数据表明龙凤山臭氧总量存在明显的季节变化,从1月份开始逐渐增加,到了3月份,臭氧总量达到最大值,为429DU,然后开始明显减少,到8月达到最小值,为312DU。龙凤山臭氧总量历年变化趋势呈现缓慢上升的趋势,年平均变化率为每年0.5%左右。臭氧总量的变化在特殊情况下与天气过程有着密切的关系。本文还对龙凤山臭氧总量数据与卫星臭氧总量观测数据进行了对比分析。
京津冀本底地区近60年气候变化及近15年大气成分浓度变化趋势分析
作者: 权维俊 , 马志强 , 尹晓梅 , 蒲维维 , 李梓铭 , 何迪
上甸子区域大气本底站位于东经117°07′、北纬40°39′,该站地处京津冀区域中心位置,周围30公里范围内无显著人为影响,其观测数据能够很好地代表京津冀区域气候变化和大气本底变化特征。通过分析该站近60年的气候数据表明:京津冀本底地区气温总体呈上升趋势,且具有明显阶段性特征;降水量明显下降,变化速率为-27.9mm/10a;空气相对湿度呈上升趋势,变化速率为0.6%/10a;平均风速呈下降趋势,变化速率为-0.1m·s-1/10a。另一方面,利用该站近15年主要大气污染物观测数据分析表明:PM2.5、一氧化碳(CO)和二氧化硫(SO2)浓度呈明显下降趋势,线性变化速率分别为-19.0μg·m-3 /10a、-0.6mg·m-3 /10a和-11.0μg·m-3 /10a;二氧化氮(NO2)浓度虽有下降(线性趋势为-2.5μg·m-3 /10a),但趋势不如前三种污染物明显;而臭氧(O3)却呈显著的上升趋势,线性变化趋势为13.9μg·m-3 /10a。综合气象条件和污染物变化趋势分析表明,近年来采取的一系列大气污染防治措施在降低污染物本底浓度方面取得了显著的成效,但需加强对臭氧及光化学污染的防治。
了解详情>>
上甸子区域大气本底站位于东经117°07′、北纬40°39′,该站地处京津冀区域中心位置,周围30公里范围内无显著人为影响,其观测数据能够很好地代表京津冀区域气候变化和大气本底变化特征。通过分析该站近60年的气候数据表明:京津冀本底地区气温总体呈上升趋势,且具有明显阶段性特征;降水量明显下降,变化速率为-27.9mm/10a;空气相对湿度呈上升趋势,变化速率为0.6%/10a;平均风速呈下降趋势,变化速率为-0.1m·s-1/10a。另一方面,利用该站近15年主要大气污染物观测数据分析表明:PM2.5、一氧化碳(CO)和二氧化硫(SO2)浓度呈明显下降趋势,线性变化速率分别为-19.0μg·m-3 /10a、-0.6mg·m-3 /10a和-11.0μg·m-3 /10a;二氧化氮(NO2)浓度虽有下降(线性趋势为-2.5μg·m-3 /10a),但趋势不如前三种污染物明显;而臭氧(O3)却呈显著的上升趋势,线性变化趋势为13.9μg·m-3 /10a。综合气象条件和污染物变化趋势分析表明,近年来采取的一系列大气污染防治措施在降低污染物本底浓度方面取得了显著的成效,但需加强对臭氧及光化学污染的防治。
无人机技术在冰川变化监测中的应用
作者: 冯克庭 , 张耀南
传统的野外观测手段和卫星遥感监测是冰川观测的有效途径。然而,冰川野外观测受限于恶劣的气候、人员难以到达等因素;卫星遥感在数据获取上受限于时空分辨率和高费用等。随着无人机技术的发展与成熟应用,尤其是消费级无人机在科研中的应用,这些缺点能够轻易克服。无人机遥感已经成为野外观测与低分辨率空间遥感之间的桥梁,从无人机携带的传感器获取的数据极大地提升了传统遥感获取数据的空间分辨率。本文讨论了无人机应用于冰川变化监测的工作流程,以及航线规划和像控点设计原则等,通过无人机影像的后期处理,生成了八一冰川高精度正射影像和DEM数据,获取了八一冰川2016-2017年面积变化、厚度变化以及冰川末端退缩数据等冰川变化关键参数,以期为无人机技术应用于冰川监测提供参考。
了解详情>>
传统的野外观测手段和卫星遥感监测是冰川观测的有效途径。然而,冰川野外观测受限于恶劣的气候、人员难以到达等因素;卫星遥感在数据获取上受限于时空分辨率和高费用等。随着无人机技术的发展与成熟应用,尤其是消费级无人机在科研中的应用,这些缺点能够轻易克服。无人机遥感已经成为野外观测与低分辨率空间遥感之间的桥梁,从无人机携带的传感器获取的数据极大地提升了传统遥感获取数据的空间分辨率。本文讨论了无人机应用于冰川变化监测的工作流程,以及航线规划和像控点设计原则等,通过无人机影像的后期处理,生成了八一冰川高精度正射影像和DEM数据,获取了八一冰川2016-2017年面积变化、厚度变化以及冰川末端退缩数据等冰川变化关键参数,以期为无人机技术应用于冰川监测提供参考。
CASEarth Databank系统建设的若干思考
作者: 何国金 , 龙腾飞 , 王桂周 , 焦伟利 , 江威 , 尹然宇
对地观测大数据是国家基础性和战略性资源,在国民经济、社会发展和国家安全中发挥着不可或缺的作用,已成为驱动科学创新与知识发现的重要引擎。但由于政策、制度和技术等多方面的原因,对地观测数据大数据的潜在价值没有被充分挖掘释放出来,依然面临着“数据爆炸但知识贫乏”的困境。在分析当前对地观测数据处理、分发、共享、应用以及服务模式的基础上,认为“大数据时代”对地观测数据的深入应用面临着数据开放共享、数据密集型计算等问题,应从产品标准化、处理算法、系统平台、服务模式等方面开展创新性研究。论文介绍了地球大数据科学工程先导专项课题CASEarth DataBank系统建设的基本思路,以及数据、计算与服务一体化的长时序对地观测数据智能服务平台的框架设计。通过该系统建设,降低对地观测数据应用门槛,让数据应用者从寻找数据、整理数据和处理数据的繁杂工作中解放出来,同时集成多学科优势,形成数据、计算与服务的完整链条,创新大数据时代卫星遥感数据和信息服务模式,促进对地观测数据共享、多学科交叉融合和创新发现。
了解详情>>
对地观测大数据是国家基础性和战略性资源,在国民经济、社会发展和国家安全中发挥着不可或缺的作用,已成为驱动科学创新与知识发现的重要引擎。但由于政策、制度和技术等多方面的原因,对地观测数据大数据的潜在价值没有被充分挖掘释放出来,依然面临着“数据爆炸但知识贫乏”的困境。在分析当前对地观测数据处理、分发、共享、应用以及服务模式的基础上,认为“大数据时代”对地观测数据的深入应用面临着数据开放共享、数据密集型计算等问题,应从产品标准化、处理算法、系统平台、服务模式等方面开展创新性研究。论文介绍了地球大数据科学工程先导专项课题CASEarth DataBank系统建设的基本思路,以及数据、计算与服务一体化的长时序对地观测数据智能服务平台的框架设计。通过该系统建设,降低对地观测数据应用门槛,让数据应用者从寻找数据、整理数据和处理数据的繁杂工作中解放出来,同时集成多学科优势,形成数据、计算与服务的完整链条,创新大数据时代卫星遥感数据和信息服务模式,促进对地观测数据共享、多学科交叉融合和创新发现。
季节变化下冰川坝的溃决机制及数值模拟
作者: 任彦润
运用遥感手段及野外实测数据,基于能量和物质平衡方程、传热学基本原理,以高寒地区典型的气候条件为外界环境载荷,结合相关气象及水文因子,提取研究区内冰湖面积、冰湖库容与母冰川的相关关系、冰坝强度等信息,以冰湖及冰坝的季节变化特征为研究对象,综合热能、动能、河道特征三个方面建立冰湖稳定性评价方法,划分危险性冰湖并对其建模,比较不同湖底结构对冰坝压力大小,针对冰坝在冰湖库容及其自身载荷作用下的力学响应,采用有限元法对冰坝温度场和应力场进行耦合研究,并对不同诱发因素和溃决模式下冰湖溃决洪水进行演进模拟,了解触发因素对溃决事件及洪水规模的影响。尝试通过冰湖对气候变化敏感性的研究,以冰湖监测及变化模拟揭示其演变规律及其与气候变化间的响应机制。
了解详情>>
运用遥感手段及野外实测数据,基于能量和物质平衡方程、传热学基本原理,以高寒地区典型的气候条件为外界环境载荷,结合相关气象及水文因子,提取研究区内冰湖面积、冰湖库容与母冰川的相关关系、冰坝强度等信息,以冰湖及冰坝的季节变化特征为研究对象,综合热能、动能、河道特征三个方面建立冰湖稳定性评价方法,划分危险性冰湖并对其建模,比较不同湖底结构对冰坝压力大小,针对冰坝在冰湖库容及其自身载荷作用下的力学响应,采用有限元法对冰坝温度场和应力场进行耦合研究,并对不同诱发因素和溃决模式下冰湖溃决洪水进行演进模拟,了解触发因素对溃决事件及洪水规模的影响。尝试通过冰湖对气候变化敏感性的研究,以冰湖监测及变化模拟揭示其演变规律及其与气候变化间的响应机制。
基于E2Science系统的文献资料时空科学数据挖掘获取与分析验证
作者: 赵国辉
随着大数据时代的到来,众源数据为各行各业带了广泛的数据渠道,其中包括公开发布的期刊文献、文档资料以及图件图表。其中期刊文献资料是科学研究产出的主要表现形式,其蕴含的科学数据是学科领域宝贵的财富, 从科技文献中提取这些科学数据,对于科学数据传播、促进知识发现和完善地学大数据生态系统具有重要意义,本文从大数据分析的需求出发,基于E2Science系统框架,借助数字图像处理技术,开发了面向期刊文献的科学数据时空智能提取系统软件,实现了期刊文献、资料文档、著作报告等蕴含的图表内容的智能判别、自动提取、信息复现及科学数据生产,从而扩展文献资料中科学数据的广泛共享与有效应用,提高数据信息的利用率以及重用性,扩宽地学大数据的获取渠道与应用层面。
了解详情>>
随着大数据时代的到来,众源数据为各行各业带了广泛的数据渠道,其中包括公开发布的期刊文献、文档资料以及图件图表。其中期刊文献资料是科学研究产出的主要表现形式,其蕴含的科学数据是学科领域宝贵的财富, 从科技文献中提取这些科学数据,对于科学数据传播、促进知识发现和完善地学大数据生态系统具有重要意义,本文从大数据分析的需求出发,基于E2Science系统框架,借助数字图像处理技术,开发了面向期刊文献的科学数据时空智能提取系统软件,实现了期刊文献、资料文档、著作报告等蕴含的图表内容的智能判别、自动提取、信息复现及科学数据生产,从而扩展文献资料中科学数据的广泛共享与有效应用,提高数据信息的利用率以及重用性,扩宽地学大数据的获取渠道与应用层面。
一种基于稳定水流场的径流模拟方法研究
作者: 陈军 , 刘志红 , 吕朝阳
我国中西部地区地处亚热带,以山地地貌居多,夏季湿润多雨,每年因强降雨诱发的山洪地质灾害频繁发生。基于水动力的分布式水文模型能够反演全流域水流分布及其变化,被广泛应用于暴雨洪涝灾害的预警预报中。本文提出一种新的基于水动力的分布式水文模型,通过引入稳定水流场克服了先前模型未充分考虑流域前期水环境的缺陷。首先,给出纳维-斯托克斯方程的栅格模式具体实现;然后,为建立流域稳定水流场,在径流汇流模拟中加入水流混合模拟,并修正水流场速度的大小和方向;最后,以岷江下段作为验证流域,证实了将稳定流场作为前期流域水环境的径流汇流模拟能够更好地反演径流汇流过程。相对于FloodArea模型具有更小的水位变化误差,在流域暴雨洪涝灾害评估中具有重要的应用价值。
了解详情>>
我国中西部地区地处亚热带,以山地地貌居多,夏季湿润多雨,每年因强降雨诱发的山洪地质灾害频繁发生。基于水动力的分布式水文模型能够反演全流域水流分布及其变化,被广泛应用于暴雨洪涝灾害的预警预报中。本文提出一种新的基于水动力的分布式水文模型,通过引入稳定水流场克服了先前模型未充分考虑流域前期水环境的缺陷。首先,给出纳维-斯托克斯方程的栅格模式具体实现;然后,为建立流域稳定水流场,在径流汇流模拟中加入水流混合模拟,并修正水流场速度的大小和方向;最后,以岷江下段作为验证流域,证实了将稳定流场作为前期流域水环境的径流汇流模拟能够更好地反演径流汇流过程。相对于FloodArea模型具有更小的水位变化误差,在流域暴雨洪涝灾害评估中具有重要的应用价值。
智慧科研大数据中心建设与应用实践
作者: 谢靖 , 钱力 , 张冬荣 , 吴振新
在当前大数据与人工智能科研知识环境下,本文跟踪分析了国内外科研大数据服务发展趋势与面临的问题,描述了中国科学院文献情报中心在文献情报科研大数据的基础上,结合开放网络数据、科研领域特色数据、以及行业企业数据,建设智慧科研大数据中心的研究思路与实践工作。面向科研大数据知识图谱、信息精准服务、智能情报分析服务,深入介绍了智慧科研大数据中心的技术探索与应用实践。并基于智慧科研大数据中心的智能服务平台,面向科研、政府、行业机构等构建了一系列面向用户全价值链的智慧科研与情报服务产品体系。最后,对科研智慧服务未来发展趋势和愿景进行阐述和展望。
了解详情>>
在当前大数据与人工智能科研知识环境下,本文跟踪分析了国内外科研大数据服务发展趋势与面临的问题,描述了中国科学院文献情报中心在文献情报科研大数据的基础上,结合开放网络数据、科研领域特色数据、以及行业企业数据,建设智慧科研大数据中心的研究思路与实践工作。面向科研大数据知识图谱、信息精准服务、智能情报分析服务,深入介绍了智慧科研大数据中心的技术探索与应用实践。并基于智慧科研大数据中心的智能服务平台,面向科研、政府、行业机构等构建了一系列面向用户全价值链的智慧科研与情报服务产品体系。最后,对科研智慧服务未来发展趋势和愿景进行阐述和展望。
机构知识库的数据集成服务
作者: 祝忠明
机构知识库是科研学术机构实践科研成果开放获取和实现综合科研知识管理的机制与平台,科学数据作为机构重要的知识成果和知识资产类型,已日益成为机构知识库的新型知识管理对象。报告将综述科研学术机构利用机构知识库开展数据管理的国际进展,并围绕科研学术机构实现全谱段科研知识产出开放集成和服务的趋势,探讨以机构知识库为手段和形式,实现机构数据成果集成管理的有效模式、实践策略、以及与文献性成果实现关联集成服务的框架和流程等。
了解详情>>
机构知识库是科研学术机构实践科研成果开放获取和实现综合科研知识管理的机制与平台,科学数据作为机构重要的知识成果和知识资产类型,已日益成为机构知识库的新型知识管理对象。报告将综述科研学术机构利用机构知识库开展数据管理的国际进展,并围绕科研学术机构实现全谱段科研知识产出开放集成和服务的趋势,探讨以机构知识库为手段和形式,实现机构数据成果集成管理的有效模式、实践策略、以及与文献性成果实现关联集成服务的框架和流程等。