数字经济的崛起催生了大数据、云计算、人工智能等新产业,也推动着传统行业的数字化转型。在“数实融合”的背景下,具备创新思维和跨界融合能力的数字经济复合人才缺口不断加大,数字人才的培育成为重要发力方向。
为探索国内数字经济教育的正确出路,8月28日,2024年中国国际大数据产业博览会“数字人才培养”交流活动在贵阳举行,中国科学院院士,清华大学统计与数据科学系教授,全国政协委员陈松蹊作主题报告。
陈松蹊作报告,图源主办方
陈松蹊指出,当前科学研究过程中,获取公共数据面临诸多困难,具体体现为获取渠道不畅、缺乏高质量的再分析科学数据集等,呼吁政府部门牵头,加快推动公共数据开放共享。另外在他看来,电商数据具有公共属性,建议电商平台公开部分数据用于科学研究、模型训练。会后,陈松蹊接受南都·隐私护卫队专访,就公共数据开放等问题进行深入交流。
建议电商平台公开部分数据用于科研
会上,陈松蹊首先强调了统计学学科的重要性。他表示,在数字经济时代,数据只有经过分析才知其质量、价值、可否赋能,统计学作为指导数据收集和分析的学科,能帮助人们明确在随机与不确定性下如何使用数据,作出决策。可以说,统计学是一个方法论学科,是理工农医、社会科学研究开展的重要基础。
不过,他也指出,当前我国数据分析人才十分欠缺。据人力资源和社会保障部估计,预计“十四五”期间,统计与大数据人才需求总量将达到2000万人左右。
为此,作为全国政协委员的他,连续两年都提交了与统计学人才培养相关的提案,提出的建议包括将统计学纳入“强基计划”“基础学科拔尖学生培养计划”,加强统计与数据科学核心课程体系建设,加大统计学一流学科建设的支持力度等等。
统计学把数据作为唯一研究对象,数十年来专注于该领域研究的陈松蹊深知大量高质量数据的深刻价值,因此公共数据的开放共享成为他的重点关注方向。
陈松蹊表示,公共数据是解决国家重大需求、卡脖子问题所必需的数据基础。然而在当前科学研究过程中,获取公共数据面临诸多困难,具体体现为获取渠道不畅、过度依赖国外公共数据集、缺乏高质量的再分析科学数据集等。为解决这些问题,他重点提及了电商数据的共享开放。
在陈松蹊看来,电商数据的体量非常庞大,且带有公共属性,“因为它由广大老百姓的购买行为而产生,并不是企业自身产生的数据。”他建议,电商平台应公开部分数据用于科学研究、模型训练。
学科交叉的本质是基础与应用研究的结合
南都:在科学研究过程中,获取公共数据具体面临哪些困难?您建议如何解决?
陈松蹊:首先要明确一个定义,公共数据是国家授权的公共管理和服务机构在履行公共管理职责或提供服务过程中收集、产生和处理的数据,需去除涉及个人隐私的部分。这类数据非常庞大且有价值,在数据已成为生产力原材料的当下,如何提高其资源配置效率和使用效益极其重要。
科学研究对公共数据的需求很大,比如农业需要温度、湿度、降雨量、土壤质量数据,医学药学需要大量医疗数据,环境研究需要气象数据等等。据我观察,目前在获取公共数据方面存在三大困难。
一是获取渠道不畅,通过网络下载的方式无法获取历史数据,下载通道不稳定,研究权威性容易受到影响。同时,某些公共数据仅能由拥有国家项目的企业获得,获取标准设立过高,导致多数实体企业都无法使用。
二是过度依赖国外公共数据集。获取渠道不畅导致我国科研人员大量使用国外公开数据集的情况十分普遍,比如华为的盘古气象模型是基于欧洲气象中心的再分析数据进行训练。
在我看来,这不利于科学自立自强,不利于掌握科技主动权,更不利于讲好“中国故事”。举个例子,如果国际形势出现变化,国外公共数据集来源被切断,国内的很多项目研究都可能陷入相当被动的局面。
三是缺乏高质量的再分析科学数据集。再分析数据是现有技术条件下最优质的数据集,能解决部分数据空间分布不均、时间延续性差、种类不全等缺陷。
在上述基础上,我建议由政府部门牵头,尽快打造一套公共数据开放共享体系,持续扩大公共数据的开放范围,提高开放数据质量。
南都:您提到电商数据具有公共属性,可否展开解释?
陈松蹊:我认为电商数据具有公共属性,原因是该数据的所有者不仅是电商平台,用户通过网上购物活动等产生数据,该数据一定程度上也归属于用户。
据我了解,电商平台是实现数据赋能情况最好的一类主体,他们利用海量电商数据创造了很高价值,也应该作出回馈。不需要平台将所有数据都公开,只要在脱敏的基础上公开一部分,供科研机构及企业用于统计研究、机器学习,AI训练等,整个国家的数据事业都能实现极大发展。
南都:您在会上还提到了企业应打造“数据文化”,如何理解?
陈松蹊:经过多年大数据浪潮的席卷,实体经济领域基本都意识到了数据的巨大价值。不过,除了电商平台,多数实体企业仍不清楚如何挖掘数据价值。因此从企业主动性角度出发,我提出了打造“数据文化”这一概念,意思是企业应具备利用数据进行决策管理的意识。
南都:您一直专注于统计学研究和教育事业,在您看来,该领域人才严重缺乏的原因是什么?
陈松蹊:当前我国面临数据分析人才严重不足的困境,一个很重要的原因就是对统计学重视不足,比如在各大综合类高校中,只有极少数拥有独立统计学院。今年7月,清华大学成立统计与数据科学系是一次重大突破,我担任该系筹备与建设委员会成员,希望能推动统计学基础理论研究,促进其与人工智能等前沿领域的交叉融合。
南都:在数字经济教育中,跨学科教育被认为是培养全面人才的关键。从多年学科研究和教育经验出发,您认为要建设交叉学科,什么最重要?
陈松蹊:统计学作为方法论学科,一直承载起多学科的交叉研究。我认为,建设交叉学科的本质就是更加重视基础研究与应用研究的结合,以现实为导向,解决社会发展中的具体问题。
采写:南都记者樊文扬
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.