专访全国政协委员陈松蹊:深度学习和统计分析相结合,推动人工智能的高效绿色发展

21世纪经济报道记者 周潇枭 北京报道 政府工作报告指出,制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。

全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊今年两会带来的提案跟“数字中国”建设相关,他建议加强数据分析人才培养、推进公共数据开放,这样中国才能在全球数据赋能竞赛中成为“领跑者”,才能更好地推动实现科技自立自强。

近日,21世纪经济报道记者带着相关问题专访了陈松蹊。陈松蹊表示,中国发展人工智能要走自己的路,可以把深度学习和统计学结合起来,走一条更效能更绿色的发展之路。


数据驱动经济腾飞有经典案例

《21世纪》:今年两会你带来的提案,有一份是关于加强数据分析人才培养。在推进人工智能发展过程中,数据起到什么作用?数据分析起到什么作用?

陈松蹊:人工智能的算法是基于数据,基于高质量数据。人工智能的基础,一个是计算机,一个是统计学。像人工智能大模型,就是基于大量的、无序的、有偏差的数据,应用统计思想、统计分析方法,构建的分析决策模型。

近些年,人力资源部发布的数据显示,我国数据分析人才非常欠缺。大量数据要真正实现“赋能”,需要经过数据分析,因为数据存在随机性、误差等特征。只有通过分析数据才知道其质量、价值、是否可以赋能;只有经过统计分析才能真正用于决策。

统计学是一门基础学科,各个学科的实证分析,都需要用到统计学。统计学科数据赋能的历史已有150年,在农业、工业、生物制药、医学、金融等领域都有广泛的应用。

像日本经济实现腾飞很关键的一环在于1950年代开始使用统计学的质量控制,在数据分析的基础上提升了工业产品质量,是数据驱动经济腾飞的经典案例。药物临床试验要做的实证分析,是通过实验组和对照组来对比验证药物是否有效,这里面数据的采集分析需要用到统计学方法。美国几个大的药厂都雇佣600名统计博士。另外一个数据赋能的成功案例是信用卡公司,信用卡个人信用风险评估,就是基于大量个人数据,应用统计学方法建模分析对不同客户进行风险打分。近年来,部分统计学毕业生进入互联网公司,跟算法工程师一起完善算法。

我们团队之前监测大气污染的治理效果,就在考虑统计团队可以贡献什么。因为此前评估空气污染治理效果,主要基于观测到的大气污染平均浓度,但是大气污染受到排放、气象条件等多因素影响。我们应用统计学方法剔除掉气象因素,排除掉“天帮忙”的情形,基于排放来监测大气状况,来评估地方大气治理的效果,这样的评估会更加公平有效。


加强统计分析来挖掘数据生产力

《21世纪》:我国大数据产业发展多年,但很多大数据公司似乎难以盈利,在你看来背后的原因是什么?

陈松蹊:我国大数据产业发展有十多年了,此前很多公司侧重在卖硬件,在显示、存储、算力等方面投入较多,但是在数据分析这块还比较欠缺。要真正实现数据赋能,不能只是配备硬件,需要在某个领域里深耕,真正利用数据分析实现科学决策,这样才能真正盈利。现在要补齐数据分析能力,基于行业特点通过数据分析,才能判断数据的质量和价值,才能摸索出数据赋能的路径,才能释放数据的生产力。

数据赋能现在有两条路,一条是自上而下,一条是自下而上。“自上而下”就是大模型的应用,使用通用模型来解决问题。但是,大模型耗电量很大,需要使用很多超算,训练模式也比较复杂,通用大模型下沉到具体企业还有很长的路要走。对于企业而言,其实更适合“自下而上”,就是企业把自己产生的数据先分析利用起来,在此基础上解决企业、行业现实的问题。数据赋能是一个长期事业,需要企业有自己的数据分析师,而不是只是找短期咨询师,咨询完后就走人。

数据是国家或企业的战略资源,但是数据本身不会自动赋能,要通过数据分析才能实现。通过数据分析挖掘数据生产力,是数字中国建设的一个关键。


统计分析让人工智能更高效更绿色

《21世纪》:去年美国的ChatGPT,今年开年的Sora,都让大家惊讶于人工智能的发展。中国的人工智能应该朝着什么方向努力?

陈松蹊:中国需要走出自己的路,不然总是跟在别人后面。现在大模型主要靠算力,也消耗很多能源,中国可以考虑是否能让人工智能变得更绿色,比如把深度学习和统计分析结合起来,在前端做更多聪明的事情,减少一些蛮力投入,这样对能源的消耗不会那么大,让人工智能的发展路径更加绿色高效。


公共数据开放需建立规范机制

《21世纪》:你今年还有一份提案,建议“加强公共数据共享,推动科技数据自立自强”。公共数据的开放,现在是否变得更迫切?在推动公共数据开放共享方面,有何建议?

陈松蹊:数据是最新的生产要素,新质生产力的发展往往需要数据驱动。要想数据赋能,要想弯道超车,需要有顶层设计,需要在数据标准、交易制度、数据开放等方面做更多工作。2023年专门成立国家数据局,就是为了更好推动相关基础工作。

科学家和企业对公共数据都有需求。比如,智慧农业对气象、地表、土壤等数据都有需求。科学家们需要稳定的数据来源,因为做科研发表时所用数据其他人也要可以获取,用于重复验证,因此公共数据对外公开的标准和格式都应该有规范,不要随意更改。

要推动实现高水平科技自立自强,首先需要提高公共数据的开放度。中国科学家可以基于中国海量数据,构建高质量的数据集,进而推动相关研究、人工智能往前发展。

因为国内公共数据获取存在困难,我国科学家大量使用国外的公共数据进行科学研究。比如英国生物银行基于30万大样本人群的遗传、生活环境和健康数据,是脑科学、生物统计、人口遗传等学科研究常用的数据来源。华为的盘古气象大模型,是基于欧洲气象中心的数据,构建了再分析数据集,进而训练成功的。世界卫生组织发布的各国流行病数据,也是开展相关研究的重要公共数据来源。

在公共数据开放方面,政府可以带个头。那些不涉及国家安全的数据,诸如经济、地球科学、交通、气象等数据,应该尽可能多地公开共享。建议建立一套公共数据公开透明的机制,明确哪些可以对外公开,哪些做了风险评估后公开,哪些需要签订保密协议等。当然,搜集采集数据是有成本,有些数据的获取可以收费。

(作者:周潇枭 编辑:周上祺)