国内大模型“抢滩”:一线城市率先发力,主攻通用人工智能
来源:峰值财经 发布时间:2023-05-22 浏览量:次
ChatGPT“狂飙”,国内AI大模型“抢滩”。据中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%,企业数量超过4000家,中国人工智能产业已进入全球第一梯队。
此外,从中央到地方,政策层面不断释出利好信号,促进人工智能产业发展。
4月中共中央政治局会议指出,要重视通用人工智能发展,营造创新生态,重视防范风险。国联证券分析,政治局会议首提“通用人工智能”,产业趋势进一步明确。区别于此前中央经济工作会议等重要会议中泛指的“人工智能”,此次政治局会议明确强调“通用”,即ChatGPT自去年11月以来引领的通用性AI大模型技术路线。
近日,国家发改委主任郑栅洁发文称,加快发展数字经济。把握数字化、网络化、智能化方向,大力推进数字产业化和产业数字化,重视通用人工智能发展,支持平台企业在引领发展、创造就业、国际竞争中大显身手。 国内资讯网
21世纪经济报道记者梳理发现,已有省市率先行动起来。去年12月,《广东省新一代人工智能创新发展行动计划(2022-2025年)》发布,提出要开展核心技术攻关,形成全球领先科技成果。
去年9月,深圳发布《深圳经济特区人工智能产业促进条例》,成为我国首部人工智能产业专项立法;上海发布《上海市促进人工智能产业发展条例》,提出建成具有国际影响力的人工智能“上海高地”。
北京则聚焦于通用人工智能,近日发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》(以下简称《若干措施》)。
聚焦算力资源和数据要素供给能力
北京市政协经济委员会副主任、振兴国际智库理事长李志起表示,“AI大模型成熟的转化更多依赖具体的应用场景,中国在场景丰富度方面在全世界首屈一指,在政务处理、产业端应用都有优势,可以促进大模型商用的适用性。” 大连新闻网
李志起进一步指出,北京目前是中国人工智能产业链最完整的城市,是全站式产业链的聚集地。《2022年北京人工智能产业发展白皮书》显示,截至2022年10月,北京拥有人工智能核心企业1048家,占我国人工智能核心企业总量的29%,数量位列全国第一。“在企业数量、数据要素资源、产业链和算力建设等方面,北京都走在全国前列。”
北京正在持续发力,据悉,《若干措施》由北京市科委、中关村管委会制定,对加强算力资源统筹供给能力、提升高质量数据要素供给能力、系统布局大模型技术体系持续探索通用人工智能路径、推动通用人工智能技术创新场景应用、探索营造包容审慎监管环境五大方向,明确组织机制,提出21项具体措施。 大同新闻网
在加强算力资源统筹供给能力方向,依托全市数据中心统筹联席会议工作机制,加强市区两级相关单位与重点新型研发机构、云服务企业、算力建设企业、基础电信企业等单位的沟通协作,推动存量算力归集、新建项目论证和存量项目改造。该方向提出组织商业算力、新增算力基础设施建设、建设多云算力调度平台3项具体措施。
在提升高质量数据要素供给能力方向,归集高质量基础训练数据集,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。 黑龙江时政网
记者了解到,火爆出圈的ChatGPT是基于Open AI在GPT预训练语言大模型迭代生成的程序。大语言模型包含数千亿甚至更多参数的语言模型,以GPT-4为例,参数数量达到1.6万亿规模。在大规模语料库上经过预训练后,模型的能力被激发。从ChatGPT刮起的旋风开始,国内不少企业抢滩大模型。不过,对于语料库方面,中文环境的语料库存在不足,目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用。
对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,数据要素在通用人工智能的训练中有着非常重要的作用。“实际上,对比国内外的大模型,除了算法、模型之外,用以训练的数据语料库差别是非常大的。《若干措施》可以说是抓住了关键。” 六安民生网
此外,《若干措施》提出打造“国家数据基础制度先行先试示范区”,谋划国家级数据训练基地。加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据,进行定向有条件开放,企业或科研机构通过在线申请进行有偿使用,并探索基于数据贡献、模型应用的商业化场景合作。
搭建数据集精细化标注众包服务平台。建设指令数据集及多模态数据集众包服务平台,开发集成相关工具应用的智能云服务系统,鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据,提高训练数据的多样性,给予贡献者适当奖励,推动平台持续良性发展。 青阳新闻网
推动大模型技术体系系统布局和创新应用
《若干措施》还提出,系统布局大模型技术体系,持续探索通用人工智能路径。具体包括开展大模型创新算法及关键技术研究,加强大模型训练数据采集及治理工具研发,开放大模型评测基准及工具,推动大模型基础软硬件体系研发,探索具身智能、通用智能体和类脑智能等通用人工智能新路径5项具体措施。
张欣表示,在人工智能治理过程中,一个非常大的难点就在于框架规定好之后,如何去落地和推进。“这其实是有赖于一系列监管工具的,比如算法评估、认证、审计等等。比如新加坡就以系列工具包的形式来进行监管。” 国内热点网
“《若干措施》提出要加强大模型训练数据采集及治理工具研发,我认为是很先进的,这也是未来一个很重要的监管方向,是推动监管分类分级、精细化和场景化治理的重要抓手。”张欣说。
在推动大模型技术创新场景应用方向,充分发挥大模型泛化能力强的特点,结合北京市优势场景资源,引导企业充分挖掘领域数据资源,开展领域大模型应用技术研究,拓展大模型应用边界,探索面向细分垂直领域的大模型商业模式和创新生态。该方向提出面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理领域拓展应用场景6项具体措施。
“这几个领域与目前北京的资源禀赋与工作重点高度相关。”李志起表示,在政务服务领域,北京的数字政府建设、营商环境营造、智慧医疗、智慧交通等拥有坚实基础,再加上人工智能的助力,会走向成熟应用的新阶段。在医疗领域,北京是全国优质医疗资源的聚集地,金融领域也是如此,大多数银行、金融机构总部设在北京。这些行业对参与人工智能变革的积极性也非常高。此外,这些领域也是公众非常关注的,有利于提升社会满意度。 科技新闻网
“如果能聚焦这些垂直领域的创新场景应用,打造出更多有竞争力的企业,为新的经济增长点做布局,可以给全国提供北京方案。”李志起说。
强调包容审慎监管,优化安全评估流程机制
随着大模型技术的快速发展,数据安全、网络安全、科技伦理等问题引发各界关注。如何推动通用人工智能创新与安全协同发展?
《若干措施》提出,探索营造包容审慎监管环境方向,建立与大模型企业常态化联系与服务机制,持续调研跟踪企业在安全评估中遇到的难点堵点,加强同国家网信办沟通协调,积极争取在中关村核心区建立先行先试特区,推动实行包容审慎监管试点。持续推动监管政策和监管流程创新、建立常态化服务和指导机制、加强大模型网络安全防护和个人数据保护、持续提升人工智能产业伦理治理自律自治能力。 国内新闻网
李志起表示,监管思路采取审慎包容是非常有必要的,因为整个人工智能仍处于起步阶段,不能犯“一管就死,一放就乱”的问题,允许市场化企业试错,探索出一条创新发展模式。要先划出原则红线,严格数据合法性、坚持人工智能伦理,相关应用者要承担相应的主体责任。在红线划定后,要持更加开放的态度,促进产业创新。
在张欣看来,创新监管需要关注几个方面:一是监管的基础设施,在智慧型监管工具设定后如何去具体落地。二是监管生态,如何设立相应规则,为企业提供制度激励,促进行业自律,重视科技伦理。三是“软法”和“硬法”的有效协同,面对通用人工智能,仅依靠法律的效果比较有限,还需要制定相应的技术标准、伦理规范等等。 滁州资讯网
对于“监管前置”等问题,张欣告诉记者,“算法备案发挥的影响力还是挺大的。我认为还是需要分场景和类型来讨论。”
“如果预判的是高风险场景,并且风险是跨域的,发生后很难救济和改变,将介入点前置其实要比事后被动应对要更好。如果在低风险场景,例如简单的图片生成、搜索引擎应用等等,发生安全风险的情况较少,那么在一定程度上可以放松一些。总体而言,还是要结合风险的类别和程度来综合考虑处理。”张欣解释道。
21世纪经济报道记者 钟雨欣 王俊 北京报道
编辑:黄杨