工行CTO吕仲涛：银行大模型应用的两条可行路径

来源：峰值财经发布时间：2023-06-20 浏览量：次

“基础大模型投入数据量大、算力成本高、算法难度大，所以由头部AI公司进行建设。虽然通识能力较强，但其缺少金融专业知识，对金融场景应用有限。”6月10日，新金融联盟学术理事、工商银行(行情601398,诊股)首席技术官吕仲涛在新金融联盟举办的“金融机构数智化转型与大模型技术应用”内部研讨会上表示。　　吕仲涛认为，要实现大模型在金融行业的规模化应用，有两条可行路径：　　对于大型金融机构而言，由于拥有海量金融数据，应用场景丰富，宜引入业界领先的基础大模型，自建金融行业、企业大模型，考虑到建设周期较长，可采用微调形成专业领域的任务大模型，快速赋能业务。　　对于中小金融机构而言，可综合考虑应用产出和投入成本的性价比，按需引入各类大模型的公有云API或私有化部署服务，直接满足赋能诉求。　　会上，民生银行(行情600016,诊股)数据管理部总经理沈志勇、平安银行(行情000001,诊股)数字资产管理与研发中心总经理刘锦淼、第四范式联合创始人胡时伟也做了主题发言。新金融联盟理事长、中国银行(行情601988,诊股)原行长李礼辉及中国信通院金融科技研究中心副主任赵小飞进行了点评交流。　　56家银行及非银机构、55家科技公司的170多位嘉宾通过线上线下(行情300959,诊股)参会。会议由新金融联盟秘书长吴雨珊主持，中国金融四十人论坛提供学术支持。会议实录详见→《如何释放大模型对金融行业的价值？》以下为吕仲涛的发言全文，已经本人审核。　　AI大模型行业落地探索实践　　文 | 吕仲涛　　图片　　图片　　吕仲涛　　各位来宾，大家好！很荣幸向各位领导和行业专家分享介绍工商银行在人工智能大模型应用方面的落地探索实践。　　图片　　什么是大模型　　2022年11月以来，随着ChatGPT的发布，人工智能大模型技术成为社会各界关注的热点。国际人工智能权威杂志《自然-机器智能》将大模型定义为网络参数规模达到亿级以上的“预训练深度学习算法”。大模型通过海量数据(行情603138,诊股)的训练学习，具备了强大的语言理解和表达、思维链推理等能力，在文本图像理解、内容生成等AI任务表现出显著优势和巨大潜力。　　相较于传统人工智能算法一事一议的建模方式，大模型具备更强的通用能力，可处理多种任务，可较好解决传统模型的碎片化问题。其特点可以总结为“三大一快”。三大，指的是大模型基于“大算力+大数据+大算法参数网络结构”进行训练，实现通用海量知识预置。一快，指的是大模型通用能力强，各行业可在大模型基础上，直接使用或“站在巨人肩膀上”通过再次训练快速学会新知识，快速赋能业务应用。　　大模型可根据参数规模、数据模态、建模方式三个维度进行分类。　　从参数规模看，大模型一般指参数规模到达亿级以上的深度学习模型。大模型作为一种复杂的类似人脑的神经网络，一般来说其参数规模越大，可容纳的知识越多，能力就越强。根据参数规模不同，可分为十亿、百亿、千亿甚至万亿参数大模型，十亿大模型只具备简单的识别分析能力，用于文本分类、文本相似度等简单任务；百亿大模型具备一定的文本生成和通用能力，能处理逻辑推理简单、难度相对较低的文章摘要生成、闲聊等任务，难以处理逻辑复杂、专业性强的任务；千亿大模型“存储空间”更大，不容易出现信息遗忘，可以学习海量数据，并具备较强的逻辑推理和生成能力，相较百亿大模型，千亿大模型在知识问答、阅读理解、逻辑推理、文章撰写等逻辑推理复杂、专业性强的任务上提升显著；万亿大模型因算力消耗极大，短期内难以进行商业推广应用。　　千亿大模型平衡了百亿和万亿大模型优势，相较于百亿大模型，数据“记忆”能力更强，具备更强的逻辑推理和生成能力，相较于万亿大模型，性价比优势明显。因此，千亿大模型是近几年发展及应用的重点。　　从数据模态看，模态是指数据表达的形态，通常包括文本、图像、音频、视频等。大模型根据支持不同数据模态的数量，可分为单模态和多模态大模型，其中单模态大模型可以是处理文本的自然语言大模型、处理图像的视觉大模型等。多模态大模型可以同时处理图像、文本等多种数据类型，目前较为成熟的如用于以文生图或以图生文的多模态大模型。　　2022年11月，OpenAI推出的基于千亿级自然语言大模型的ChatGPT服务展示了出色的文本通用任务解决能力。单模态的自然语言大模型因其较强的理解能力，便捷的交互方式等因素，成为近期发展重点。虽然ChatGPT4已经走入多模态，但单模态大模型无论从语言还是视觉仍有发展空间，并非所有东西都是一下子到多模态。　　人工智能建模方式是指在人工智能领域中，使用各种算法和技术来构建模型，以实现对现实世界的各种问题进行分析、理解、生成等任务。　　从建模方式看，大模型分为分析式、生成式大模型两类。其中分析式大模型也叫判别式大模型，其原理是通过学习训练数据的历史规律，对未知数据进行分类或预测，一般用于处理文本分类等上下文较为简单的分析理解任务，典型算法如谷歌的BERT；生成式大模型通过学习数据产生的模式，能更好的分析理解数据，并实现新样本内容的创造，可用于文章撰写、代码生成等内容智能化创作任务，典型算法如OpenAI的ChatGPT。　　生成式大模型相较于分析式大模型，具备强大的内容生成和分析推理能力，实现了人工智能从传统识别分析到生成创造能力的跃迁，业界把此类能力称呼为AIGC，（人工智能内容生成），成为业界应用热点。　　对于确定的模型，均包含以上三种分类信息，例如，Open AI的GPT-4是千亿级、多模态、生成式大模型。　　从ChatGPT诞生以来，国内外大模型浪潮持续高涨，并形成了算法研发、产品应用的产业链生态。但相较国际领先水平，国内大模型仍存在代际差距。从算法生态来说，目前最优秀的大模型是OpenAI的GPT-4，这是一个多模态大模型，在很多领域专业和学术基准上表现出人类水平。国内，各类AI公司纷纷入局，已推出如百度文心一言、清华GLM、阿里通义千问、讯飞星火等等产品，各有擅长。在应用层面，微软依托投资GPT4红利，已在搜索、办公、安全等传统领域推出智能化产品。国内，在应用层面仍初步起步阶段，有待进一步探索。　　图片　　大模型与传统模型的关系　　商业银行不是靠一个大模型就能打遍天下，大模型与传统模型有一定关系，二者同时推进。　　要讲清楚大模型和传统模型的关系，首先，我们要了解大模型在人工智能技术关系的定位。通过工行的实践，大模型技术不是一个独立的算法或者服务，它是一个复杂的体系性工程，包括了大模型算力集群建设、大模型算法沉淀、大模型配套流水线工具、大模型服务等内容，同时通过大模型赋能，实现了自然语言处理、图像识别、知识图谱等垂直领域技术平台的能力迭代升级。　　工商银行经过5年多的建设，目前已经沉淀人工智能模型3000余个，包括传统机器学习模型、传统深度学习模型和大模型三类。一是传统机器学习模型，因可解释性强，广泛用于欺诈交易预测、理财产品营销推荐等智能决策分析应用，二是传统深度学习模型广泛用于OCR识别、人脸识别、语音识别等感知识别类任务，有效提升劳动密集型工作；经过探索实践，大模型可用于文本、图像等AIGC任务，提升智力密集型工作质效。　　从趋势来看，大模型随通用能力增强，将逐步超越传统模型的能力，但受制于计算复杂度高、可解释性差等问题，短期内，大模型和传统模型会共存，同时，大模型可作为中控，将传统模型作为技能进行调用。未来，随着若大模型计算复杂度降低、可解释性增强，综合性价比来看，大模型将逐步替代传统模型。　　大模型与传统模型的研发和应用模式有所区别。大模型引入分布式预训练、基于人类反馈的强化学习、提示词工程等新技术，实现“点醒激发”大模型潜能，相较传统模型，一是研发态，大模型在算力投入、数据积累、人员技能、算法复杂度等方面要求更高，一般是组建专业团队，多人训练一个模型；二是应用态，从碎片化的API调用演化到统一的提示词挖掘调用，技术集成研发难度降低。　　图片　　大模型对于商业银行的应用价值　　大模型作为一种新型的人工智能技术，工商银行积极探索应用，提升智能客服、智慧办公、运营管理、营销创造、智能研发等业务领域的智能化水平，真正解决一线员工的痛点问题。　　智能客服领域，存在大量信用卡、存贷款等业务办理规定，传统模式，坐席人员在服务客户时，需要和系统多次进行交互查询，整个处理流程需要一定时间，客户等待时间长。通过大模型的文档理解分析和生成能力，自动从大量银行业务办理规定中，总结提炼全面、专业、精准的应答话术，给坐席人员提供参考，提升应答效率和客户满意度。　　运营管理领域，网点员工日常工作中存在制度规范检索难、复杂业务办理难、专业术语解释难等业务痛点问题，通过摘要生成、信息提取等大模型能力，让大量“静态”文档转换场景化、流程化的“活”指引，提升网点员工业务应变和沟通能力，打造高质量服务。　　智慧办公领域，通过大模型AIGC能力，助力编写会议摘要、写汇报初稿、润色文档、制作海报等，提升办公效率。比如会议纪要生成，根据会议对话内容，大模型快速生成会议纪要初稿，降低人工记录会议纪要的成本。同时，利用大模型代码生成、代码补全等能力，可提升一线开发人员编码效率和质量。　　图片　　大模型应用面临的风险和挑战　　大模型本质是一个海量参数的深度学习算法，受制于当前模型黑盒、计算复杂度高等因素，存在答非所问、科技伦理风险等方面问题。比如，ChatGPT生成大量看起来合乎逻辑，但内容可能并非真实甚至是捏造的事实，存在非法利用、造谣等安全隐患。　　国家高度重视大模型应用安全，国家网信办明确“利用人工智能生成的内容应当体现社会主义核心价值观”，并要求谨慎对客，同时对客场景需要统一报批。　　虽然大模型有各类安全风险，但同样给银行业数字化转型带来新机遇。在这过程中，我们需要解决数据、算力、算法、应用等诸多挑战。　　一是大模型需要大数据。通过数据驱动，释放数据要素价值，加速金融行业和企业大模型建设，加速推进银行业数字化转型。　　二是大模型需要大算力。当前国内外算力市场面临着算力供给短缺、多厂商异构算力融合、国产AI生态不足、机房和网络建设等复杂情况，金融机构需要深化与产界各方的合作，来共同推动解决大规模算力部署和应用挑战。　　三是大模型需要大合作。银行业要加快探索引入业界通用的大模型技术的策略和实践，通过推进大模型算法在银行业的应用实践，加快大模型能力增强，从而提升大模型服务金融行业能力。　　四是大模型需要大创新。大模型要能在银行深化应用，就需要探索形成一套面向银行业的高标准、低门槛的银行业金融大模型应用模式，来快速推进人工智能在金融领域的深化应用。　　图片　　商业银行的落地方案　　关于大模型应用落地，目前业界尚无标准方法论，企业可按照场景通用化、专业化程度，分别使用基础大模型、行业大模型、企业大模型、任务大模型，四层模型训练数据规模和投入算力逐层递减，专业属性逐层增强。　　其中，基础大模型由于投入数据量大、算力成本高、算法难度大，由头部AI公司进行建设，虽然通识能力较强，但其缺少金融专业知识，对金融场景应用有限。　　要实现大模型在金融行业的规模化应用，有两条可行路径：　　对于大型金融机构而言，由于拥有海量金融数据，应用场景丰富，宜引入业界领先的基础大模型，自建金融行业、企业大模型，考虑到建设周期较长，可采用微调形成专业领域的任务大模型，快速赋能业务。比如我行前期和鹏城实验室联创，通过微调，率先实现了人工智能大模型在行业内的应用。　　对于中小金融机构而言，可综合考虑应用产出和投入成本的性价比，按需引入各类大模型的公有云API或私有化部署服务，直接满足赋能诉求。　　通过工商银行的前期实践，我们认为大模型在文本、图像等领域的AIGC能力优势明显，但当前阶段并不成熟，仍存在科技伦理风险等问题。因此，短期内不建议直接对客使用，应优先面向金融文本和金融图像分析理解创作的智力密集型场景，以助手形式，人机协同提升业务人员工作质效。　　工商银行经过前期大模型在数字员工的一些探索应用，我们发现基于大模型技术的人机交互能力、信息汇聚能力，可以实现多种能力的信息整合。一方面可以整合系统入口，形成全员通过自然语言交互，开展分析、预测、监测等金融工作新模式，实现为每位员工配备一位AI助理。另一方面，通过大模型、传统模型、业务交易流程的融合，更有利于发挥数据要素的倍增和乘数效应，实现更为高效的业务流程。　　我们相信在大模型的助力下，金融机构会提升人机协同智能化、经营决策智能化、业务流程智能化，更好实现数字化转型，并最终赋能实体经济和人民美好生活。

上一篇：旋极信息等共设数字产业发展基金私募公司，注册资本超6亿
下一篇：“水韵江苏”活动让日本民众向往中国之旅