阿里云金融创新峰会今日召开，发布业内首份金融大模型指南-齐鲁晚报网

“在有限算力与持续进化的算力需求之间的矛盾中，机构要如何根据业务场景选择合适的模型？开源模型与商业模型各有优劣，企业应该如何根据自身需求和资源选择合适的模型？”

5月24日，在2024阿里云金融创新峰会上，阿里云发布了业内首份金融大模型应用指南《百炼成金：大金融模型新篇章》，试图回答上述这些常困扰企业的问题，为大模型落地金融行业提供参考。

该报告由阿里云智能集团副总裁、新金融行业总经理张翅执笔，深入总结了金融企业拥抱大模型面临的挑战，揭示大模型背后的发展趋势，并描绘了如何构建金融级AI原生蓝图。

大模型发展背景与趋势

大模型是DT时代标志性产物

大模型是数字转型（DT）时代的产物，标志着人工智能技术的一次重大突破，尤其是在自然语言处理（NLP）、图像识别、推荐系统等领域。这些大模型，如OpenAI的GPT系列、Meta的Llama、Google的Gemini，基于Transformer架构，通过消化海量数据集进行预训练，获得了对人类语言、图像等数据的深入理解和处理能力。

AI大模型：人类知识存储、传承和使用方式的一次重构

在数字转型时代，大模型为企业提供了前所未有的机遇，使其能够通过高效的数据分析和决策，实现业务流程的智能化、优化客户体验和创新产品服务。从金融行业的智能投顾和欺诈监测，到医疗行业的智能诊断和药物发现，再到零售行业的个性化推荐，大模型的应用正深刻改变着传统行业的运作模式和价值链。

在《全域数据“观”》一书中，我们曾断言：“数据的下一站是智能，数据最终会走向与业务系统的数智融合”，数据消费正在由“人”变成“系统”。未来数据技术将与云原生和智能化全面融合，形成“云数智一体化”服务。云原生技术栈，为企业带来了资源弹性、异构算力、容器和微服务等技术手段，为业务创新和系统建设提供了高效、敏捷以及成本低、可扩展的解决方案；数据中台的兴起，让企业将数据库里“不会说话”的表格，转换成指标、标签、因子、特征等数据资产形态，并直接用于分析与业务决策。现如今，AI大模型正在以惊人的速度重构各行各业的业务流程与系统产品，一方面云原生为大模型训练与推理提供了资源保障，数据中台为大模型应用提供高质量语料和结构化知识；另一方面在大模型全面“智能涌现”能力的驱动下，将传统偏零散化的数据能力进一步体系化和智能化，加快BI+AI的融合，实现从“洞见”到“决策”，推动企业加速走向“云数智一体化”的终极形态，最终为客户带来更为全新的产品服务体验。

大模型发展的趋势

趋势一：“Cloud+AI”大模型与云的结合日益紧密

在信息技术领域，无疑地，云计算和人工智能（AI）大模型的快速发展正日益成为推动现代社会进步的两大驱动力。特别是在中国和美国，这两种技术不仅诞生并蓬勃发展，还持续引领着全球技术革命的浪潮。随着时间的推移，大模型与云计算的结合日益紧密，这种融合在推动着科技界走向新的里程碑。

首先，观察全球技术发展格局可以发现，中国和美国无疑是云技术和AI大模型诞生与创新的两大中心。这两个国家不仅拥有领先的技术研发实力，还具备广阔的市场应用场景和成熟的产业生态，促进了云计算和AI大模型技术的飞速发展，并在全球范围内形成了巨大的影响力。

进一步而言，大模型的迭代进化主要发生在云端。这是因为云计算提供了高度可扩展的计算资源，使得研究人员和开发者能够在无需自建庞大物理基础设施的情况下，进行模型的训练和部署。云平台上的弹性资源和高效管理工具为大模型的开发和优化提供了理想的环境，极大地加速了AI大模型的迭代周期，使得模型能够更快地进化和优化，更好地适应各种复杂的应用需求。

而且，大模型所遵循的scalinglaws（规模定律）正重塑着算力基础设施。随着模型规模的不断扩大，其对计算资源的需求也呈指数级增长，这一现象催生了对更高性能、更高效率算力基础设施的需求。云计算平台通过部署先进的硬件技术、优化计算资源分配和加强数据处理能力来应对这一需求，进而推动了算力基础设施的快速进化。这种进化不仅满足了当前大模型对算力的高需求，也为未来AI技术的持续创新和应用提供了坚实的支撑。

大模型与云计算的紧密结合，不仅体现在中国和美国这两个技术强国的快速发展上，更在于云端成为大模型迭代进化的主战场，以及大模型对算力基础设施的重新塑形。这种趋势预示着，未来科技的进步将在这样的融合与互动中继续加速，推动人类社会进入一个全新的智能时代。

趋势二：“AI Everywhere”大模型无处不在，成为企业数字化标配

在当今的数字化时代，大模型技术以其强大的数据处理能力和智能化水平，正逐步成为企业数字化转型的标配。其广泛的应用不仅仅局限于传统的计算中心，更是与小模型、新终端以及数据中台结合，共同构筑起一个多元化部署与互联互通的新生态，极大地深化了对数据资源的挖掘与运用能力。

首先，大模型与小模型的结合体现了模型部署的多元化。大模型因其强大的学习和预测能力，成为许多复杂任务的首选。然而，针对一些对实时性、资源消耗有严格要求的场景，小模型以其轻量级、高效率的特性，更为适合。通过将大模型预训练的强大认知能力与小模型的灵活部署结合，企业能够更高效、更经济地解决广泛的业务问题，实现智能决策和操作的优化。

接着，大模型与新终端的结合拓展了模型链接的多元化。随着物联网(IoT)的蓬勃发展，智能终端遍布生活的每一个角落。大模型不再局限于服务器端的运算，而是通过云计算和边缘计算下沉至各种智能终端，如智能手机、智能家居、自动驾驶车辆等。这种变化使得大模型的应用场景得到极大拓展，为用户带来更加丰富、便捷、个性化的智能服务。

最后，大模型与数据中台的紧密结合，促进了图像、音视频、文本等数据集的多元化。数据中台作为企业数据管理和运营的核心平台，为大模型提供了丰富、高质量的数据支持。通过有效地聚合和整合企业内外的各类数据资源，大模型可以在更加多元化的数据基础上进行训练和优化，能够处理和理解更加复杂多变的业务场景，如图像识别、语音视频处理、语言应用等，从而极大地提高了企业的业务处理能力和用户交互体验。

大模型正逐步渗透到企业数字化建设的各个层面，与小模型、新终端以及数据中台等多元化的元素相结合，进一步拓宽了其应用范围，提升了处理效率和智能水平。大模型无处不在，已经成为推动企业数字化转型的关键力量。

趋势三：“AI Native SaaS Rise”大模型企业级市场崛起，向深度化、产业化、垂直化方向发展

大模型技术的崛起已成为推动企业级市场向深度化、产业化、垂直化方向发展的关键动力。企业正越来越倾向于将这一技术作为核心驱动力，深入挖掘其在特定行业中的应用价值和潜力，进而实现智能化升级与业务创新。

首先，大模型在企业级市场中的深度化应用成为一种不可逆转的趋势。它们不仅被应用于优化传统的数据处理和分析流程，更在预测分析、个性化服务、自动决策制定等领域中展现出强大的能力。这种深度化应用的背后，是企业对于数据价值认知的提升以及对于操作效率和决策质量改进的需求。

“小切口，大纵深”的发展策略，正加速大模型在特定行业中的垂直化和产业化落地。企业通过聚焦于行业的细分领域，利用大模型深耕特定的痛点和需求，不仅提升了解决方案的适配性和有效性，也推动了整个行业的智能化水平。这种策略的实施，充分显示了大模型在解决复杂行业问题时的独特优势，促进了技术与行业深度融合，实现了产业升级。

企业间的开放新形态，特别是在金融领域涌现的新的OpenBanking模式，为大模型技术的应用开辟了更加广阔的舞台。Open Banking带来的数据共享和API开放不仅有利于现有金融服务的增值，还为金融科技创新和跨行业合作打开了大门。这为大模型技术的应用和发展提供了更加广阔的舞台和应用场景。

大模型技术在企业级市场的崛起，不仅预示着企业对于数据和智能的更深层次应用和挖掘，也引领了向产业化、垂直化方向的战略发展。

趋势四：“AI API First”大模型功能性能力突破性增长

近段时间以来，大模型正在经历功能性能力的快速增长和重大突破，其中多模态、Agent模式以及AssistantAPI成为了推动这一进程的关键力量。这些技术革新不仅扩展了大模型在不同领域的应用范围，还为人机交互和应用开发带来了新的可能。

多模态技术的出现和成熟拓展了大模型的广度，让机器能够同时处理和理解文本、图像、音频等多种类型的数据，实现了对人类沟通方式的更全面理解。这标志着AI从处理单一类型数据向综合理解不同数据类型的重大进步。多模态大模型在提升信息获取的全面性和准确性方面展示了巨大潜力，极大地丰富了AI在自动化内容创作、跨媒体信息检索、以及增强现实等方面的应用场景。

Agent模式的崛起，成为人类与AI协作的一种重要方式。在这种模式下，AI可以作为一个个体（agent），拥有自我学习和自主决策的能力，在特定的环境中根据既定的目标执行任务。这不仅表明了AI的工作模式正变得更加智能化和个性化，也为人类提供了强大的助手，从简单的数据分析到复杂的决策制定，AIAgent能够有效地辅助人类完成各种任务，推动人机协作进入新的阶段。

Assistant API的推出，为开发者提供了全新的能力，大幅降低了开发门槛。通过简单的API调用，开发者可以轻松地将大模型的强大功能集成到自己的应用或服务中，无需深入了解模型内部的复杂机理，即可搭建出智能化程度高、用户体验好的应用产品。这种开放的、低门槛的开发方式，不仅加速了创新应用的推出，也让更多企业和个人能够享受到AI技术带来的红利。

趋势五：“AI Cyber Security”大模型更重视隐私和数据安全

随着大模型的广泛应用，对隐私和数据安全的重视程度日益增强。企业和研究机构正在通过实施一系列措施，来加强对用户数据的保护，确保信息安全和隐私被妥善处理。这些措施的核心在于构建一个有效、可靠的数据管理及隐私防护框架，确保大模型安全评估体系的全面性，并解决AI工作的可解释性问题。

有效的数据分类分级制度成为奠定数据管理及隐私防护框架的基础。通过对数据进行系统的分类和分级，明确不同类别数据的处理要求和安全标准，可以更加有针对性地制定保护措施。这种方法不仅有助于提升数据处理的效率和精准度，也有利于识别和保护那些最敏感和价值最高的数据，从而有效减少数据泄露和滥用的风险。

构建一套全面的安全评估体系对于大模型体系至关重要。这套体系应涵盖大模型训练、部署、应用生命周期的各个阶段，从数据的收集、存储、使用到销毁等，每个环节都应进行严格的安全审查和评估。通过定期进行安全审计、漏洞扫描和风险评估等活动，可以及时发现和修复安全漏洞，强化系统的安全防护能力，减轻外部攻击和内部泄露的风险。

随着大模型应用到越来越多的场景，其工作的可解释性问题越来越受到重视。大模型，特别是transformer的架构被认为是“黑盒”，难以解释其决策逻辑和过程。增强AI工作的可解释性不仅有助于建立用户对AI决策的信任，也是确保模型公平、无偏见的关键。通过开发和应用新的解释性技术和方法，让AI的决策过程更加透明，可以有效提升模型的公正性和安全性，减少错误决策和偏差带来的风险。

金融企业拥抱大模型面临的挑战

“科技本质上是工具，其真正价值在于解决我们面临的各种问题，而非仅限于自我展示的华丽舞台。”这一观点在大模型领域同样适用且更具象化。我们可以定位大模型：“大模型之于问题，恰似钥匙之于锁，其存在的意义在于解锁通往智慧殿堂的大门，而非仅供观瞻的浮华装饰。”

大模型在金融领域的广泛应用并非一片坦途，它在为金融机构带来显著价值增益的同时，亦暴露出一系列不容忽视的问题与挑战。这些问题不仅关乎技术层面的可行性与稳定性，更延伸至合规、安全、伦理等多个关键维度，对金融企业的稳健运营与长期发展构成潜在考验。因此，深入探讨金融企业采用大模型可能面临的问题，对于理性评估其战略价值，制定科学的应对策略，乃至推动整个行业在技术创新与风险管理之间找到平衡至关重要。

问题1:“有限算力+持续进化的算力”，双重制约下的算力资源

“有限算力+持续进化的算力”，这种双重制约下的算力资源现状，体现了大模型时代中一个核心的矛盾和挑战：如何在当前资源的限制之下，同时规划和适应不断进化和增强的计算能力。这对应用场景选择、资源投入、大模型部署方式等方面提出了复杂的要求。

1、算力永远短缺：随着大模型参数量的持续膨胀，其对算力资源的消耗显著增长。同时，在AI持续“重塑”业务流程的过程中，对算力资源的需求也出现了急剧飙升。这两方面因素相叠加，共同加剧了现有算力资源供不应求的局面，使得算力短缺成为了一个常态性的挑战。

2、硬件高速迭代：GPU每18到24个月，迭代出一代新产品，配备更先进的架构和更强大的计算能力，而通常采购周期都以年为单位，使得我们将不得不面对，刚上线的算力资源，就被新一代所淘汰，性价比下降，同时还要面对算力利用率不高，资源极度浪费的情况。

3、资源兼容优化配置：国内外的不同厂商GPU算力水平参差不齐，技术框架互不兼容，整合这些异构的资源，管理配置和优化算力的使用，将是我们面临的又一个挑战。

问题2:“开源模型vs商业模型”，左右互搏的自建大模型之路

在大模型选型之路上，是选择开源模型还是商业模型？开源大模型和开源软件是一回事吗？

成熟开源软件与当下开源模型区别：

1、成熟开源软件通常是技术和能力相对成熟和稳定的软件应用和系统，分享的是完整的代码库和文档，用户可以自由地对与自身业务有关的代码进行修改，一般以使用核心能力为主定制为辅，版本迭代周期相对比较慢，同时也会规定了用户使用软件的权利和限制条件。

2、当下开源模型是专注于数据科学、人工智能和相关领域，作为数据处理和分析的关键组件，正处于技术迭代的高速发展期，一般以月或季度为单位进行新版本发布，并且技术和能力持续性攀升，一般版本开源是有限的，无法按照客户业务进行深度的定制，并且全局能力一般不建议调整。

开源模型与商业模型的优势与不足：

1、开源模型：通常允许用户审查和验证模型的代码和架构，不需要支付额外的许可费用，能够通过社区迭代升级。但需要专业人才研究和业务磨合尝试，周期长见效慢，缺少专门维护和支持，不包含商业产品中的安全和稳定性，文档和易用性支持较弱，模型升级迭代周期一般6-12个月，业务集成应用的时间会更长。我们不应该拘泥于对种类繁多参数的基础模型进行训练或微调，模型能力比对和测评，应该把更多精力放在如何让模型在业务中产生价值，因为不同的模型因训练数据的差别，业务适配能力又有不同。

2、商业模型：提供商虽然提供全面的客户支持和服务，附带明确的服务等级协议（SLA），模型迭代升级非常快，公有云以月为单位小版本迭代，线下以季度订阅更新，并提供对兼容性、稳定性和安全性的保证，能够满足金融行业的法规和遵从性要求，也提供完整的解决方案，软硬件产品的良好整合，降低业务场景落地的风险。但技术透明性较差，长期依赖特定的商业模型和平台可能导致供应商锁定，降低切换供应商的灵活性。

问题3:“大模型vs越来越大的模型”，模型size的军备竞赛

OpenAI的研究者在2020年发现，大语言模型也遵循着规模定律（ScalingLaw），模型参数数量的增加常常被看作是提高模型性能的一个关键因素。这导致了一种被业界戏称为“模型参数的军备竞赛”的现象，即科研机构和科技公司不断推出参数量更大、计算需求更高的模型，以追求在特定任务上的最佳性能。然而，这种军备竞赛带来了诸多挑战：

越来越大的模型通常具有更强的学习能力和泛化能力，因为有更多的参数可以捕捉数据中的复杂特征和模式。能够处理更复杂的任务和数据集，通常在各种基准和实际问题上表现更好。随着参数数量的增加，模型通常能够更好地理解语言的细微差别或更精准地识别图像中的对象。

但越来越大的模型带来能力提升的同时，也带来了海量的算力消耗，如何根据不同的业务场景选择合适的模型将是一个迫在眉睫的问题？

大模型推理运行时，核心消耗的资源是显存，推理过程中除了要加载对应参数的模型，还与输入输出的参数量有关，输入参数越多显存消耗越大，输出参数量越多模型响应越慢，我们根据一个简单的估算公式，来评估不同业务场景的资源消耗：

大模型推理的总显存占用公式：？？？？？？？？？？？？？？？？？？？？？？≈1.2？？？？？？？？？？？？？？？？？？？？？？？

（详见参考：Transformer Inference Arithmetic|kipply'sblog）

以72B参数的模型，在BF16精度下（浮点数2个字节）

？？？？？？？？？？？？？？？？？？？？？？≈1.2*？？？？？？？？？？？？？？？？？？？？？？（72亿*2）≈172.8G

运行一个72B的大模型至少需要3张A100（80G），现以企业知识库和智能外呼场景为例进行资源评估：

知识库检索场景：典型的RAG增强检索高并发场景，输入少输出多，每次问题请求处理时间在1-2s，峰值支持50并发（按照5000人的金融机构有1%的并发率），需要的GPU卡的数量在150-300张A100（80G），如果想要更精准的回复，可以选择200B或更大的模型，但200B大模型算力消耗会有2.7倍的增加。

智能外呼场景：典型的高并发低延时场景，输入多输出少，每次意图识别响应时间200-300ms，峰值支持1000并发，需要的GPU卡的数量在600-900张A100（80G）。

在正式生产业务应用时，业务是有典型的波峰波谷的，如果我们按照波峰要求建设算力池，势必会带来资源的低效使用，例如：知识库检索应用的平均资源利用率在20%-30%；智能外呼应用的平均资源利用率在5%-10%。如何提高算力资源利用率将是一个颇具挑战的问题？

问题4:“大模型RAG一天入门vs365天的持续优化”，RAG系统的修行

Retrieval-AugmentedGeneration(RAG)技术巧妙融合了信息检索与文本生成的双重优势，为应对复杂查询和生成任务（如问答系统、内容创造）提供了强有力的支持。尽管RAG技术展现出显著提升模型效能与拓展应用领域的潜力，它也遭遇了几点核心挑战，制约着其性能的极致发挥：

1、语义检索难关：实现精准的语义检索面临重重障碍，首要在于深入理解用户查询与文档内容的深层含义，并准确评估两者间的语义契合度。当前普遍采用基于数据向量化的手段，在向量空间通过距离或相似度指标来衡量语义接近度，但这种方法难以完美解决语义多义性、信息粒度不匹配、全局与局部相关性的权衡，以及向量空间分布不均带来的检索效率与效果问题。

2、信息增强的精细度：整合检索信息的过程中，若缺乏对上下文的把握，生成的文本容易显得碎片化，连贯性缺失。特别是在处理来自多个来源、风格迥异的段落时，既要避免内容重复，又要依据查询语境对检索片段精挑细选并合理排序，以确保输出的一致性和流畅度，这一过程考验着信息增强机制的智能化水平。

3、延迟挑战：在即时交互场景，如在线客服对话系统中，检索与生成的响应时间直接关系到用户体验。为了减少延迟，优化模型效率与系统架构成为迫切需求，要求RAG技术能在高时效性要求的应用中稳定运行。

问题5:“杀手级通用大模型vs百花齐放专属大模型”，企业级AI应用的价值自证？

企业在利用大模型进行业务升级改造时，选择使用一个杀手级通用大模型，还是百花齐放的专属大模型，取决于您具体的业务需求、战略目标和资源限制。无论选择哪种模式，都会面临挑战和价值自证。

杀手级通用大模型：选择大参数的基础模型，结合企业的数据进行微调，构建企业级的杀手级通用大模型。其优势在于能快速处理多样化的任务和应用场景，更快的带来直接的业务价值和经济收益；其挑战在于越大参数的模型微调需要的数据量就越大，算力消耗也更大，而且也较难应对特殊的高并发低延时场景。

百花齐放的专属大模型：根据不同知识域的业务需要，选择适合参数的大模型微调业务专属大模型，能够吸引和满足更广泛的客户群体和个性化定制服务的需要。通常情况越小参数的大模型，微调的效果越好，越大参数的模型微调的效果越难保障。多样化的模型和应用需求，可以快速推动企业在不同领域进行技术和业务创新。但多样化专属大模型，贵在精不在多，如何决策需要构建哪些专属大模型呢？又如何解决多个专属大模型统一运维管理的挑战？

无论选择哪种方式，都要确保大模型构建的AI应用能够与企业的长期战略相契合，并在实现业务目标的同时，提升客户体验和企业运营效率。因企业的自身特有数据量有限，大模型的微调需量力而行，比如当前千亿参数以上的大模型就不适合微调，不仅成本消耗大且能力提升有限，有可能还会影响原有大模型的推理能力。更为重要的是要建立收集反馈和定期评估应用的机制，推动大模型和业务应用的优化，在不断调整和完善中体现出AI大模型的价值。

问题6:“大模型广泛应用vs应用安全隐患”，大模型面临的安全挑战

随着大模型深入应用，一些因大模型关联引发的安全问题让大家重视起来，如大规模数据采集和应用带来的个人隐私泄露和滥用的问题，大模型生成内容可能带有的偏见歧视、违法违规、科技伦理类问题，以及利用大模型强大能力用于欺诈等恶意应用场景的问题等。总的来说，大模型在安全方面面临大模型自身安全和模型应用安全两个方面的挑战。

大模型自身安全的挑战：

1、大模型训练安全：如何使用数字加密技术和差分隐私技术在训练过程中保护敏感数据安全？如何清洗训练数据，以避免潜在的恶意数据注入或偏差造成的训练问题？如何定期对训练数据和模型权重进行审计，以检测潜在的安全隐患或异常模式？

2、大模型生成的风险：涉及敏感知识点的问题不允许答错：但大模型本身的幻觉问题严重，怎样避免？隐晦风险和多轮对话上下文：传统的防控手段很难应对这么复杂的风险，怎么办？复杂的指令对抗：对于层出不穷的诱导、变种等攻击，怎样能做到全面的防控？

大模型应用与部署安全的挑战：

1、大模型部署安全：如何针对模型抵抗对抗性攻击做强化训练，例如将对抗性样本加入训练集进行鲁棒性提升？如何对模型输入实施严格的验证和过滤机制，以防止恶意输入？如何实施访问控制和身份验证机制，确保只有授权用户才能访问和使用模型？

2、模型应用部署安全：如何针对模型应用服务访问控制和输入输出进行安全防控？如何进行防御DDoS攻击、防范恶意勒索、大促安全风控、远程办公安全等风险的实时防护？如何持续监控模型性能和行为，以及它们对输入反馈的响应，以便及时发现问题，实施日志记录和异常检测系统来追踪潜在的安全事件？如何构建有效的大模型安全围栏，制定安全措施和策略，保障大模型应用的完整性、隐私、可控性和抵御外部攻击？

金融级AI原生的要素与蓝图

金融级AI原生的发展

讲到AI，业内主要分为生成式AI（Generative AI）与判别式AI（Discriminant AI）这两种不同类型的机器学习模型，它们在数据建模和应用领域上存在显著差异。

判别式AI，主要关注基于已有数据进行分析和预测。它通过学习输入和输出之间的关系来建立决策边界，对新的输入数据进行分类或回归等任务。常见的判别式AI模型包括逻辑回归、支持向量机和深度神经网络等。判别式AI在推荐系统、风控系统等领域有广泛应用。

生成式AI则关注学习输入数据的分布规律，并模拟出与输入数据类似的新数据。它不仅能预测数据之间的关系，还能够生成新的数据。

AI原生系统从一开始就被设计成能够充分利用判别式AI和生成式AI技术，以实现数据驱动、智能化决策和服务的自动化。AI原生涵盖了从数据处理、模型训练、推理应用到迭代优化的全过程，目的是让AI技术如同操作系统一样成为日常业务运行的基础。

AI原生是一种全新的技术架构和思维方式，将AI技术作为一种基础能力，深度整合到企业的基础设施、业务流程、产品设计和服务模式中。

金融机构作为国民经济的中枢支柱，其运作效能、风险管控及服务质量对社会经济的整体稳定与发展具有深远影响。金融级AI原生（Financial-GradeAINative）是一个综合性概念，旨在描述那些专为满足金融行业最严格需求而设计和优化的AI系统和应用。这些系统不仅在技术层面上高度先进，还在安全性、可靠性、可扩展性和合规性等方面达到了金融行业的高标准。

金融级AI原生的六大要素

AI技术在金融行业中扎根生长并深入应用，必须严格遵循金融行业的业务规则与标准，这就催生了专为金融领域打造的金融级AI原生。综合考虑金融级行业要求、AI原生核心技术，我们将金融级AI原生总结为如下6大要素：

要素1：可靠性和稳定性

当前金融行业随着数字化、智能化的转型，越来越多的金融级AI原生应用涌现，大规模智算资源的统筹管理和编排调度，对于确保金融基础设施的连续性与稳定性成为至关重要的能力基石。下面从训练态和推理态两个方面来说明智算平台需要提供怎样的能力来保证应用的可靠性和稳定性。

训练态：

智算平台需要大规模集群调度管理，洞察集群状态与性能变化，掌控系统全貌。通过训练引擎自动容错来屏蔽底层错误，提升任务稳定性和鲁棒性。通过实时保存模型文件，大幅度提高训练任务的整体效率。通过云原生性能测试平台，完成一键测试系统性能，及时发现隐藏的瓶颈。

推理态：

目前大模型的推理部署还没有一个事实标准，一方面不断有新的模型发布，另一方面也不断有新的训练和推理方法被提出，再者国产化GPU硬件和软件生态也在快速迭代，这给大模型推理服务生产上落地带来不小挑战。为了应对上述挑战在模型准备和部署阶段，我们建议遵从以下原则：

分层设计：由于模型本身文件较大，模型加载和启动时间往往以分钟甚至小时计。在模型准备阶段，将运行依赖环境、模型文件、推理代码分层设计统一验证并推送到合适的存储服务层；在模型部署阶段，通过云平台存算分离，共享挂载、缓存加速等方式实现模型的快速部署和加速启动；

统一调度：基于K8S对IaaS云服务或者客户IDC内各种异构的计算（如CPU，GPU，NPU）、存储（OSS，NAS，CPFS，HDFS）、网络（TCP，RDMA）资源进行抽象，统一管理、运维和分配，通过弹性和软硬协同优化，持续提升资源利用率。

云化部署：借助K8S调度框架和云化基础设施，实现对大模型应用的多实例高可用部署和故障自动切换。

要素2：低延时与高并发

大模型在实现低延时和高并发处理方面是AI原生应用的重大挑战之一，尤其是在需要实时响应和服务大量用户的应用场景中。

实时交易的场景下，系统需要几乎实时地处理和响应用户的查询或请求。如银行行业客户通话的场景中，需要应用大模型实时识别用户意图，并实时反馈相应的话术，这个场景对大模型的时延要求非常高，需要在很短的时间来做出相应的应答。同样在保险行业中，利用大模型处理车险、健康险等理赔案件，需要迅速分析上传的图片、视频及其他证据材料，快速准确地完成初步定损工作。当前，推理优化、加速主要有几种方式，如模型架构（使用MoE架构）优化、模型本身（剪枝、量化、知识蒸馏等）优化，和利用多机多卡环境进行数据并行、模型并行，分散模型负载，加速计算过程。

高并发场景是指在短时间内有大量用户请求涌入系统，要求系统能快速响应并处理这些请求，保证服务的稳定性和用户体验。如红包发放的促销活动期间，大量用户同时进行请求，在红包领取的同时需要应用大模型做实时推荐。高并发可以通过调度优化来支撑，调度系统可以根据请求状态的动态变化对调度决策进行适应性调整，并以此实现如负载均衡、碎片整理、请求优先级、高效的实例扩缩容等一系列调度特性和优化。

我们来看一个实际的案例：一家互联网金融企业，在外呼过程中，通过大模型识别客户意愿，完成多轮客户对话交互。

从当前业务模式观察，存在显著的忙闲周期：在需求高峰时段，必须确保充足计算能力以维持业务运营，确保客户享受到优质的外呼体验；而到了低谷期，则需释放这些资源，以便供给其他业务利用。然而，当这些释放的计算资源无其他业务承接时，便会造成极大的资源闲置。专为某特定业务保有大量计算资源是不切实际的，因为通常情况下，这些资源的使用效率极低，仅能达到约10%。因此，寻找一种既能应对峰值需求，又能高效利用资源的策略显得尤为重要。而混合云架构可以较好地解决这个问题，利用金融云的弹性资源来满足波峰波谷的业务需求。

要素3：扩展性与多样性

大模型的扩展性与多样性是确保其在未来可持续发展和适应新需求的关键属性。这两个概念在大模型的设计、开发、部署和维护过程中扮演着重要角色。

扩展性是指为了满足业务发展的需求，需要一种弹性的伸缩架构，满足大模型应用对不断增长算力的需求。通过这种弹性的伸缩架构，来解决了前面提到的“有限算力”的问题。

对于金融客户来说，目前有三种算力资源扩展的形态可以选择：

一、直接使用金融云的公共资源池。对于数据可以上云的客户来说，企业无需自行构建复杂的算力基础设施或大模型开发平台，而是直接利用公共资源池来进行模型推理和高效微调。金融云提供了简便的应用开发平台，开发完毕的应用能够便捷地通过API接口进行业务集成与调用，在金融云环境中，可以按需随意进行算力资源的扩缩容，从而极大地提升了效率和灵活性。

二、金融云客户VPC方式。对于有数据安全管控需求的客户，建议采用VPC方式。大模型应用及知识库部署在金融云客户VPC环境中，确保推理过程中产生的数据及微调所用的数据均存储在客户VPC的区域内，以此加强数据的隐私性和安全性。应用的开发工作在公共资源池的平台进行，同时该平台支持大模型的微调及推理等功能。一旦应用开发完成，便部署到客户VPC区域，并通过API接口无缝对接公共资源池中的大模型服务，实现高效、安全的资源调用与协同作业。在客户VPC方式中，同样可以根据需要对算力资源进行动态扩缩容。

三、线下IDC与金融云混合方式。对于私有数据不能出域的客户，可以采用线下数据中心(IDC)与金融云混合的方式。企业在其内部的IDC中构建智能计算集群，部署大模型及应用开发平台。应用的开发全程在IDC内完成，并在IDC环境中部署运行。在面对业务高峰或IDC资源紧张的情况下，企业可以采取灵活策略，将大模型扩展到金融云的资源池中，实现流量的智能分配，将部分业务负载转移到金融云上进行高效的模型推理，以应对高并发需求。同时，根据实际需要，可以选择性地将微调数据迁移至金融云，利用其强大算力进行模型的微调，进一步优化性能和服务能力。

混合云解决方案支持大模型在私有云和公共云之间无缝迁移和部署，用户可以通过统一的云管理平台对分布在不同环境下的计算资源进行集中管理和调度，简化运维复杂性。在网络互联上，通过先进的混合云网络技术，实现网络的高速稳定互联。

我们来看一个实际的案例：某证券公司通过大模型将咨询、公告、年报、研报、路演、业绩通告视频等多模态信息纳入知识库，满足内部分析师和机构用户的知识问答、观点总结生成。应用大模型准确理解用户搜索意图并提供逻辑分析能力、归纳总结能力。

1、客户线下IDC进行大模型微调，对微调好后的模型在线下IDC和金融云两套环境进行模型部署；

2、业务调用时，分为两种情况：

1）业务流程正常的情况下，直接使用线下IDC的资源，为业务提供在线推理服务。

2）当业务流量高峰期间，如果线下IDC资源不足以应对业务调用，采用分流的方式，将用户请求调拨至金融云，从而实现高效的SLA保障。在这种调用方式下，考虑到私有数据不能出域的情况下，需要在线下IDC完成敏感信息处理工作，将脱敏后的内容调用金融云上的大模型。

大模型的多样性体现在多个方面，包括模型尺寸的多样性、多模态、模型部署形态的多样性、和应用场景的适配性。为顺应不同场景用户的需求，有不同参数规模横跨5亿到1100亿的多款大语言模型。在模型的部署形态上，小尺寸模型可便捷地在手机、PC等端侧设备部署。在应用场景的适配性上，大尺寸模型如千亿能支持企业级和科研级的应用；中等尺寸如30B左右的在性能、效率和内存占用之间找到最具性价比的平衡点。

正是因为大模型的多样性，使得在具体的业务场景，可以采用大小模型相结合，既能充分利用大模型的优点，又能保持成本效益。通过将任务分解，用大模型处理那些需要高准确性的复杂分析，用小模型则快速处理那些对时效性要求高的任务。

以我们在财管领域的一个客户为例，通过大模型来进行问题规划和任务分解，通过小模型来构建各种Agent，实现了跟蚂蚁支小宝相似的效果。通过大小模型相结合的方式，既满足了需要，也降低应用成本。

大小模型相结合构建理财机器人

要素4：安全性与合规性

2023年8月15日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》开始正式施行，办法对大模型训练数据、数据标注、内容生成规范、内容生成标识、算法备案机制、监督和责任都提供了相应的指引和要求。

生成式人工智能的安全管理需要贯穿产品的全生命周期，包括模型训练、服务上线、内容生成、内容传播各阶段。

●在模型训练阶段，奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。相应的风险治理工作包括：训练数据的筛选和过滤、模型安全评测、模型对齐与内生安全增强、算法机制机理审核。

●在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。

●在内容生成阶段，大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。

●在内容传播阶段，内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。

在整个产品的全生命周期中，其中的模型安全和内容安全是两个最关键的点。模型安全关乎技术底层的坚固与防御能力，是支撑系统运行的根基；而内容安全则侧重于对外交互的信息质量与合法性，是保障用户体验和社会影响的表层防护。两者相辅相成，共同构建AI产品全生命周期的安全体系。

模型安全：通过自动发现大模型有害的行为（redteaming）和安全增强（SafetyEnhancement）来不断增强模型安全。

内容安全：采用知识计算的风险防控模式（采用人机协同的方式定义计算框架），主要涉及到数据层、知识层、算子层三个层面的能力。

●数据层汇聚了涉及内容风险的原始数据，以及针对不同风险领域精炼加工的结构化数据；

●知识层包含预训练模型和知识图谱，预训练模型用于实现对通用数据的归纳，知识图谱实现对风控专业知识的组织与沉淀，解决知识碎片化、数据获取难的问题；

●算子层拆解出目标更明确的简单任务，构建端到端的神经算子，实现风险复杂判定逻辑简化解耦。

大模型的合规性关乎遵守相关法律、法规和内部政策，确保大模型的应用不违反任何法律规定，并保护消费者的利益。

数据隐私与保护，语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练对语料库这一类知识性内容有强烈的需求，但不依赖和使用用户行为数据。

透明度和可解释性，金融等行业的监管机构要求理解AI模型的决策过程，尤其在关系到重大决定如贷款审批或保险索赔时。因此提高模型的透明度和可解释性是一个重要的合规要求。

偏见和公平，消除这些偏见并确保模型对所有人群公平是模型合规性的重要部分。

持续监管和审计，合规性不是一次性的任务，而是需要持续监管和审计。金融机构等需要确保使用的大模型在整个生命周期内都符合监管要求，并能适应法规的变化。

大模型的合规性是一个多层面的、涉及多个利益相关者的挑战，需要综合技术、法律和道德考虑来处理。金融机构在使用大模型时需要密切关注相关法律法规的发展，并且可能需要专门的法律和技术专家团队来确保模型遵循所有适用的合规要求。

要素5：准确性与严肃性

大模型的“准确性”与“严肃性”是两个评估模型性能和适用性的关键维度，特别是在涉及专业场景和重要决策时尤为重要。

准确性是衡量大模型输出结果与预期目标或实际情况相符的程度。模型在处理给定任务时，例如回答问题、分类文档、翻译文本或者识别图像时，其输出与真实答案或标准标签的匹配程度。严肃性在大模型的语境下，更多指模型生成内容的专业性、可靠性、责任性和道德规范性。在金融这个高度专业化和监管严格的领域，大模型产出的信息必须是经过严格筛选、无误导性且遵循行业规范的。严肃性还包括模型不得滥用或传播不实、不恰当或有害的信息。

为了保证大模型的准确性和严肃性，不仅要在技术层面提升模型的泛化能力和知识完备性，还要在训练数据、模型设计、后处理步骤等方面进行严格控制，并结合领域专家知识、实时监控和用户反馈进行持续优化和修正。同时，对于可能出现的伦理和社会影响问题，也要有相应的政策和机制来预防和应对。

下面是某证券公司的实施案例：

1、构建知识库：基于咨询信息、专业内容、投教百科研报、投研框架、指标信息等，构建基础投研知识库。并将以往历史问答、专家经验以投研框架的方式进行回流，实现持续性的知识生产和知识库运营。

2、知识加工：将各种知识，经过以下的步骤进行处理，文本分段（chunking）、类目标签、实体抽取、质量分、向量表示、item的时效性等，形成相应的向量。

3、知识检索：用户的query进来，经过Query改写、向量召回和相关性模型打分等几个步骤，把得分高的知识送到大模型。

4、观点打分：对与大模型生成观点，由专家进行打分。作为RLHF的训练样本，从而不断优化模型。

要素6：开放性与兼容性