大模型在智慧金融应用中的合规性研究
作者:吴卫明 2025-02-28随着以Deepseek、chatGPT为代表的大模型不断发展,生成式人工智能的应用也日益广泛。经过预训练、数据标注及持续的人类反馈,大模型对于人类自然语言的理解也日益准确,大模型及相应的生成式AI具备理解人类指令并输出相应生成合成物的能力,并在很多领域辅助人类的工作、提升各行业的工作效率。
金融行业由于网络化、数字化的整体进程开启较早,业务流程在线化和数据积累等基础工作也较为成熟,因而对于人工智能的应用也较早和较为深入。早在2017年7月20日国务院印发的《新一代人工智能发展规划》即对金融领域人工智能应用进行了规划, “在智能金融方面,要建立金融大数据系统,提升金融多媒体数据处理与理解能力。创新智能金融产品和服务,发展金融新业态。鼓励金融行业应用智能客服、智能监控等技术和装备。建立金融风险智能预警与防控系统”。根据《规划》对于智能金融的布局,金融大数据系统、创新型的智能金融产品和服务将是我国智能金融领域中发展重点[1]。
人工智能在数据辅助分析、金融产品智能风控、智能投顾、智能客服、程序化交易等领域均发挥了提升服务能力、提高交易效率的作用。
而随着Deepseek、chatGPT等大模型的应用,人工智能愈发能够对齐人类能力。甚至在大规模知识整合分析、知识输出的广度、结构化、效率等方面还具有一定的优势。相关的金融机构也在通过调用大模型能力,结合金融领域知识及自身的业务数据开发金融领域的垂直应用模型。
大模型在给人们带来便利和推进新经济模式发展的同时,也带来了伦理和社会公共利益、人群歧视、偏见等问题,此外违法和虚假信息的生成、传播,也是大模型可能带来的负面影响。对于金融行业而言,同样需要重视这些问题的影响,在应用大模型的过程中,做好自身的合规治理。
一、大模型在金融领域的应用概述
(一)人工智能在金融领域的应用演进
Deepseek等大模型在金融行业的应用是近几年的新生事务,但是各类算法等AI技术在金融行业的应用却已经有了一定期间的积累。
比如在智慧金融发展的早期阶段,金融机构即开始采用各种大数据分析模型和决策类AI算法对借款人或投保人的信用状况和风险状况进行分析,并进行自动化的贷款与保险核保的审核。这一阶段,智能风控是最为常见的智能金融应用场景,例如蚂蚁金服、京东金融等机构,在这一阶段均研发了各自的智能风控模型。通过对用户多维度的数据进行综合判断,得出用户的风险等级、信用水平、偿债能力等结果。[2]
在金融客户营销和投资者教育过程中,个性化推送类AI算法的应用,也是早期智慧金融常见的应用场景之一。通过将人工智能算法中的个性化推送算法嵌入金融应用终端或者用于营销系统,金融机构能够精准找到客户,或者为客户提供更具有针对性的投资产品和投资者教育素材。[3]
而智能投顾系统,也是常见的决策类算法应用场景。智能投顾是指采用人工智能的方法,以计算机软件辅助进行投资决策或给予投资组合的建议,智能投顾的应用领域主要包括为投资者提供投资组合建议或者投资决策建议。此外,程序化交易背后的原理同样也是采用了决策类AI算法,根据市场的变化情况,从操作上对于下单、成交、批量处理等做出决策并实施自动化操作,该等技术几乎可以覆盖投资的全过程,包括量化选股、量化择时、统计套利、算法交易、资产配置、风险控制等。[4]
虽然人工智能在金融领域的早期应用可以 提升业务效率与金融机构的业务竞争力、 优化金融机构的风险管理、增强金融机构的客户体验,并能够一定程度上推动创新和助力普惠金融,但是早期主要基于大数据和决策类AI算法、精准推送类AI算法的人工智能应用,由于其对其人类自然语言能力不足,算法仅仅可以完成一些机械式的决策、调度、推送任务。仅以智能客服为例,早期程序化的智能客服系统,需要依据大数据预测用户可能的问题,从而构建自身的回复话术,对于预设话术之外的用户提问则往往无所适从。大模型的出现,对于金融机构人工智能应用的提升,无疑是一个更好的选择。
(二)大模型在金融机构的应用场景
大模型的应用,可以大幅度提升各类智能金融应用程序的能力和效率。对于客户服务、风险管理、投资决策、内部管理运营等都具有重要的作用。总体而言,大模型可以应用于以下场景:
1、智能客服
在传统的自动化呼叫中心和客服中心系统中,通常是预设特定的应答话术,系统对于用户问题的识别和反馈能力不足,用户体验差。大模型在金融智能客服领域的应用,能够极大提升对于用户反馈内容的理解,通过多轮对话,理解用户的需求,并做出相应的答复和解决方案,提升客户体验。此外,虚拟数字人的应用,也有助于提高智能客服系统的界面友好度。
2、智能审核与风控
在银行网络贷款、小额贷款公司、消费金融公司等放贷类机构的小额贷款产品发放过程中,大模型的应用有助于对客户的收入、财产、行为信息、信用记录等进行分析,从而对用户的还款能力、风险等级做出分析,给出贷款的审批建议及差异化利率。在保险领域,也涉及到对保险客户数据的分析,比如驾驶习惯、健康状况等,从而给与不同客户个性化的产品和服务。
此外,在信贷领域中,将大模型嵌入风控审核流程,有助于提升对多头借贷、信贷欺诈等行为的识别效率和识别准确性。而在保险领域,则可以将大模型用于保险理赔的处理,提高保险欺诈识别的效率和理赔效率。
3、反洗钱合规
反洗钱是金融机构的一项重要义务,如何发现监控和发现可疑交易,并且快速进行鉴别与处理,一直是金融机构关注的问题。通过大模型的应用,金融机构可以深入分析客户身份和交易模式,降低复核成本,提高反洗钱效率。
4、交易与财富管理
智能投顾是人工智能金融应用的典型场景之一,而大模型突出的自然语言理解能力和生成能力,无疑大幅度降低了对投资者数据和背景资料进行分析的成本,可以更高效地分析其风险偏好和财务状况,并生成个性化的投资组合建议。在投研分析过程中,大模型的自然语言处能力,可以帮助金融机构快速分析研究报告和市场动态,提取有价值的信息,并为投资决策提供更为体系化的支持。
(三)金融行业垂直模型应用
将大模型的通用语言能力与金融行业的特定知识及需求结合,开发出金融领域垂直模型,是金融行业在大模型应用中需要面对的问题。通常而言,大模型在金融行业落地的路径主要有以下方面:
1、在开源模型基础上定制开发
由于通用大语言模型的训练无论从算力还是预训练语料数据的角度,都需要巨量的成本投入。对于金融机构而言,利用开源的通用大模型,结合自身的行业数据和业务数据,通过强化学习、微调等方式进行定制化开发,不失为一种更为便捷的方法。
2. 结合金融专业知识图谱
金融机构可以将大模型与专业知识图谱相结合,构建垂直领域的专用模型。或者针对金融领域的信贷审批、风险评估、客户服务、智能投顾、智能内控、监管合规等特定场景,开发小模型以实现更高的效率和精准度。这种方法能够更好地理解和处理金融领域的复杂问题,同时降低前期投入和业务风险。
二、大模型应用于智慧金融的合规问题
大模型在金融行业的应用面临着多方面的法律合规风险,主要包括以下几点:
1、数据安全与个人信息合规风险
金融机构运用大模型的过程中,数据安全风险与个人信息合规风险是最为主要的合规风险。其中风险类型主要包括:
(1)运用大模型过程中的数据安全与个人信息保护风险
金融机构业务过程中会收集、处理大量的个人信息,其中不乏敏感个人信息。而运用第三方大模型过程中,则会涉及大量个人的处理,包括客户身份、资产信息、交易记录等信息。运用大模型过程中,如果涉及向模型传输数据,则可能带来个人信息保护的风险。此外,金融机构的数据还可能涉及重要数据,数据安全风险也是大模型应用中需要予以考虑的。[5]
(2)训练数据相关合规风险
金融机构结合大模型能力在进行垂直化模型训练过程中,可能也会用到自身所处理的个人信息或其他数据,这些数据既包括金融机构自身业务过程中收集或产生的数据,也可能涉及来自于第三方的数据及公开互联网的数据。将数据用于垂直模型的训练,也可能涉及到个人信息的合规问题及企业商业秘密的合理使用、著作权的保护问题。对于公开获取的互联网数据,则涉及网络爬虫的合规应用问题。此外,来自于第三方的商业数据,如果本身不具有合法转移的基础,也会存在法律上的风险。[6]
2、模型生成物内容的法律风险
无论是应用第三方大模型或者是自身开发的垂直模型,内容输出都是金融机构无法忽视的风险。风险主要来自于两方面:
其一、内容合法及算法歧视与公平性问题。在《生成式人工智能服务管理暂行办法》第四条对于生成物(输出内容)有严格的限制。生成物应内容合法。即不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、损害国家形象,煽动分裂国家、破坏国家统一和社会稳定,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容。并且符合反歧视原则。在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、大模型可能因训练数据的偏差而产生歧视性结果,这在金融决策中可能导致不公平待遇,违反相关法律法规。
其二、输出内容的质量问题。大模型的训练依赖大量数据,若数据质量不佳或模型存在“幻觉”问题,可能导致输出结果存在偏差,甚至生成错误的投资建议或风险评估,给用户带来损失。《生成式人工智能服务管理暂行办法》第四条对于生成物质量也做了严格规定。生成物应内容准确可靠,服务提供者采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。
3、知识产权合规问题
大模型的训练可能会使用大量的作品数据,作品数据是大模型训练中最为常见一种数据,大模型在获取语言知识和世界知识过程中,作品数据无疑是优质的训练语料。书籍、学术期刊、各类文章等都属于作品数据。作品数据一般会存在作者或者相关机构的著作权问题,如何协调模型训练与著作权之间的关系,成为各国立法和司法机构面临的新问题。[7]《生成式人工智能服务管理暂行办法》中,第四条也规定了尊重知识产权的原则。
三、金融机构适用大模型的合规管理
随着人工智能技术和算法技术在多领域的广泛应用,网信部门陆续发布《互联网信息服务算法推荐管理规定》《生成式人工智能服务管理暂行办法》及其他相关配套文件对相关技术应用活动提出了合规要求;而标准层级也有《人工智能算法金融应用评价规范(JR/T 0221-2021)》《人工智能算法金融应用信息披露指南(JR/T 0287-2023)》等文件对算法在金融领域的应用提供了参考和指引。对于金融机构而言,大模型适用的合规管理,主要包括以下几个方面:
1、训练数据合规制度体系的建立
(1)与训练数据获取有关的管控制度
通过相应的制度,对于训练语料数据的来源及其合法性进行充分的管控。包括开源数据集、向第三方获取的商业数据集、公共数据、个人信息以及企业自行采集或生产数据的管控。
《生成式人工智能服务管理暂行办法》对于训练数据有明确的禁止性规定,并且兜底规定了训练数据应符合《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。这就对训练数据的来源合规及内容合规提出了很高的管控要求。因此,制定与训练数据获取有关的合规制度,是生成式AI训练合规体系的重要内容。
(2)数据标注的合规
数据标注是生成式AI训练的重要环节,研发企业通过人工或者自动化程序,基于对提示信息的响应信息内容,将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本的过程。对于垂直模型的开发而言,数据标准更为重要。标注后的数据通常用于训练和验证机器学习模型,帮助模型学习如何从原始数据中提取有意义的模式和信息。
因此,数据标注规则,以及围绕数据标注规则建立的数据标注合规体系,如数据标注的安全要求、数据标注人员的安全要求、数据标准的核验要求等,都需要在标注规则中予以体现。数据标注在合规方面需要特别关注如下内容:其一、如果标注数据包含敏感个人信息,应采取必要措施对敏感个人信息进行匿名化处理,防止个人信息泄露或不当利用风险;其二、采取数据访问控制策略,只允许经过授权的标注人员访问;其三、标注数据的备份,以防止数据丢失或损坏;其四、监控和记录准备标注的数据的访问和修改记录,以进行数据安全审计;其五、如涉及第三方外包,需要对标注任务的数据安全、数据删除等进行明确约定。
2、大模型应用过程中的数据安全与合规管理
对于第三方大模型,如果未能实施本地化部署,则会涉及向模型所在服务器传输数据的问题。对此,金融机构应建立相应的安全审核机制或安全保护机制。
安全审核机制是指,金融机构应对大模型的提供者所具备的数据安全能力和数据合规管理能力进行必要的审核,使其符合金融行业网络安全和数据安全能力的要求,并符合金融科技外包的技术和安全要求。
数据安全保护机制则是指,在模型应用过程中,在不影响应用效果的前提下,尽可能对输入模型的数据进行脱敏处理,从而降低敏感数据泄露的风险。
3、生成物内容的合规管理
大模型生成内容的合规,是大模型合规管理的重要内容之一。如何防止算法生成物(输出内容)包含虚假有害信息等法律、行政法规禁止的内容,并且不包含歧视内容,是金融大模型应用合规管理中必须予以关注的内容。对此,《互联网信息服务深度合成管理规定》及《生成式人工智能服务管理暂行办法》进行了相应的规定。大模型应用过程中,应建立合成内容管理的机制,采取技术或者人工方式对服务使用者的输入数据和合成结果进行审核。服务提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。还应建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志。
大模型应用于金融机构的智能金融业务,给金融机构带来了便利和服务能力的提升,也为金融创新提供助力。但同时,也带来的新的合规问题。金融机构在应用大模型过程中,关注合规管理机制的建立,从而发挥大模型的优势,并降低相应的合规风险。
注释
[1] 吴卫明,《数字金融法律实务与风险防范》,法制出版社,2018年10月。
[2] 吴卫明,《数字金融法律实务》,法制出版社,2018年版。
[3] 吴卫明,《数字金融法律实务》,法制出版社,2018年版。
[4] 吴卫明,《新证券法开启智能金融监管新时代》,2019年。
[5] 吴卫明,《生成式人工智能训练过程的合规与治理》,威科先行,2024年10月。
[6] 吴卫明,《人工智能大模型预训练语料数据的合规》,威科先行,2024年12月。
[7] 吴卫明,《人工智能大模型预训练语料数据的合规》,威科先行,2024年12月。