应用大模型和本地知识库构建票据智能体的研究实践
创始人
2026-02-12 12:41:12
0

内容提要

票据业务进一步下沉服务是当前市场的现实需求,但在推进过程中,面临机构专业人员不足的挑战,而AI大模型及智能体的普及应用为破解上述困境提供了重要路径。本文提出一种基于大语言模型与本地知识库的票据智能体构建方法,以上海票交所发布的票据相关制度文件为知识库,结合RAG(检索增强生成)技术,通过优化知识切片策略和建立正则表达式预过滤机制等优化措施,有效提升智能体的运行效率与内容输出准确性,为搭建金融智能体提供实践方案与技术路径。

一、引言

近年来,随着监管机构逐步完善票据市场基础设施、畅通企业的票据贴现渠道,票据融资在企业流动性管理中的重要性逐步显现。市场未贴现票据余额逐年降低,2018年末为3.81万亿元,2025年7月末为1.92万亿元。2024年,上海票交所完成了新一代票据系统改造,推出票据等分化、线上贴现等一系列创新功能,进一步优化票据服务,使其更贴合小微企业需求。2025年11月,上海票交所上线企业综合服务平台,企业可以通过经纪机构或自主操作及时获取票据贴现服务,进一步强化票据业务服务实体经济的能力。

当前,将票据服务下沉至中小企业已成为监管机构与金融机构的共识。这一举措不仅能为当前竞争激烈、深度内卷的票据市场开拓广阔的长尾市场空间,更能为票据业务整体发展创造新的增长契机。随着票据业务不断下沉,广大中小企业及银行基层客户经理对票据业务知识的需求显著增长。仅依靠传统业务宣讲、线下培训等方式,上海票交所与金融机构难以将票据业务知识高效、及时地传递至市场需求末端,存在服务覆盖滞后的问题。与此同时,大语言模型(Large Language Models, LLMs)在信息检索、知识推理和知识管理方面展现出强大潜力。票据业务通过建立智能客服等AI智能体,将票据服务和业务培训更加深入传导至小微企业,既能提升服务触达效率,又能降低企业融资成本与贴现机构的运营成本,进一步释放票据业务服务实体经济的潜力。

然而,与多数金融产品类似,在构建票据智能体时还存在以下瓶颈:一是数据安全问题,当前AI大模型主要在互联网场景应用,而票据业务涉及内部制度,使用时需建立数据隔离机制;二是AI幻觉,金融领域对数据和信息的准确性要求较高,当前AI大模型仍存在“AI幻觉”问题;三是业务深度定制化难以实现实现,票据市场变化较快,对智能体的迭代与开发时效性要求较高,而公开市场上的通用大模型存在领域细分不足、功能泛化的问题,难以达到人工解答的精准度与适配性,无法充分满足票据业务的专业化需求。

基于以上背景,为AI大模型匹配本地票据业务知识库,具有重要的实践意义和必要性。

二、票据智能体设计与实现

本文开发的票据智能体,配置了本地知识库,以python程序作为主程序,接入DeepSeek、Kimi等API接口,并使用HTML页面制作前台功能界面。本地知识库配置主要基于RAG实现,图1是大模型与本地化知识库的整体协同方案,下文将详细介绍每一阶段的开发实践。

图1 大模型配置知识库检索流程示意图

(一)知识切片

以截至2025年8月上海票据交易所官网发布的31份制度文件为外部知识源,涵盖“票交所规则”与“法律法规”两大板块。将文档切片后以表格的形式存储在excel文件中。

为提升切片语义完整性,采用层级化切分策略,为文档增加Markdown标志。不同文档之间为最高切分层级;在“第*章”前加上标志“##”,为第二层级;在“第*节”前加上标志“###”,为第三层级,以此递推。最低层级是句末标点符号“。!?”。然后将每个文件按照300~800字符长度的范围进行切片,并尽量以高层级标志作为切断点,如此共获得951个知识切片。

(二)RAG知识检索

本文在知识检索中主要使用RAG技术,具体流程如下:首先将处理后的知识切片借助“bge-small-zh-v1.5”文本嵌入模型、转化成向量,然后基于ChromaDB创建向量索引。当用户发起提问时,系统会先将问题转换为向量形式,再与ChromaDB的知识切片向量索引进行比对,按照问题与知识切片的向量相似度分数由高到低排序。根据用户实际需求设置召回知识切片的条数。

为提升检索效率,文章设计“正则过滤+向量检索”双阶段召回机制。用户可选择是否启用正则预筛。针对典型票据问题,预设6组正则表达式(见表1),用于初步过滤无关切片。例如,问题“票据贴现通业务是什么?”对应的正则表达式为:“^(?=.*(?:票据|汇票|银票|商票))(?=.*(?:贴现通|票据经纪)).+$”。

表1 测试问题及相应的正则表达式

将两种知识召回模式进行对比分析,如表2所示,正则过滤模式用时更短,知识召回速度明显提高。按照以下公式计算两种模式所召回知识切片的重合率:重合率=相同切片内容条数/所有不重复切片内容条数。

如图2所示,两种模式的召回重合率整体在50%左右,并且随着召回条数的增加,召回重合率标准差逐步减小,代表不同问题间的重合率趋于稳定。当召回数量设置为3条时,两种模式召回重合率为:2个问题的重合率为100%,3个的为50%,1个的为0%。以上结果表明,正则过滤模式不仅能提高速度,还对召回内容有一定影响。所以,对于能提取明确关键词的问题,应该优先选择正则过滤模式。

表2 两种知识召回模式的速度和重合率对比

图2 两种知识召回模式的重合率

(三)大模型响应质量评估

本文将表1中的问题采用正则过滤模式提问,并召回3条知识切片作为回答依据,调用DeepSeek、Kimi、豆包三个大模型,基于相同提示词生成回答。对比回答结果发现,带有知识切片的提示词明显优于仅包含问题和要求的提示词。分析原因,后者的回答依赖互联网搜索,而前者直接从官方制度文件获取,结果更加准确和直接。并且,三个大模型回答内容的段落结构基本一致,内容简洁、逻辑清晰,符合业务咨询场景需求。以问题1为例,三个大模型回答的段落结构如表3。

表3 针对问题1的不同大模型的回复结构对比

三、研究结果与展望

本文构建了一个基于本地知识库的票据智能体,在实际应用中取得了较好效果。研究发现,结合制度原文的大模型输出,在准确性与专业性上明显优于通用模型。并且,在使用正则过滤模式之后进行向量计算,能提高知识召回效率和准确性。此外,本研究使用的三个大模型均能较好地分析知识切片内容,进行结构化输出。

本文采用知识切片、RAG、正则检索等方法对AI大模型进行了实用性优化,并以票据官方制度文件作为知识库,建立票据智能体,非常适合解决企业日益增长的票据服务需求与监管机构和金融机构专业人员不足、业务培训滞后之间的矛盾。本研究可为金融业务垂直领域智能体的应用提供重要参考。

以下从设计逻辑和技术创新两方面展开对金融AI研究的讨论。

设计逻辑方面。由于金融领域的专业性较强,应该基于业务建立垂直领域的AI智能体。由业务人员主导,以业务知识库为基础,引入AI功能。着重强调业务人员对知识库的日常维护,随时从实际需求出发,即时管理、删减、评估相应的知识库文件,持续提高知识库的针对性和准确性。

技术创新方面。文章使用正则表达式,对制度文件的标题和内容进行过滤,使得检索更加精确,但总体上还是使用传统文档切片和RAG结合的方法,对于所召回知识的结构性和全面性还有待提升。下一步研究可以采用知识图谱、树形结构等新型知识存储和检索方式,优化知识召回方式。在知识召回时,不仅对知识切片内容进行检索,还应该对文章的上下文结构、关联节点进行检索,提高知识结构的全面性。此外,还可发掘知识的周边信息,例如,综合检索发布时间、制度来源、发布渠道等信息。

作者:杨炳,浙商银行金融机构部

相关内容

热门资讯

银心无线电信号或能测试爱因斯坦... 科学家希望通过在银河系中心、靠近一个超大质量黑洞处发现的一颗可能存在的脉冲星来探索广义相对论的本质。...
2026好用又实惠的云手机推荐... 想找款云手机挂游戏、搬砖,结果翻遍各大平台,发现选云手机比玩游戏还累。市面上云手机要么价高配置拉胯,...
全球为何争购中国变压器 平时不起眼的变压器成了稀缺资源。当前人工智能快速迭代、数据中心大规模建设,引发巨量电力需求。受此影响...
推动人工智能从实验室走向生产线... 党的二十届四中全会通过的《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》指出,加快人工智...
郑州市6家单位入围国家级“揭榜... 日前,工信部、国家药监局联合公布了2025年人工智能医疗器械创新任务和第二批生物医用材料创新任务揭榜...
成都新连通申请低温介质泵测试设... 国家知识产权局信息显示,成都新连通低温设备有限公司申请一项名为“一种低温介质泵的测试设备”的专利,公...
全球首个5G-A智慧港口投入运... 智慧港口新纪元:全球首个5G-A智慧港口投入运营,解锁物流未来 当我们谈论“智慧港口”时,总绕不开...
华为手机小红书去水印,实测5款... 你可能会问: 为啥非要给视频去水印?直接用不行吗? 答案是: 当然不行啊!当你刷到超赞的旅行vlog...
应用大模型和本地知识库构建票据... 内容提要 票据业务进一步下沉服务是当前市场的现实需求,但在推进过程中,面临机构专业人员不足的挑战,而...
科森科技取得便携型平板电脑专利... 国家知识产权局信息显示,昆山科森科技股份有限公司取得一项名为“便携型平板电脑”的专利,授权公告号CN...