五、解决方案
(一)管理流程方案
1.归档管理流程

图1 授信业务系统数据归档流程图
①源系统将电子文件直接存入ECM平台。
②③源系统将电子文件的索引信息和电子文件的附件信息上送ADE,由ADE将数据主动推送给数字档案馆。
④⑤集团电子文件提供影像ID以批量或联机的方式(批量ADE、联机GSP)提供给PDF平台。
⑥⑦⑧PDF接收到影像ID去ECM获取影像文件,进行MD5效验,效验成功的数据会进行合成PDF文件,合成后的PDF入ECM,由ECM反馈影像ID给PDF平台。
⑨⑩PDF平台接收影像ID以批量或联机的方式(批量ADE、联机GSP)把归档的影像ID提供给集团电子文件系统。
⑪⑫企业数字档案馆提供合成后的影像ID下载文件,进行MD5效验。
2.到期鉴定管理流程

图2 授信档案到期处理流程图
审批流程描述
(1)系统自动生成到期鉴定档案清单和任务
a)系统根据到期年限、归属分行、门类等作为分类条件生成不同的到期鉴定档案清单和任务。
b)系统会根据每个任务对应的所属分行推送给对应的总行、省分行、辖行办公室档案管理员。
c)生成任务例子:
表1 到期任务案例表

(2)办公室档案管理员
a)填写初步鉴定意见。
b)提交[办公室高经]进行初审。
(3)办公室高经
a)对办公室档案管理员提交的申请进行初审:
(i)初审通过的申请填写初审意见后提交给[分管主任]进行复审。
(ii)初审不通过的申请填写初审意见后退回给[办公室档案管理员]重新处理。
(4)分管主任
a)对办公室档案管理员提交的申请进行复审:
(i)复审通过的申请填写复审意见后流转到[档案鉴定人员]填写鉴定意见。
(ii)复审不通过的申请填写复审意见后退回给前流程中某一个处理人员重新处理。
(5)牵头部门内勤
a)选择牵头部门负责人(单选)。
(6)牵头部门负责人
a)选择部门会签人员,并提交给会签人员进行会签。
(7)档案鉴定人员
a)根据要求对每份档案填写档案鉴定意见(同意/不同意)。
b)当所有档案鉴定人员都填写好鉴定意见后,流程转回到办公室档案管理员进行整合。
(8)办公室档案管理员
a)整合鉴定意见,生成《保管期档案鉴定意见表》。
b)下载《保管期档案鉴定意见表》以便线下找到对应档案鉴定人员签字。
c)上传已签字的《保管期档案鉴定意见表》和《档案鉴定报告》的电子稿本提交。
(9)牵头部门内勤
a)选择牵头部门负责人(单选)。
(10)牵头部门负责人
a)牵头部门审批,再提交给分管行领导进行审批。
(注:根据档案归属分行确定对应的审批行领导。总行à总行领导、省直/省分行à省直/省分行领导、辖行à辖行领导)
(11)分管行领导
a)对档案进行审批
(i)通过则发送给办公室档案管理员进行实体档案销毁处理。
(ii)不通过则发送给办公室档案管理员重新处理。
b)如档案是归属于辖行,辖行领导审批通过后,需要再由省分行领导审批。
(12)办公室档案管理员
对已通过分管行领导审批通过的申请,下载相关附件并线下完成实体档销毁工作。
完成销毁工作后把申请销毁的最终状态改为“办结”。
(二)归档范围及存储格式
1.归档范围
授信无纸化主要是指授信申报、审查、审批资料的无纸化,归档范围涉及以下授信流程中上传或保存的电子文件。
主要流程包括:
表2 授信审批系统流程种类表

续表

后续如有新增流程,将再增加归档范围。如果对于已完成授信流程各层级完成归档任务后,相关电子文件按照规范移入数字档案管理系统。
2019年1月份以前原有授信业务都是双套制管理,为推行授信业务处理无纸化,交通银行开发了授信业务审批系统,基本实现授信业务流程无纸化。因此,交通银行对授信审批系统产生的数据只做电子单套制归档。
2.保管期限
按照《交通银行公司客户授信档案管理办法》(交银办〔2005〕207号)中的规定,“授信申报、审查、审批资料”的保管期限为本卷最后一笔业务结清日起15年。
按照《交通银行档案管理办法》(交银发〔2016〕50号)规定,现在的档案保管期限是分10年、30年和永久三种类型。
鉴于目前部分授信业务期限较长,电子档案建议暂按永久期限保存。
依据国家档案局要求及《电子文件归档与电子档案管理规范》(GB/T 18894—2016)相关规定,结合交通银行实际,确定交通银行档案电子化项目使用的通用存储格式为PDF,即对于支持转换为PDF格式的各类电子文件均应在归档前进行转换,无法支持转换的格式将以原格式进行归档,并应同步归档其对应的应用软件。
表3 交行授信审批系统电子文件归档存储格式

续表

续表

续表

续表

续表

续表

续表

续表

续表

续表

(三)系统接口
交通银行电子文件管理系统与其他应用系统间交互接口有数百个,按交互方式分类可分为批量接口和实时接口。批量接口主要用于系统间海量数据传输。交通银行对公授信业务审批系统采用批量接口方式。
表4 交通银行授信审批系统电子数据元数据组成

续表

续表

续表

续表

(四)元数据项及捕捉节点
在参考《文书类电子文件元数据方案》(DA/T 46—2009)的基础上,结合目前交通银行电子文件管理实际,形成了《交通银行电子文件归档元数据规范》,将元数据从概念层次上依据具体业务相关性分为公共元数据和业务元数据两个域。公共元数据为业务无关性信息,是电子文件进入数字档案馆(室)的必要条件。业务元数据是业务相关性信息,依据各条线各业务的实际需要,进行专门定义。
表5 交通银行授信审批系统业务元数据

(五)整理方案
交通银行授信档案按照“件”为单位,并对件内文档按照一定顺序进行排序,整理后的文档放到卷内,按先组卷后放件的顺序对授信档案进行整理,整理方案分为系统自动整理、档案管理员手工整理两种方式。自动整理通过系统夜间批量根据文件名称的卷号规则自动整理生成卷号、件号;手工采集由档案管理员手动选择文档进行案卷建立、组卷、立卷、审批、归档,件号由数字档案系统自动生成。
1.分类
表6 交通银行授信审批系统档案分类

2.组件
授信类文件的类型种类较多,各类流程较为复杂,一般来说,以流程中的一个任务和文件类型为一件。
3.排序
电子文件应按照一定的逻辑顺序编号进行排序。
4.组卷规则
数字档案系统会根据用户设定的动态条件进行自动组卷,也可以选择手工组卷。
自动组卷规则:动态设置条件 +'B'+会计日期;凡是在立卷规则中设置展示的字段全都拼接到卷号中,每个字段之间以下划线进行间隔,其中业务品种和文件名称以编码形式展示。默认动态设置条件规则按照业务品种、文件编码、流程号、流程种类、立档单位名称。例如:业务品种_文件编码_流程号 _流程种类 _立档单位名称_B_会计日期。
手工组卷规则:动态设置条件+A+会计日期;凡是在立卷规则中设置展示的字段全都拼接到卷号中,每个字段之间以下划线进行间隔,其中业务品种和文件名称以编码形式展示。默认动态设置条件规则按照业务品种、文件编码、流程号、流程种类、立档单位名称。例如:业务品种_文件编码_流程号 _流程种类 _立档单位名称_A_会计日期。
(六)电子档案保管方案
1.电子文件长期保存
交通银行档案部门每年对电子档案的可读性进行评估,并形成评估报告。如存在因软、硬件或其他技术升级、变动出现电子档案不可读取的风险,则对电子档案进行迁移。电子档案迁移前进行迁移可行性评估(包括目标载体、系统、格式的可持续评估、保管成本评估等),并保证迁移过程电子文件的真实性,过程可控,防止迁移过程中电子文件信息丢失、非法篡改。
2.离线存储
电子档案进行以单份文件(含元数据)为存储单元做离线存储,存储不采用运维备份的文件组织方式,也不采用系统备份文件代替存储。
交通银行对重要电子档案做一式三套离线存储,存储载体为一次性写入磁带、可擦写光盘、硬磁盘等。三套载体分开保存。
交通银行对存储电子档案的磁性载体每满二年、磁带每满四年进行一次抽样机读检验,抽样率不低于10%,如发现问题则及时采取相应恢复措施。对磁性载体上的电子档案,每四年转存一次,原载体同时保留时间不少于四年。
3.电子文件保管期限
表8 授信审批系统电子文件保管期限

续表

(七)利用方案
1.全部开放
无开放。
2.全部不开放
由于授信档案涉及到集团客户授信信息,所有授信档案目前均为受控档案,用户在查看授信档案需发起借阅流程,由档案管理员与分管二级部高经审批通过后方可进行查看。
表9 授信审批系统电子文件权限情况表

续表

续表

续表

续表

3.部分开放
无开放。
4.知识库
交通银行对归档范围的电子文件,已进行知识管理功能,针对档案信息深层次加工、基于用户历史行为进行分析,进行档案信息主动推送,目前正探索基于交通银行授信录音档案,结合自然语言技术,进行语义分析,为未来智慧化授信提供有力数据支撑。
5.超权利用
授信业务对受控档案超权利用时,需进行借阅审批,在利用过程中会对客户端档案缓存文件进行加密保存,用来保证档案的安全。
对于授信业务,根据分行融资授权情况,借阅流程分为分行内完成、上报上级行省行或总行、上报主办行、跨境申报;
电子档案借阅,对于本分行的档案资料,由分行授信部档案管理员和授信部高级经理审批后可以借阅;对于上级行的档案资料,由上级行档案管理员和授信部高级经理审批后可以借阅。如上级行需借阅下级行立档资料,由上级行档案管理员和授信部高级经理审批后可以借阅。
6.利用范围
(1)交通银行对属于归档范围内的电子文件,均按照相关规定纳入提供利用的范围,并包含相应的支持软件和数据。
(2)属于国家秘密、商业秘密、企业知识产权、客户隐私的档案信息,均严格控制提供利用范围,确保国家、银行及客户权益。
(3)对于涉密档案,交通银行严格按照“上网不涉密、涉密不上网”原则,严禁将涉密文件的电子信息上传档案系统,确保涉密信息的绝对安全。
(4)涉及客户隐私的电子档案,按照相关法规规定,严格审核利用者身份,不得随意扩大利用、接触范围。
(5)保密期限已满或者属于国家信息公开范围内的电子档案,按照相关规定向社会开放。
7.赋权原则
(1)资源权限
档案资源分三类,第一类为集团总部;第二类为省分行、直属分行、海外分(子)行、子公司;第三类为省辖分行、分公司。
(2)数据查阅权限设置
①集团总部:集团总部高管层可以查阅全集团所有档案信息,集团总部部门总经理(副总经理)可以查阅全集团本条线档案信息,集团总部员工只能查阅集团总部本部门档案信息。
②省分行:省分行高管层可以查阅省分行、省辖分行所有档案信息,省分行部门总经理(副总经理)可以查阅省分行、省辖分行本条线档案信息,省分行员工只能查阅省分行本部门档案信息。
③直属分行:直属分行高管层可以查阅本行所有档案信息,分行部门总经理(副总经理)、员工只能查阅分行本部门档案信息。
④海外分(子)行:分行高管层可以查阅本分行、子行档案信息,分行部门总经理(副总经理)可以查阅本分行、子行本条线档案信息,分行员工只能查阅分行本部门档案信息。
⑤子公司:公司高管层可以查阅本公司、分公司所有档案信息,公司部门总经理(副总经理)可以查阅本公司、分公司本条线档案信息,公司员工只能查阅公司本部门档案信息。
⑥省辖分行(分公司):分行(分公司)高管层可以查阅本行所有档案信息,分行(分公司)部门总经理(副总经理)、员工只能查阅分行(分公司)本部门档案信息。
8.检索查询
(1)检索界面。利用检索设置简单检索、高级检索2种。检索界面提供所有检索项和检索词的输入口,并为用户提供检索方法说明。
(2)动态检索。允许用户反复修改检索条件,并可在上一次检索结果的基础上追加检索条件、缩小检索范围。
(3)检索结果显示。检索结果支持详细显示、浏览显示、排序、全文显示,并可以实现互相切换。
(4)检索效率。电子档案利用过程注重查全率、查准率以及检索速度等关键指标,提高用户体验。
9.在线利用
用户可以查询交通银行所有的授信档案条目,所有用户查阅都需要发起借阅流程,审批通过后可阅览档案。
(1)在线阅览
用户访问档案可在线发起借阅流程,完成审批后,可在线查看档案影像在线预览、业务元数据、公共元数据、归档元数据信息查询。

图3 档案详情信息-影像信息

图4 档案详情信息-业务元数据

图5 档案详情信息-公共元数据

图6 档案详情信息-归档元数据

图7 档案详情信息-元数据信息
(2)在线下载
如果需要下载原文,可在线发起借阅流程,完成审批后,可选择下载到本地。

图8 档案在线下载
10.利用审批流程
行内员工查阅授信审批业务电子档案的权限,根据归档部门及用户岗位设置,员工需要发起借阅流程,流程设置规则为:
(1)查阅本分行的档案资料,由分行授信部档案管理员和授信部高级经理审批后可以借阅;
(2)查访上级行的档案资料,由上级行档案管理员和授信部高级经理审批后可以借阅;
(3)如是上级行需借阅下级行档案资料,由上级行档案管理员和授信部高级经理审批后可以借阅;
(4)借阅的档案在同一省分行下,申请借阅人为普通员工,需要由授信部档案管理员及授信部高级经理审批;
(5)借阅的档案在同一省分行下,申请借阅人为授信部档案管理员,需要由授信部高级经理审批;
(6)借阅的档案在同一省分行下,申请借阅人为授信部高级经理,则无需再审批,申请状态直接为“审批通过”;
(7)借阅的档案在不同省分行下,则需要由对方分行的授信部档案管理员及授信部高级经理审批。
11.利用方式
(1)拷贝;(2)通信传输;(3)在线利用;(4)在指定地点阅读;(5)档案公布。
12.安全控制
(1)系统具有完善的安全控制措施,确保电子档案在利用过程中的保密性和完整性。
(2)系统以拷贝形式提供电子档案利用时,可视情采用适当的技术手段控制拷贝的扩散,可设置限制电子档案复制、拷贝、粘贴等功能,限制电子档案的打开次数或使用时间等。
(3)档案部门通过内部网提供在线利用时,宜通过访问控制、终端管控等方式来确保电子档案的安全利用。
(4)采取严格的权限设置,确保档案利用者查询利用权限内的档案,控制利用者下载、打印档案。
(5)电子档案利用系统具有审计、统计等功能,对在线电子档案利用情况进行跟踪统计。
普通用户借阅流程图如下:

图9 普通用户借阅流程图
档案管理员借阅流程如下:

图10 档案管理员借阅流程
高级经理借阅流程如下:

图11 高级经理借阅流程
(八)四性检测方案
1.交通银行电子文件四性检测保障优势
交通银行“境内外一体化全业务系统重构工程”暨“531工程”荣获2016年度银行科技发展奖一等奖。交通银行电子文件系统的建设正是基于“531工程”体系架构,此架构本身以现阶段业界领先的技术为支撑,在基础框架层完成了对数据“四性”的保障。
(1)网络安全
交通银行将网络划分为不同的安全区域,安全区域之间的互访流量经由防火墙进行控制,目前依据网络安全技术规范要求,针对各类不同安全域的访问,制定安全访问矩阵以明确详细的访问策略;同时根据需要,在某些安全区域内部不同网段之间的互访流量通过核心交换机的VLAN接口下ACL进行黑名单控制,禁用病毒及远程访问控制等敏感端口。对于各区域内的网络设备,交通银行也建立了网络设备安全配置基线标准,明确了网络设备本身的安全要求。
在内部网络中,交通银行生产环境与开发测试环境、办公环境实现了严格的隔离,生产环境、开发测试环境和办公环境均部署在独立的安全区域内,通过防火墙进行严格访问控制。为控制风险,在防火墙上设置大网段的DENY策略,严格限制不同环境之间的互通。
在外部网络边界(如外联区、网银出口、互联网出口等),交通银行部署了多种安全防护措施,以防范外部网络入侵,主要包括部署双层异构防火墙、上网行为管理设备,串接IPS入侵防御设备,与运营商签订网络流量清洗协议,防范DDoS攻击等措施,同时,在外部边界采取实施数据流量双向地址翻译,禁用CDP邻居发现协议等手段防止信息外泄和恶意入侵。
目前交通银行已在总行完成内外网物理隔离,37家省直分行均已采用物理隔离方式接入互联网,同时交通银行已完成信息防泄漏客户端的推广,实现了终端接入的网络准入控制,即必须安装信息防泄漏客户端才能接入内部网络,实现了网络准入与信息防泄漏的一体化管理。

图12 网络架构图
(2)高可用保障
①数据库增量及周期全量备份。电子文件系统数据库每天进行增量备份,一周进行全量备份。当系统出现数据误操作、丢失或外置盘存储损坏等情况时,可以利用备份数据进行还原恢复,一定程度上保障系统正常运行,数据库采用HA机制,当主数据库宕机后,可实时切换到备机,保证了数据的高可用性。
②应用服务器采用集群模式。电子文件系统采用集群模式部署,使用F5负载均衡进行请求分发,在增强其横向扩展能力的同时,也避免了单点故障。在集群模式下,任意单台服务器宕机不会影响业务人员对系统的使用,可极大的提升系统的可用性。同时,交通银行已全面部署应用Vmware虚拟化平台,实现了硬件故障与应用运行的隔离,底层硬件的物理故障不会影响应用层系统的运行,进一步保障了系统的高可用性。
③张江漕河泾数据库双活机制。电子文件系统可采用同城异地双活机制,数据中心在张江、漕河泾实施数据库及存储的同城异地实时同步与备份,当张江园区存储或数据库出现故障时,可实时切换至漕河泾容灾中心,保障系统数据库的高可用性。
(3)过程管理体系
交通银行已通过CMMI3级认证,依据CMMI-DEV模型为理论指导,自主研发了BSSP (BANKCOMM Standard Software Process,交通银行标准软件过程)过程管理体系,通过需求管理平台、CQ及QC工具的配合,对需求开发及系统功能变更进行全流程跟踪。BSSP涵盖了项目管理、工程过程、过程管理和支持过程等四大过程组,针对各过程组指定了相应的过程规范、过程指南、模板和检查表。

图13 项目管理过程图
(4)数据治理
交通银行在基于JUMP (J2EE Unified Multi-purpose Platform,开放应用开发平台)架构体系建设了数据总线ADE (Enterpise Application Data Exchange,企业级应用数据交换平台)和GSP (Enterpise General Service Platform,企业级综合服务平台)。其中,ADE定位于系统间批量数据的交互,为应用系统提供标准化的文件分发服务;GSP定位于系统间实时请求交互,为应用系统提供高效稳定的结构化通讯服务。
ADE与各应用服务器之间交互采用基于光纤局域网的TCP/IP协议,传输工具主要采用CD (IBM Sterling Connect:Direct),这是一个点对点文件传输中间件。CD工具提供断点续传、加密、完整性校验等全方位的管理功能。
GSP与各应用服务器间交互基于SOAP (Simple Object Access Proto cal,简单对象访问协议)协议,采用Web Service方式完成信息交互,主要使用IBM WAS (IBM WebService Application Server)和IBM MQ (IBM WebService Message Queue)作为中间件。

图14 文件交换作业图
两个平台均采用SOA (Service-Oriented Architecture,面向服务的架构)治理架构,通过数据信息标准化提供了严格的准入与信息分发机制。首先,需要通过正式公文流程进行应用系统的申请与注册;其次,需要业务部门提出需求申请单实现服务的发布与申请;最后,通过需求分析、需求开发、测试验收等环节后,基于CQ (Rational ClearQuest,IBM变更管理工具)平台完成基线及投产部署。
2.四性检测环节
(1)电子文件归档环节
电子文件从业务系统移交到数字档案馆属于档案保管权属交接,也是从电子文件到电子档案的转变,因此在此环节需要通过四性检测手段对交接归档的电子文件质量进行严格把关,将符合归档要求的电子文件归档进行统一管理、统一谋划,将不符合归档要求的档案由业务部门进行确认整理。

图15 四性检测异常页面展示
(2)电子档案长期保存环节
电子文件存在格式多样化的问题,尽管电子文件在归档的过程中我们进行统一格式处理,但是还存在一部分档案无法进行格式统一,电子文件在档案库长期保存过程中,需要定期对其“四性”进行检测,严防不符合要求的电子档案长期保存。在电子档案长期保存的过程中,由于技术更新换代或存储介质损坏等原因,可能导致电子档案损毁或无法读取,因此需要设置检测策略,对长期保存的电子档案进行定期或不定期的检测,确保电子档案长期可用。
3.四性检测方案
(1)真实性和可靠性检测
①检测内容。
电子文件和电子档案来源可靠,内容是否被非法更改或非法调换,以及是否完全和正确的表达其所反映的事务、活动和事实。
②检测方法。
首先,系统间数据交互采用SOA治理架构。基于BSSP管理体系和SOA治理平台的支持,在基础服务层即可确保电子文件系统获取到的数据真实可靠。
其次,系统间数据交互使用数据总线。系统间数据交互主要通过批量形式处理,数据总线ADE基于IBM CD工具实现系统间高效稳定的文件传输。文件传输采用Connect:Direct协议,此协议支持断点续传、并发传输、完整性验证、传输状态监控等,确保传输过程安全稳定。CD工具支持CRC(Cyclic Re dundancy Check,循环冗余校验码)校验,确保数据传输过程的可靠性。
第三,系统间数据交互采用CTM调度。交通银行采用了Control-M自动化调度工具,能够提供批量作业调度、作业流管理、作业监控等功能,确保数据调度过程自动化、智能化,可以实时追踪传输状态、支持异常自动恢复、错误告警等。同时,系统会对传输及操作信息进行全程留痕,留痕信息需多岗授权才可访问。
(2)完整性检测
①检测内容。
电子文件和电子档案的信息构成完整,元数据完整,以及特殊的软硬件完整性。
②检测方法。
首先,入库前的完整性校验。电子文件系统对原始数据做入库操作前会进行MD5校验,基于MD5优秀的防修改性和强抗碰撞性,确保数据不被第三方恶意篡改。原始文件在进行PDF转换前会做MD5校验,避免损坏或缺失文件生成错误的PDF文件。PDF文件生成后也会记录新的MD5信息,确保在后续使用时的完整性。
其次,入库后的完整性校验。电子文件系统会对入库后的数据进行非空验证、非法值验证、重复信息验证、字段组装规则校验等完整性校验,对于通过校验的数据纳入待归档清单处理,未通过数据则会通过异常告警方式通知对应权限人员进行人工确认。
第三,系统中对于数据的一切操作均会留痕,包括数据的查阅、借阅、异常情况。特殊情况下,若需对原始文件进行修订,只会在文件后方补充,不会覆盖现有信息,同时会对修订的过程进行授权和记录。以上描述的各类行为信息记录均不可被删除和修改,并只开放给相应权限用户查阅。
(3)可用性检测
①检测内容。
指电子文件和电子档案的可理解性和可被利用性,包括信息的可识别性、存储系统的可靠性、载体的完好性和兼容性。
②检测方法。
首先,以PDF作为存储格式。电子文件系统接入的电子文件会全部转化为PDF格式存储,对于不能转化的电子文件将会以源格式存储,并将其对应的软件工具一同归档。
其次,软件工具归档。电子文件系统对于各类电子资料的软件工具也会做归档处理,记录这些软件工具的软件版本、可支持的文件格式、适用系统版本等信息,确保归档数据持续可用。
(4)安全性检测
电子档案保存在档案系统后,会定期抽查档案是否可用,以及存放档案的存储介质或服务器有无病毒入侵的迹象,为存放电子档案的物理存储介质制定备份计划,如定期备份,备份文件存放多份,并异地存放,符合国家档案局对电子文件保存的相关规定。
(5)长期保存检测
通过系统定期检测和人工抽检的方式,对电子档案进行检测,在电子档案长期保存过程中,针对电子档案所做的任何操作都应记录,进行档案全生命周期管理。在检测时优先检测这部分变化的元数据信息。
(6)检测方案配置
①新增方案
将需要检测的具体检测项以及每个检测项的具体要求定义,将检测项目配置到数据库中。
②修改方案
对已经配置好的检测项目,如果需要进行调整可以进行实时修改和保存。
③删除方案
从系统配置中删除掉已经陈旧或者配置错误的检测方案。
④导出方案
已经配置好的检测方案可以导出供其他项目或者用户进行复用,减少配置工作量,提高实施工作效率。
⑤导入方案
其他项目或者用户已经配置好的或者经过长期使用比较合适的检测方案可以导入到检测系统。通过借鉴其他用户好的配置方案,更好对归档包、长期保存包进行检测。
4.四性检测规范
参考档案行业标准《文书类电子档案检测一般要求》(DA/T 70—2018)中列明的检测项目及要求,汇总整理四性相关检测内容及方法如下。
表10 四性相关检测内容

续表

续表

续表

续表

续表

(九)系统建设
目前,交通银行授信审批系统产生的文件以电子流转为主,归档存量电子文件约40万余份。
自2019年开始,授信系统档案以电子单套制归档,每年电子文件都以16万份左右的速度增长。归档电子文件范围主要涵盖授信系统全流程阶段的各类文件资料。覆盖了授信申报审查材料、客户基础资料、财务及项目资料、担保资料、其他业务资料这5大类,包含了授信申请书、尽职确认书、审查报告等 99 种材料,其中,文件类型有txt、doc、excel、pdf、mp3、rar、zip等。

图16 数字档案系统门户
(十)其他关键技术解决方案
1.全文检索引擎
数字档案馆作为全集团的数字资产管理中心,所管理的档案数量是非常巨大的,如何支持业务人员从巨量的档案海洋中搜索到需要的资料将是系统中的一个重大挑战。为此交通银行在数字档案馆的整体架构中,基于档案术语规则和Elastic Search技术,打造了符合档案资料快速检索的全文搜索引擎,其特色如下:
分布式架构(Master-Slave模式),保证系统的可用性。

图17 全文检索工作流程
步骤:
客户端向Node1发送索引文档请求
Node1根据文档ID (_id字段)计算出该文档应该属于shard0,然后请求路由到Node3的P0分片上。
Node3在P0上执行了请求。如果请求成功,则将请求并行的路由至Node1,Node2的R0上。当所有的Replicas报告成功后,Node3向请求的Node (Node1)发送成功报告,Node1再报告至Client。
当客户端收到执行成功后,操作已经在Primary shard和所有的replica shards上执行成功。
使用TF/IDF评分算法,通过测量术语在文档中的次数,提高搜索的命中率。以下是TF/IDF的算法公式:

各参数含义:
score (q,d)是针对document进行的一次评分查询,q—query,d—document;
Term frequency:匹配词个数/文档中总词个数,文档中匹配的单词个数越多,评分越高
Inverse document frequency:文档总个数/匹配文档个数
Coord:协调因素,根据文档中包含term数量而定
Field boost:升压值
Length norm:查询term越长,协调因子越小
Query norm:一种基于查询的规范化因子,计算为每个查询项的平方权重之和。
Lucene倒挂索引技术
引用了Lucene的倒挂索引技术,以分词的形式将文档分解成单词+文章号【频率】+位置的形式进行保存;同时通过字典树(又叫单词查找树,是一种树形结构,是一种哈希树的变种),利用字符串的公共前缀(Term Index)来减少查询时间,最大限度的减少无谓的字符串比较,查询效率比哈希树还要高。

图18 Lucene的倒挂索引技术
2.PDF转换技术
数字档案馆需要针对不同的文件进行统一的格式转换,以符合国家档案局对归档文件的格式要求,为了满足每天海量文件的格式转换,我们采取分布式技术,建立了文件格式转换服务器群,通过自动判断服务器当前的运行压力情况,自动分发需要处理的转换任务到空闲的服务器,保证转换的效率。同时分布式的处理方式能大大降低单服务器故障导致系统无法使用的问题。
在未来文件转换压力增加时,系统能方便的通过增加服务器线性提升文件的转换效率,满足归档流程的时效性要求。
3.分布式非结构化文件存储
交通银行在电子数据存储管理上采用多点部署架构提高系统的可用性,其优点如下:
(1)标准化管理,高效准确的检索降低管理了成本。通过总分行的分层部署设计,能有效保证系统的可用性(单分行故障不会影响其他分行的使用)。报文转换、影像切割、影像加密等过程由分行端进行处理,大大减缓了总行端的处理压力。传输组件支持多点传输、断点传输、数据验证等功能,保证了分行在不同的网络环境下也能顺利的对不同的文件进行存储。分布式的总行存储层设计支持存储容量的无限扩展,并保证在高压力场景下的档案查询效率。
(2)集中存储和备份机制,避免丢失的隐患。

图19 ECM应用架构图
【说明】
BT组件主要处理缓冲区读写操作以及报文格式转换功能;
ST组件主要处理具体交易逻辑;
BA组件主要处理缓冲层管理任务;
SA组件主要用于生成管理任务;
BT、ST搭配使用,完成对交易逻辑的处理;
B1、SA搭配使用,完成对系统的管理工作;
传输组件用来屏蔽具体的传输协议以及保障传输质量。
(3)动态均衡存储。
系统中引入了分布式数据库来存储文档的索引信息,系统会根据文档的系统号(Biz_type)来决定了文档索引的存储位置,在分行缓存端发送交易到总行端时,路由请求将按系统号将交易转发到总行不同的IHS端,以正确存储或查询索引数据库。
同时所有文件的最终物理的存储路径均由系统产生并管理(即按/app/share/系统号/分行号/日期/影像名组织文件存储目录,存储文件)。

图20 动态均衡存储
这种设计的优势在于:
支持存贮服务器或存贮介质的无限扩展;
系统路径与存贮路径无关,突破操作系统的路径层级数量限制;
系统移动、重命名等操作勿需操作实体文件;
因采用了均衡技术,当有多台存贮服务器时,可分散各服务器的I/O压力。
4.分布式数据库
Cbase是基于OceanBase技术自主研发的关系型数据库,其支持动态的添加存储以实现存储容量的线性扩展;能够及时响应大规模用户的读/写请求;提供容错机制,实现了数据的冗余备份,保证数据和服务的高度可靠性。

图21 基于Paxos的分布式架构
在技术创新上,我们通过整合了Paxos一致性协议,解决了原技术架构中存在的高可用和数据丢失问题,具体实现如下:
系统能够不依赖第三方工具,自动检测主RS/主UPS故障,并自动进行主节点选举,完成主备切换。保证主节点唯一性,并维持系统稳定运行,尽可能降低主节点故障对上层应用的影响。
实现主备UPS日志强同步机制,保证系统主节点故障时,已经提交事务所涉及的数据不会发生丢失。
解决现有版本主备集群切换的无法自动切换、人工操作复杂等问题,更好的支持系统异地容灾备份。