搜索
您的当前位置:首页正文

一种数据库内容保密检查系统及检查方法[发明专利]

来源:小奈知识网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112347079 A(43)申请公布日 2021.02.09

(21)申请号 202011232205.4(22)申请日 2020.11.06

(71)申请人 杭州世平信息科技有限公司

地址 310012 浙江省杭州市西湖区西斗门

路3号天堂软件园D幢3层(72)发明人 王世晞 张亮 

(74)专利代理机构 西安通大专利代理有限责任

公司 61200

代理人 范巍(51)Int.Cl.

G06F 16/21(2019.01)G06F 16/25(2019.01)G06F 16/31(2019.01)G06F 21/60(2013.01)

权利要求书2页 说明书4页 附图2页

(54)发明名称

一种数据库内容保密检查系统及检查方法(57)摘要

一种数据库内容保密检查系统及检查方法,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。CN 112347079 ACN 112347079 A

权 利 要 求 书

1/2页

1.一种数据库内容保密检查系统,其特征在于,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;

数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;

涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;

检查结果输出模块用于展示检查结果。

2.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQL Server服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。

3.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。

4.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。

5.一种数据库内容保密检查系统的检查方法,其特征在于,基于权利要求1至4任意一项所述的一种数据库内容保密检查系统,包括以下步骤:

步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;

步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。6.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,结构化文档处理包括:

1)编码检测

系统会根据数据库创建时的编码和类型进行tika解析;2)编码转换

数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。7.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,非结构化文档处理包括:

1)文档类型识别

对文档的类型进行tika解析,识别文档所属的类型;2)文档内容提取

对文档中的内容进行提取,即对文档内容进行深度解析;3)文档元数据提取

从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。

2

CN 112347079 A

权 利 要 求 书

2/2页

8.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。

9.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。

3

CN 112347079 A

说 明 书

一种数据库内容保密检查系统及检查方法

1/4页

技术领域

[0001]本发明属于保密检查技术领域,特别涉及一种数据库内容保密检查系统及检查方法。

背景技术

[0002]随着信息化的高速发展,信息技术与业务高度融合,为政府部门、企事业单位等带来工作便利的同时,也为保密工作带来了严峻挑战。在此背景下,国家局逐步要求各级保密局进行保密检查全覆盖,进一步督促各级单位自主完成保密检查工作。随着大数据时代的到来,集约化平台、大数据平台的上线,使的终端存储数据所占比重越来越小。但是传统的终端保密检查系统主要是针对终端计算机存储的涉密信息检查,对于集约化平台以及大数据平台数据的检查却无能为力。近年来,市面上也出现了一些针对大数据平台的保密检查系统,但是普遍存在数据采集效率不高以及对采集的数据类型检查的覆盖面不全,多数仅能实现对结构化数据的保密检查,对非结构化数据束手无策,并且存在保密检查准确率不高的问题。

发明内容

[0003]本发明的目的在于提供一种数据库内容保密检查系统及检查方法,以解决上述问题。

[0004]为实现上述目的,本发明采用以下技术方案:[0005]一种数据库内容保密检查系统,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;[0006]数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;

[0007]涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;

[0008]检查结果输出模块用于展示检查结果。[0009]进一步的,数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQL Server服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。[0010]进一步的,结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。[0011]进一步的,通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。

4

CN 112347079 A[0012]

说 明 书

2/4页

进一步的,一种数据库内容保密检查系统的检查方法,包括以下步骤:

[0013]步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;[0014]步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;[0015]步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。[0016]进一步的,结构化文档处理包括:[0017]1)编码检测[0018]系统会根据数据库创建时的编码和类型进行tika解析;[0019]2)编码转换

[0020]数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。[0021]进一步的,非结构化文档处理包括:[0022]1)文档类型识别

[0023]对文档的类型进行tika解析,识别文档所属的类型;[0024]2)文档内容提取

[0025]对文档中的内容进行提取,即对文档内容进行深度解析;[0026]3)文档元数据提取

[0027]从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。[0028]进一步的,检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。[0029]进一步的,深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。[0030]与现有技术相比,本发明有以下技术效果:[0031]在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。最后通过机器学习引入正例、反例对涉密模型进行构建与训练,一定程度上降低了保密检查误报率,提高准确率,同时减轻了检查人员的工作量。2)本系统作为保密检查工具,能够协助保密检查单位更好的完成保密检查工作,为监管单位提供保密检查技术支撑,另一方面还可以作为政府部门、企事业单位的自查工具,及时发现与避免涉密信息外泄,从而达到保护秘密的安全。附图说明

[0032]图1为数据库保密检查流程图;

[0033]图2为数据采集模块访问接口分布图;[0034]图3为文档类型识别和解析流程;[0035]图4为训练模型实现过程图。

5

CN 112347079 A

说 明 书

3/4页

具体实施方式

[0036]以下结合附图对本发明进一步说明:[0037]请参阅图1至图4,一种数据库内容保密检查系统,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;[0038]数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;

[0039]涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;

[0040]检查结果输出模块用于展示检查结果。在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。

[0041]在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。最后通过机器学习引入正例、反例对涉密模型进行构建与训练,一定程度上降低了保密检查误报率,提高准确率,同时减轻了检查人员的工作量。

[0042]数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQL Server服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。数据采集模块,主要用于对待检查数据的采集,该模块采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;例如采用OCI接口实现对Oracle数据库的访问接口,提供了一组可对Oracle数据库进行存取的接口子例程,通过在第三代程序设计语言中进行调用可达到存取数据库的目的;采用DB—Library直接访问SQL Server服务器的底层函数,它与Net—Library及网络协议直接交互,访问速度更快,效率更高;MongoDB C Driver是MongoDB支持的一种跨平台快速访问接口,实现对MongoDB的全部操作。包括增删改查和执行命令的各种接口;hiRedis实现对Redis完整的命令集、管线以及事件驱动编程;HBase Java API通过Java语言访问HBase数据的高效接口,实现了对数据库配置、HTable操作、列族操作、列修饰符操作等接口等等。在该模块中,本系统针对不同的数据库,分别开发相应的数据库性能远程监控组件,并与扫描引擎集成,实时监控数据库运行状态,在不影响数据库使用的前提下,充分利用数据库服务的剩余资源,实现对数据库数据快速采集和处理。[0043]结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。[0044]通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。[0045]一种数据库内容保密检查系统的检查方法,包括以下步骤:[0046]步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过

6

CN 112347079 A

说 明 书

4/4页

统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;[0047]步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;[0048]步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。[0049]结构化文档处理包括:[0050]1)编码检测[0051]系统会根据数据库创建时的编码和类型进行tika解析;[0052]2)编码转换

[0053]数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。[0054]非结构化文档处理包括:[0055]1)文档类型识别

[0056]对文档的类型进行tika解析,识别文档所属的类型;[0057]2)文档内容提取

[0058]对文档中的内容进行提取,即对文档内容进行深度解析;[0059]3)文档元数据提取

[0060]从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。系统能够解析的文档类型有OFFICE办公文档(doc/x,xls/x,ppt/x…)、PDF、纯文件、标记文本、源代码、图片内容等300类以上。[0061]检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。[0062]深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。

[0063]数据库内容保密检查系统通过旁路部署在核心交换机上,检查系统与待检查系统需保证网络可达,检查系统需拥有数据的可读权限,可实现对待检查系统的涉密检查。能够对内部公开服务器或云平台中的数据进行涉密检查,检查出违规存储、违规传输的涉密数据,并上报检查结果。

7

CN 112347079 A

说 明 书 附 图

1/2页

图1

图2

8

CN 112347079 A

说 明 书 附 图

2/2页

图3

图4

9

因篇幅问题不能全部显示,请点此查看更多更全内容

Top