创新加速，保旺达推动AI模型在非结构化数据分类分级中深入应用

27日 2023年12月

更新时间：2023-12-27 来源：编辑：管理员浏览：3546

在数据的保护和安全共享过程中，分类分级是所有工作的前提。保旺达一直于数据分类分级领域不断探索实践，沉淀出针对非结构化数据分类分级的AI模型。近期，技术团队突破创新，开创性地以数据安全底座为支撑、以AI算法模型为驱动，推出全新基于NLP的无监督分类分级模型，并于数据安全项目中成功落地应用，守住数据安全防护最前线。

常见分类分级方式应用局限

当前各企业内部均积累了大量的非结构化文档，其中大部分为无标签数据。目前常见的无标签文档分类分级采用的是正则表达式匹配方式，其处理流程是先通过人工查看部分非结构化文档，并总结出正则模式，然后对数据进行匹配，匹配成功则划分到对应分类分级，匹配不成功文档归类缺失。

但是这种处理方式有许多局限性：

▶▶首先，企业积累的非结构化文档数量巨大，正则匹配只利用了少部分无标签数据资源，更多的正则模式没有被提取出来，覆盖率低；

▶▶其次，随着非结构化文档的不断积累，数据分布可能会出现变化，初期开发的正则表达式不及时修改就会导致数据漏判和误判；

▶▶此外，非结构化文档往往是具有多页、字符数量多的长文本，使用正则表达式对全文进行匹配效率低下。

正则表达式匹配方式，对于非结构化文档的分类分级不够精准，既不能完全符合合规要求，也难以对所有无标签数据设置不同类型的保护措施，使数据置于泄露风险之中。

非结构化数据自动分类分级技术方案

为破解传统正则表达式匹配方式的缺陷，为行业内提供更高精准度、更高效的非结构化文档分类分级方式，更敏捷地驱动数据防护，保旺达技术研发团队深入解构生成式人工智能、UEBA等各项前沿技术，将AI大模型与数据分类分级场景深度融合，沉淀出多个技术模型。

在历经多轮实验、多番能力验证后，保旺达在原有模型基础上拓展升级，迭代出更智能的非结构化数据自动分类分级方法，擘画数据安全与AI技术融合发展新蓝图。

该方法的核心是利用NLP技术有效结合无监督学习和监督学习模型，分阶段来实现对非结构化数据的分类分级。在初期阶段使用无监督学习模型，通过对比学习+聚类的方式对大量的无标签样本进行分类分级，来累积初始的标签样本；之后通过监督学习模型来进一步提升整体分类分级的准确性。

在无监督学习环节，保旺达技术团队开发了“文本对比学习+KMeans聚类“的方式进行建模。

无监督对比学习模型自定义伪标签“文本相似”和“文本不相似”来构建正负样本，把自己定义的伪标签当作分类信号来完成建模和训练。提取模型中间层的结果作为文本向量。接下来通过对文本向量进行聚类，从而完成无监督分类分级。

NLP作为一种自然语言处理技术，是AI技术的一个重要子领域，保旺达将其深刻融入至非结构化数据分类分级模型的建立当中；而跑通无监督对比学习模型，意味着表征能力更强，相似句的相似度更高，非相似句的相似度更低。保旺达以AI技术领跑数据安全赛道，持续为客户打造领先的数据分类分级生产力。

基于NLP的无监督分类分级模型技术优势

基于NLP的无监督分类分级模型，是数据分类分级领域的一次重大创新，目前已经在数据安全具体项目中落地应用，其前瞻性和实用性也获得了客户和权威机构的认可。根据实际运行的数据，无监督学习模型已经被验证在覆盖范围、准确率、效率和扩展性能上实现了新突破，有效破除了正则表达式匹配方式的缺陷。

高覆盖率

该方法提取非结构化文档的短文本特征，并开发出不同类型文档解析器，解析文档多范畴特征，有效利用大量的无标签数据作为训练资源，能够对更大范围的非结构化文档进行特征提取。经过对比，该方法预测数据的覆盖率能达到90%+，比正则匹配方法覆盖率提升50%。

高匹配效率

该方法设计了通用的文档解析器，可以快速对长文档抽取出主题概括。同时该方法搭载的基于NLP的无监督对比学习模型，是一种融合AI技术的无监督式文本向量抽取方式，实现的效果是在不监督数据的情况下生成高质量的句子向量。根据实际运行数据，在GPU加速下，该方法能够在1秒以内完成对长文档分类分级。而正则表达式匹配方式则需10秒以上，效率提升90%.

高准确率

该方法中的文本对比学习模型参考了SimCSE结构，建模过程中使用Dropout层赋予神经元随机失活能力，实现同一数据得到2个不同的文档特征向量功能。之后使用softmax分类器对特征向量进行2分类，即可完成“文档相似”和“文档不相似”的判定。模型本身先进性优越，因此匹配的准确率能够一直保持高水准。

高扩展性

该模型结构可以直接迁移到其他业务上：文档解析功能可以扩展到其他文档类型；模型在设计上各环节解耦，获取到文档向量后可以采用多种方式进行分类分级，并不限于KMeans聚类；对比学习+聚类的结构可以应用在多个业务场景，使用对应的训练数据源即可。

未来，基于NLP的非结构化数据分类分级模型这类全新工具和新模型会不断涌现，推动AI技术和数据安全的融合创新，赋能数据分级分类应用技术进入一个新时代，为各行业带来更高效、更创新的数据安全解决方案。保旺达将在技术落地性方面做出更多努力，促进AI+非结构化数据分类分级方法更大范围应用实践，精准识别数据价值、深度防护重点数据，护航数据安全。