档案智能语义搜索服务系统是联著实业布局语义赋能档案治理产品体系的第一步。作为后续动作,智能划控、智能著录、智能辅助编研将加速落地,全方位满足行业数字化生长的需要。
面对新《档案法》实施后馆藏档案封闭期限缩短、待鉴定数量增加、人力匮乏的问题,国内已有档案馆开始使用关键词过滤、神经网络技术进行开放鉴定。那么,智能语义划控和前两种辅助划控手段有什么“质”的区别呢?
要搞清楚这个问题,我们先做一道“真题”。
众所周知,涉及公民隐私的档案被列入控制范畴。实操中如何界定隐私?如果用人力划控,经验丰富的开放鉴定工作人员可以总结出一条条类似这样的“红线”,比如“居住地”“出生年月”“职称”“籍贯”,踩到“红线”则被判定为高度疑似隐私档案。
那么,使用关键词过滤划控怎么工作?
首先需要组织人员编制敏感词库,将“居住地”“出生年月”“职称”“籍贯”等词语本身作为敏感词逐一输入库,再扫描待鉴定档案,最后由鉴定人员对检出含敏感词的档案进行手工复核。如果含敏感词档案里的确存在隐私信息,人工复核就能顺利检出应继续控制的档案。如:
姓名:张三
出生年月:1995年1月1日
职称:中级编辑
居住地:北京市海淀区西四环北路137号
籍贯:江苏南京
听起来似乎够用了,也节省了人力。但这只是“听起来”,开放鉴定工作的实际远没有那么理想化。
现在我们就把这道题搬进现实,还有一种情况大量存在,即档案中含有敏感词、本身却不涉及个人隐私,如“某局印发《关于各单位统计现有员工职称情况》的通知”。许多这类档案在关键词过滤划控过程中都会被挑拣出来,对原本有限的复核人力、时间成本来说是一种极大的浪费。
更致命的是,许多真正命中隐私“红线”的敏感信息反而往往不含“居住地”“出生年月”“职称”“籍贯”这些关键词本身。如:“中级编辑张三95年元旦出生,现于海淀西四环北路137号租房子住,老家南京。”这段文字属于踩到上述全部“红线”的个人隐私信息,但语句中并没有出现“居住地”“出生年月”“职称”“籍贯”等字眼,利用关键词过滤划控很难将之分辨出来。
然而,通过语义分析技术为机器装上“眼睛”和“大脑”的双重buff加持后,系统可以不依赖“不太靠谱”的关键词,像真人一样,“发现”真正包含隐私信息的档案。
再说说与语义分析同属人工智能领域的神经网络技术。乍听之下不明觉厉,简单来说,神经网络辅助划控的工作流程大致是这样的:假设档案馆与档案服务企业合作使用神经网络技术做开放鉴定,首先要提供数目庞大且已人工鉴定过的案卷给企业做训练,通过机器深度学习可开放档案、继续划控档案的各自特征,建立神经网络模型,再用于鉴定其他档案。
神经网络划控依赖大规模人工标注训练数据集,一方面对算力要求极高,档案馆硬件资源投入大;另一方面,大量档案原件在合作方手中进行反复训练、标注和算法优化,安全性难以保障。
更重要的是,神经网络开放鉴定预训练成果的可移植性极低。原因不言自明——各地划控标准不一,拿着用A馆数据深度学习后建立的划控判断模型,去给B馆做开放鉴定,就好比把为A量身定制的衣服给B穿,恰好适合B的几率又有多高呢?退一步讲,哪怕同是A馆,或许今天按当下划控标准已经建立好模型,可明天划控条件哪怕有一点变化,就要一切推倒重来。这对于标准多变的开放鉴定工作来说,无论是时间成本还是资金投入都是极不经济的。更遑论,某些待鉴定档案存量只有几万件甚至更少的中小档案馆,可能连神经网络建模的“起步价”样本量都凑不足。
于是,当神经网络——人工智能领域中的“感知智能”遇到瓶颈时,处于更尖端“认知智能”层面的语义工程技术就要大显身手了。
基于语义工程技术的语义划控系统并不需要大样本训练,拥有易配置的优势。属性“亲民”,功能却很“黑科技”。语义划控以高保真的中文文本语义解析器为基础,可实现对档案原文的语义分析,从中识别划控鉴定条件,再由此做出划控鉴定判断,而工作人员只需参照扫描结果,根据系统建议进行复核或抽检。使用现有语义划控系统后,依据实测数据,保守估计可节省人力60%以上。
不仅如此,在系统自带通用语义库的基础上,各档案馆还可以根据本馆待鉴定档案特点,紧贴时代需求和政策导向,随时更改划控条件,且即改即生效,快速、高质量、集约化推进划控鉴定工作。
放眼未来,联著实业将继续以语义工程技术为抓手,触达多行业领域,语义赋能内容审核,提升数字化在多业务场景的覆盖度;优化产品结构,以技术洞察推动业务升级,成就客户实现更大价值。