行业新闻

行业新闻

首页 > 新闻中心 > 行业新闻 > 智慧档案馆数据化管理功能的实现

智慧档案馆数据化管理功能的实现

2021-03-29 热度:138 ℃

档案馆是各类信息资源的主要保存和服务机构,长期致力于数字记忆保护工作,其中既包括文本内容的长期保存, 也包括元数据的有效获取。[1]面对大数据时代这一新型学术  需求,智慧档案馆数据化管理应当借助数字技术,提高资源的语义化、智慧化水平,扩大信息共享的范围和深度,积极创新服务方式和方法。

 

智慧档案馆数据化管理的必要性

1.1 档案数据化转型。档案馆收藏和保存了社会活动中的各政府机构和职能机构的重要文件、特殊手稿以及具有文化、历史和文学意义的珍贵资料。档案通常属于未公开发表的唯一版本资料,更具有珍贵性与稀缺性的特点。另外,档案的史料价值和证据价值也决定了其必然成为网络基础设施建设中的主力军。新环境下,档案馆必须转换思路,变藏为用,变被动为主动。

档案数据化转型指的是在档案中,以数据作为载体和表现形式的那部分档案,其外延既包括档案内容、结构、背景数据,也包括非档案内容本身但档案产生的软硬件环境数据、档案业务活动过程中产生的数据以及应该归档但未进行归档的政务数据等,既具有档案性也具有数据性。

1.2 做好数据的前端控制和版本的永续存储。对于数据的质量控制和长期存储来说,档案馆具有理论和经验优势。档案专家应该积极加入数据的前端控制和版本的永续存储方案设计、实施和维护的各个阶段中,帮助实现数字环境下的动态、原生数字数据进行实施数据采集、质量监控和版本的永续存储,以备后期人文研究查考、利用。[2]因此,必须保证  数据安全、可靠、完整。可读的措施付诸数据“采集-处理- 呈现”的全过程中,才可以有效防止数据的丢失和损坏。档案专家应该积极介入专题数据库及服务平台的建设,在系统设计阶段实行前端控制,对数据生成和管理质量进行监控, 保证项目的后续实施效果和版本的永续存储。

 

智慧档案馆数据化管理功能的实现路径

2.1 数字技术支持让档案数字资源有了更为宽广的生存空间。尽管网络技术和数字技术飞速发展,让档案数字资源有了更为宽广的生存空间,存储技术、搜索技术、编目技术的出现使档案数字资源各个管理环节更加趋于自动化、智能化、高效化,并且管理成本也在大幅降低。但对于其中档案内容的数字化来说,智慧技术并不能取代数字技术。智慧档案馆对实体档案可以运用射频识别标签实现泛在感知,可以运用3D库房技术实现实时监测,但将实体档案转化成为不受时空利用限制的数字化资源则需要数字技术,数字技术将传统载体档案进行扫描、转录等,以数字信号形式保存在计算机中,同时还可以结合数字技术实现声影档案展示,为用户提供虚拟体验。如果没有数字技术实现的数字化馆藏,那么智慧档案馆的智慧将要大打折扣。

2.2 数字技术将人工智能与传统文字识别技术进行结合。传统的文字识别技术是将图像进行二值化和灰度化后, 将文字作为前景信息,其他部分作为背景信息,通过区分两者的明暗不同来判别哪些是识别区域,再对文字识别区域进行切割和分类,最后基于统计模型进行纠错和识别。但传统识别方法在面对复杂的识别环境时难以提高识别准确率,如多语言混合、低分辨率、非均匀光照、艺术字体、复杂版式等情况,研究人员为了克服这些难点,尝试了很多种方法。近年随着深度学习的兴起,打破了传统OCR的技术瓶颈。传统的机器学习需要先确定特征和标签,然后用一系列算法对这些数据进行计算,然后保存模型,最后对分类的准确性进行预测。这种方法有其缺点,如果提取的特征数量过多,可能会因为偏向于某个特征而出现过拟合的情况,如果提取的特征数量过少,则可能没办法进行精确分类,出现欠拟合的情况。

传统神经网络算法采用全连接的网络结构,一个28× 28的矩阵可能需要11万多个参数,参数实在太多,计算量巨大,在图像识别中显然不是很适合。于是开始考虑卷积神经网络。卷积神经网络的思想是在识别一个物体时,通常通过某个局部特征就能识别出该物体为何,并不需要全部识别,

所以也可以通过局部特征识别整体而不是全连接的方式。卷积神经网络通过卷积神经元提取上一层图像的局部特征在自身所在隐层单元上映射成一个平面,并通过同平面层具有同一神经元权重值来保证特征映射具有位移不变性和旋转不变性,同时特征提取后还有一个亚取样层或称下采样层,用来求局部平均和二次特征提取,以提高神经网络的畸变容忍能力。[5]这种方法的优点是,只需对初始值进行设置,随后机  器通过自适应和自学习的过程不断调整卷积核的数量和滑动步长,而且参数数量可以减少几个量级。

1.1 数字技术实现智慧档案馆管理功能的全面感知。慧档案馆在档案实体、档案内容信息和档案管理信息上具备全面感知特点,在数据运算和存储方面采用“自有”和“云”的双模模式,能通过利用移动数字信息查阅服务中心等现有信息发布利用平台和三网融合实现泛在应用,最后从上到下,从内到外,全面运用所有技术进行综合管理。

智慧档案馆期望通过运用物联网、云计算、云存储等技术来提高档案馆系统数据传输与计算能力、应用扩展能力和安全存储能力,但由于没有相关成功案例参考,建设过程中遇到资金不足、人才短缺、技术难关、政策支持和法律规范缺失等问题,需要长期的建设和研究,才能促进智慧档案馆持续健康发展。[6]

 

智慧档案馆数据化管理功能的实现价值

2.1 智慧档案馆数据化实现档案的“活化”。智慧档案馆馆藏数据化管理功能的价值主要体现在两个方面[3]:一方  面体现在档案数据中,档案数据这一部分本身即具备数据特征,是智慧档案馆馆藏的数据基础。另一方面是对数字化馆藏进行数据化,通过将数字态档案转变为数据态,实现档案的“活化”,使档案可以被计算机检索、组织、复用等,从而进行内容管理和智能分析。

在智慧档案馆的建设中,物联网的应用是其中一大创新,其前端设备层承担整个档案馆环境内的各类信息感知服务,包括射频识别、传感器、视频监控系统等,这些前端设备每时每刻都在与周围环境交互,产生实时数据。相比于数字档案馆的数字化特征主要体现在数字态馆藏上,智慧档案馆的数据化特征已不仅体现在馆藏层面上,还体现在管理过程中的各个方面,包括了档案与档案之间、档案与人之间、人与人之间交互的所有数据,数据化特征已经渗透到智慧档案馆管理的方方面面。

2.2 实现数据化带来了智慧档案馆管理理念的改变。字档案馆的馆藏主要有传统载体档案、数字化馆藏以及原生电子文件等三种类型。原生电子文件种类很多,包括文本文件、图形文件、数据文件、图像文件、声音文件、影像文件和命令文件等,[4]涵盖了非结构化、半结构化和结构化三种  类型文件,其中对文本文件的管理相比于数字档案馆的纸质数字化档案来说,减少了图像转变为文字的过程。

数字化馆藏则多以PDF、JPEG、MP3等数字态形式存储,针对不同格式进行数据化转换的方式不尽相同,其中纸

质档案的内容除了文本,可能还包含图像信息,在对此类档案的数字态成果进行数据化时,关键在于将图像形式的档案转变为文本文件。通常采用OCR技术对图像内容进行文字识别,随着多年的发展,OCR识别的准确率不断提高,有些公司的OCR产品声称可达到99%的准确率,但运用OCR并不是一劳永逸的,还需要后期进行人工核对和纠正,成本较高。经过OCR识别后,可采用PDF双层格式存储来避免后续转换的麻烦,PDF双层格式是将图像层置于上层,而文本置于底层,这样既能保证用户对档案内容进行文档操作,又能保证档案的传输安全。OCR是全文检索的基础,但如果想要实现档案内容智能服务,还远远不够。

经过OCR识别后的文本内容多为非结构化或半结构化, 原生电子文件的类型更加多样化,为了有效利用不同结构类型的档案,首先应对非结构化和半结构化的文档进行结构化处理,处理的颗粒度可以根据需要按照章节、段落或句子等来拆分,拆分后形成一个个XML片段,再对这些片段打上标  签,目的是为多维度检索做铺垫。标签的另一个作用是为人工智能打下基础,利用海量档案内容对机器进行训练,使机器能够对内容分类做出判断,将分类结果与人工标识的标签进行抽样检查,计算出人工智能分类的准确率,再进行调整。人工智能分类只是档案内容智能管理的一个部分,还需利用其他技术,如知识挖掘技术对档案内容进行深度分析和总结,才能实现档案内容的智能知识推送。

档案从传统介质到数字态,再到数据态的转变,体现了管理颗粒度由粗到细的不断深入。每次转变都离不开技术的进步,同时也带来了管理理念的冲击和改变。



发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

相关文章

当前我国档案管理信息化科学发展的研究

当前我国档案管理信息化科学发展的研究

近年来,随着社会的进一步发展,我国已经进入到信息时代,各个领域都逐渐注重信息技术的应用,档案管理领域也不例外。档案在社会中起着关键的作用和意义,其直接关系到企事业单位、政府机关的正常运行。同时,随着社...

应用大数据构建智慧城建档案馆

应用大数据构建智慧城建档案馆

计算机技术和互联网技术的迅猛发展产生了海量 的数据,大数据时代悄然而至。大数据技术引发了世 界科技发展的潮流,它渗透到金融、医疗、交通、建 设等各个领域,大数据的发展也优化和改变了档案管 理工作,为创...

国新办举行数字中国建设峰会有关情况发布会

国新办举行数字中国建设峰会有关情况发布会

 国新办新闻局局长、新闻发言人胡凯红:女士们、先生们,大家上午好。欢迎大家出席国务院新闻办今天举办的新闻发布会。下个月初第二届数字中国建设峰会将在福建省福州市举行,今天很高兴请到国家互联网办...

中国政府采购评审

中国政府采购评审

第一章  总则  第一条为加强对浙江省政府采购评审活动的管理,规范政府采购评审专家的评审行为,提高政府采购工作质量和效率,根据《中华人民共和国政府采购法》(以下简称《政府采购法》)、《中华...

国务院办公厅关于推进公共资源配置领域政府信息公开的意见

国务院办公厅关于推进公共资源配置领域政府信息公开的意见

国务院办公厅关于推进公共资源配置领域政府信息公开的意见国办发〔2017〕97号各省、自治区、直辖市人民政府,国务院各部委、各直属机构:  按照党中央、国务院决策部署和《中共中央办公厅 国务院办公厅...

干部人事档案整理流程解析

干部人事档案整理流程解析

    干部人事档案整理的第一个环节是鉴别,也是对准备归档的材料进行审查,甄别材料的真伪,判定材料的保存价值,确定其是否属于归档范围,是否符合归档要求。鉴别工作的内容包括归档材料是...

上海市领导参观庆祝上海解放70周年主题展览

上海市领导参观庆祝上海解放70周年主题展览

5月27日,由上海市委宣传部、市委党史研究室、上海警备区政治工作局和市档案局等共同主办的“城市荣光——庆祝上海解放70周年”主题展览在上海展览中心拉开帷幕。开幕当天,市委书记李强,市委副书记、市长应勇...

深入学习十九届四中全会精神 开创档案事业发展新局面 —中央档案馆国家档案局召开理论中心组学习扩大会议

深入学习十九届四中全会精神 开创档案事业发展新局面 —中央档案馆国家档案局召开理论中心组学习扩大会议

11月21日,中央档案馆国家档案局召开理论中心组学习扩大会议,通过回顾国家档案局成立65周年、中央档案馆开馆60周年来的发展历程,围绕进一步深入学习领会党的十九届四中全会精神,使档案工作更好为国家治理...