多模态档案一体化智能检索研究（上篇）（多模态检索综述）-广西海洋研究院

关注我们 – 数字罗塞塔计划 –

PART 1

多模态档案及其管理现状

01、模态

在人工智能（AI）领域，“模态”一词通常指的是数据的不同类型或格式。每种模态都代表了信息的一种独特形式或通道。例如，文本、图像、音频和视频都是不同类型的数据模态。

文本模态（Text Modal）

包含自然语言文本，如新闻报道、社交媒体帖子、书籍和电子邮件等。

图像模态（Image Modal）

包含视觉信息，如图表、照片、医学图像和艺术作品等。

音频模态（Audio Modal）

包含声音信息，如音乐、演讲、环境声音和动物叫声等。

视频模态（Video Modal）

包含动态视觉信息，如电影、电视节目、网络视频和监控录像等。

02、多模态（Multi-Modal）

多模态是指同时使用或结合两种或两种以上的模态。在AI系统中，多模态通常意味着模型能够处理并整合来自不同感官通道的信息。例如，一个多模态系统可同时分析图像和文本，以便更好地理解新闻报道的内容。在自动驾驶汽车中，多模态学习可以结合来自摄像头（图像模态）、雷达（传感器数据模态）和声音（音频模态）的信息，以做出更准确的决策。

03、多模态档案及其管理现状

多模态档案是指以文本、图像、音频、视频等为主要表现形式的档案资源，涉及文书档案、照片档案、声像档案、口述历史档案等类别。

过往档案管理系统以处理单模态档案为主，主要为文本类档案，涉及多模态管理的一般会上线单独的多媒体档案管理系统，但也只是简单的收管存用管理，无法达到内容级管理和利用。

多模态档案管理中存在的问题分析如下：

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

PART 2

AI赋能多模态档案管理

随着AI技术迅猛发展，采用自然语言处理（NLP）、人脸识别、语音识别、声纹识别、多模态训练模型等技术对多模态档案进行识别、处理后可有效地整合来自不同模态的信息，提供不同形式的应用功能。这其中，最典型的应用就是“多模态档案一体化智能检索应用”。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

如上图所示，我们将多模态档案一体化智能检索应用分为基本应用和扩展应用。基本应用是指聚焦于多模态档案数据化及检索技术并已相对成熟的智慧应用，也是基于多模态档案数据化技术的延续性应用，本文将对其进行介绍；扩展应用是基于多模态档案数据化处理及检索技术，并与大语言模型、知识图谱等技术产生交叉、联合或融合的应用，扩展应用代表了多模态档案一体化智能检索的新产品、新趋势、新发展，扩展应用将放在《多模态档案一体化智能检索研究（下篇）》中介绍。

PART 3

多模态档案数据化处理

多模态档案数据化处理就是将多模态档案转换为可被计算机或档案智慧应用识别、处理的形式。如下图所示：

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

多模态档案经过数据化处理后形成结构化、数据化的多模态档案数据资源库，为多模态档案智慧应用尤其是基本应用构建数据基础。

PART 4

多模态档案智能检索应用

01、融合检索

当搜索某人的姓名时，能够将该人物相关的视频、音频、照片、文档一并检索出来并分类统计，如视频分类统计中可精细到该人物出现的视频数量，在该视频中出现的次数、位置并定位播放。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

多人合影场景下，可上传单人照片样本判断分析该人是否出现在合影照片中，一般来说合影照片中单个人脸超过60*60像素，人脸识别准确率高达99%。如下图所示，对合影照片中的6位人物全部完成人脸识别。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

02、视频检索

如下图所示，当用户上传“徐峥”和“王宝强”2人的照片时，系统自动进行人脸识别并与系统中已保存的人脸库进行匹配，最后把二人同框的视频一并检索出来，如《人在囧途》、《人在囧途之泰囧》，同时直接定位到两人同框的画面并播放。

↓

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

上传两人照片

↓

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

上传成功

↓

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

检索出视频并统计同框次数和位置

↓

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

快速定位并播放

03、音频检索

如下图所示，当用检索词“中国共产党”检索音视频时，将包含“中国共产党”信息的音视频一并检索出来。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

04、文档全文检索

如下图所示，当用检索词“向军”检索文档时，将所有包含“向军”信息的非结构文档（含档案数字化副本）检索出来。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

文档全文检索示例

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

05、声纹检索

档案领域里的声纹检索技术是指利用声音信息进行档案的检索、识别和管理。档案利用人员只需通过说话者的声音信息即可完成档案的检索和管理，操作简单快捷。

声纹检索技术路线图如下所示：

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

具体说明如下：

声纹采集与预处理

首先需要收集档案资料中涉及的声音数据，并进行预处理，如降噪、增强等，以确保声纹数据的准确性和可靠性。

声纹模型训练

使用提取的声纹特征来训练声纹识别模型，这一步骤通常需要大量数据来确保模型的准确性和泛化能力。

声纹特征提取

采用卷积神经网络（CNN）从预处理后的声音数据中提取声纹特征，再经由循环神经网络（RNN）、语言模型（Transformer）提取时序信息、提炼和分类特征最终获得声纹特征。

声纹数据库构建

将声纹识别模型处理后获得的声纹特征存入声纹数据库，数据库中的每条记录都与特定的档案关联。

声纹检索与匹配

当需要检索特定的档案时，系统会通过用户的声纹输入与数据库中的声纹记录进行匹配，从而快速定位到相关的档案资料。

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

上传声纹样本

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

声纹检索结果

随着AI技术的快速发展，基于自然语言处理、语音识别、人脸识别、声纹识别、多模态预训练模型等技术构建的多模态档案智能检索应用可实现对多模态档案的内容级、细颗粒度开发利用，从而从根本上改变多模态档案，尤其声像档案“重存储轻利用”的不利局面，提升多模态档案的可访问性、可利用性，降低多模态档案检索的难度和复杂度，更好满足用户对多模态档案的信息获取需求，为多模态档案管理工作带来根本变革和巨大发展空间。

【End】

一键预约，接下来见证奇迹，让我们一起观看多模态档案一体化智能检索系统演示并参与测试。

数字罗塞塔计划

将在05月18日 14:00 直播

预约

走进企业：见证 AI 档案的奇迹时刻

视频号

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！

关注我们 – 数字罗塞塔计划 –

多模态档案一体化智能检索研究（上篇）（多模态检索综述）

相关推荐