多模态档案一体化智能检索研究(上篇)(多模态检索综述)

关注我们 – 数字罗塞塔计划

PART 1

多模态档案及其管理现状

01、模态

在人工智能(AI)领域,“模态”一词通常指的是数据的不同类型或格式。每种模态都代表了信息的一种独特形式或通道。例如,文本、图像、音频和视频都是不同类型的数据模态。

文本模态(Text Modal)

包含自然语言文本,如新闻报道、社交媒体帖子、书籍和电子邮件等。

图像模态(Image Modal)

包含视觉信息,如图表、照片、医学图像和艺术作品等。

音频模态(Audio Modal)

包含声音信息,如音乐、演讲、环境声音和动物叫声等。

视频模态(Video Modal)

包含动态视觉信息,如电影、电视节目、网络视频和监控录像等。

02、多模态(Multi-Modal)

多模态是指同时使用或结合两种或两种以上的模态。在AI系统中,多模态通常意味着模型能够处理并整合来自不同感官通道的信息。例如,一个多模态系统可同时分析图像和文本,以便更好地理解新闻报道的内容。在自动驾驶汽车中,多模态学习可以结合来自摄像头(图像模态)、雷达(传感器数据模态)和声音(音频模态)的信息,以做出更准确的决策。

03、多模态档案及其管理现状

多模态档案是指以文本、图像、音频、视频等为主要表现形式的档案资源,涉及文书档案、照片档案、声像档案、口述历史档案等类别。

过往档案管理系统以处理单模态档案为主,主要为文本类档案,涉及多模态管理的一般会上线单独的多媒体档案管理系统,但也只是简单的收管存用管理,无法达到内容级管理和利用。

多模态档案管理中存在的问题分析如下:

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

PART 2

AI赋能多模态档案管理

随着AI技术迅猛发展,采用自然语言处理(NLP)、人脸识别、语音识别、声纹识别、多模态训练模型等技术对多模态档案进行识别、处理后可有效地整合来自不同模态的信息,提供不同形式的应用功能。这其中,最典型的应用就是“多模态档案一体化智能检索应用”。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

如上图所示,我们将多模态档案一体化智能检索应用分为基本应用和扩展应用。基本应用是指聚焦于多模态档案数据化及检索技术并已相对成熟的智慧应用,也是基于多模态档案数据化技术的延续性应用,本文将对其进行介绍;扩展应用是基于多模态档案数据化处理及检索技术,并与大语言模型、知识图谱等技术产生交叉、联合或融合的应用,扩展应用代表了多模态档案一体化智能检索的新产品、新趋势、新发展,扩展应用将放在《多模态档案一体化智能检索研究(下篇)》中介绍。

PART 3

多模态档案数据化处理

多模态档案数据化处理就是将多模态档案转换为可被计算机或档案智慧应用识别、处理的形式。如下图所示:

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

多模态档案经过数据化处理后形成结构化、数据化的多模态档案数据资源库,为多模态档案智慧应用尤其是基本应用构建数据基础。

PART 4

多模态档案智能检索应用

01、融合检索

当搜索某人的姓名时,能够将该人物相关的视频、音频、照片、文档一并检索出来并分类统计,如视频分类统计中可精细到该人物出现的视频数量,在该视频中出现的次数、位置并定位播放。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

多人合影场景下,可上传单人照片样本判断分析该人是否出现在合影照片中,一般来说合影照片中单个人脸超过60*60像素,人脸识别准确率高达99%。如下图所示,对合影照片中的6位人物全部完成人脸识别。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

02、视频检索

如下图所示,当用户上传“徐峥”和“王宝强”2人的照片时,系统自动进行人脸识别并与系统中已保存的人脸库进行匹配,最后把二人同框的视频一并检索出来,如《人在囧途》、《人在囧途之泰囧》,同时直接定位到两人同框的画面并播放。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

上传两人照片

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

上传成功

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

检索出视频并统计同框次数和位置

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

快速定位并播放

03、音频检索

如下图所示,当用检索词“中国共产党”检索音视频时,将包含“中国共产党”信息的音视频一并检索出来。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

04、文档全文检索

如下图所示,当用检索词“向军”检索文档时,将所有包含“向军”信息的非结构文档(含档案数字化副本)检索出来。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

文档全文检索示例

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

05、声纹检索

档案领域里的声纹检索技术是指利用声音信息进行档案的检索、识别和管理。档案利用人员只需通过说话者的声音信息即可完成档案的检索和管理,操作简单快捷。

声纹检索技术路线图如下所示:

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

具体说明如下:

声纹采集与预处理

首先需要收集档案资料中涉及的声音数据,并进行预处理,如降噪、增强等,以确保声纹数据的准确性和可靠性。

声纹模型训练

使用提取的声纹特征来训练声纹识别模型,这一步骤通常需要大量数据来确保模型的准确性和泛化能力。

声纹特征提取

采用卷积神经网络(CNN)从预处理后的声音数据中提取声纹特征,再经由循环神经网络(RNN)、语言模型(Transformer)提取时序信息、提炼和分类特征最终获得声纹特征。

声纹数据库构建

将声纹识别模型处理后获得的声纹特征存入声纹数据库,数据库中的每条记录都与特定的档案关联。

声纹检索与匹配

当需要检索特定的档案时,系统会通过用户的声纹输入与数据库中的声纹记录进行匹配,从而快速定位到相关的档案资料。

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

上传声纹样本

多模态档案一体化智能检索研究(上篇)(多模态检索综述)

声纹检索结果

随着AI技术的快速发展,基于自然语言处理、语音识别、人脸识别、声纹识别、多模态预训练模型等技术构建的多模态档案智能检索应用可实现对多模态档案的内容级、细颗粒度开发利用,从而从根本上改变多模态档案,尤其声像档案“重存储轻利用”的不利局面,提升多模态档案的可访问性、可利用性,降低多模态档案检索的难度和复杂度,更好满足用户对多模态档案的信息获取需求,为多模态档案管理工作带来根本变革和巨大发展空间。

【End】

一键预约,接下来见证奇迹,让我们一起观看多模态档案一体化智能检索系统演示并参与测试。

数字罗塞塔计划

将在05月18日 14:00 直播

预约

走进企业:见证 AI 档案的奇迹时刻

视频号

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!

关注我们 – 数字罗塞塔计划

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年6月14日 下午1:24
下一篇 2024年6月14日 下午1:36

相关推荐

  • 建科研资料软件价格(建科研工程资料管理软件2020版)

    建科研工程资料管理软件2020版建科研工程资料管理软件2020版建部地理位置优越,功能完备,是第一个建部高校中最高的工程,有6个省份,是省级高校中最优秀的。这12个国家地理和国家地…

    科研百科 2024年7月30日
    36
  • 大庆市人民政府wps

    大庆市人民政府wps 大庆市人民政府办公室 关于发布《大庆市城市规划用语》和《大庆市城市绿化用语》的通知 各相关部门、企事业单位: 根据《中华人民共和国城市规划法》和《大庆市城市规…

    科研百科 2024年11月5日
    0
  • 东北林业大学博士后科研流动站实现一级学科博士学位授权点全覆盖

    近日,国家人力资源和社会保障部、全国博士后管理委员会联合下发《关于批准新设东北师范大学哲学等510个博士后科研流动站的通知》,学校新设化学博士后科研流动站顺利获批。至此,学校博士后…

    科研百科 2024年4月6日
    86
  • app的ui设计国外研究现状分析

    摘要: 随着移动互联网的发展,应用程序(app)在各个领域的应用越来越广泛。然而,app的UI设计仍然是一个相对薄弱的领域。本文通过对国外app的UI设计研究现状进行分析,旨在深入…

    科研百科 2024年10月13日
    71
  • 陕西省交通强国试点成果交流大会披露5项创新成果(陕西交通工作会议)

    西部网讯(记者 刘望)今天(5月31日),陕西省交通强国试点成果交流大会在西安召开,展现了陕西交通运输领域的5项创新成果。 陕西省交通强国试点成果交流大会由陕西省交通运输厅主办,陕…

    科研百科 2024年4月20日
    47
  • 交易管理系统开发

    交易管理系统开发是一项重要的任务,它为企业提供了一个高效、安全和可靠的平台来管理和监控交易活动。随着全球经济的发展和互联网的普及,交易管理系统的需求也越来越大。 首先,交易管理系统…

    科研百科 2024年2月25日
    65
  • 诸暨政务公开网(诸暨市政务协同办公系统)

    诸暨市政务协同办公系统:优化政府工作效率和质量 随着数字化时代的到来,政府工作也逐渐转向了数字化转型。诸暨市政务协同办公系统作为数字化政府的重要组成部分,其优化对于提高政府工作效率…

    科研百科 2024年8月31日
    19
  • 项目管理系统 方案

    项目管理系统是一种用于管理项目的工具,可以帮助组织更好地协调项目进展,提高项目效率。本文将介绍一种基于Web的项目管理系统方案,该方案可以提供以下功能: 1. 项目计划:该功能可以…

    科研百科 2024年5月28日
    78
  • 哪省科研经费好申请

    科研经费申请:选择最适合的省份 近年来,随着科技的不断发展,科研经费的申请越来越受到人们的关注。科研经费是支持科学研究和技术创新的重要资源,也是促进科技创新和产业升级的重要手段。在…

    科研百科 2024年11月13日
    0
  • 林业扶贫项目管理系统

    林业扶贫项目管理系统: 助力林业发展,提高扶贫效率 随着中国经济的快速发展,林业成为了一个备受关注的领域。然而,与经济发展同步的是,林业资源面临许多问题,如森林砍伐过度、物种灭绝等…

    科研百科 2024年12月19日
    1