上海电气技术
JOURNALOFSHANGHAIELECTRICTECHNOLOGY
Vol.2No.4Dec.2009
文章编号:1674-0X(2009)04-024-04
基于
Web服务的多媒体数据挖掘系统设计
潘大胜,
黄小龙
(百色学院,百色533000)
摘要:分析了多媒体数据挖掘和Web挖掘技术,提出了一个融合了Web多媒体信息挖掘和Web多媒体数据挖掘服务功能为一体的Web服务多媒体数据挖掘系统的设计思路,并分析图像、视频和音频的核心关联规则。
关键词:多媒体数据挖掘;Web服务;Web挖掘;关联规则
中图分类号:TP37
文献标识码:A
DesigningaSystemofMultimediaDataMining
BasedinWebService
PANDasheng,HUANGXiaolong(BaiseCollege,Baise533000,China)
Abstract:ThispaperanalyzesthetechnologyofmultimediadataminingandWebmining,proposesamultimediadataminingwebservicesystemconveningthefunctionofWebmultimediainformationminingandWebmultimediadatamining.Andthenanalyzestheimage,videoandaudiocoreassociationrules.
Keywords:multimediadatamining;Webservice;Webmining;associationrule
随着Internet服务的日益普及,网络上的多媒体数据资源空前丰富。如何从海量的多媒体数据中提取出对人们有用的信息,并将这些信息以能够被用户理解的方式做出归纳性的处理,从中挖掘出有规律性的潜在模式,这是一件非常具有现实意义和应用前景的研究热点。
多媒体挖掘[1,2]是数据挖掘技术和多媒体技术相结合的产物,是知识发现、数据挖掘、人工智能、机器学习、数据库技术、多媒体技术等学科的交叉研究领域。多媒体挖掘是一种智能多媒体技术,使多媒体的处理和管理从信息存取上升到知识获取
收稿日期:2009-10-10
的层次。多媒体数据是非结构化或者是半结构化的,各媒体数据有着不同的特点,有着各自表述信息的方式;各媒体既可表示信息又可共同表示相同事件的不同特征,共同描述事件的存在、发展和结果。因此,多媒体数据集中必定存在关于信息主体的特征、属性以及它们之间的关系,或者存在着某些人们从直观上无法得到的模式。
1
1.1
多媒体数据挖掘系统分析
多媒体数据挖掘的概念定义1
多媒体数据挖掘[3,4]基于多媒体数据
作者简介:潘大胜(1975-),男,工学硕士,主要从事计算机教学工作,E-mail:yu_yu348@yahoo.com.cn
2009年第4期
潘大胜,等:基于Web服务的多媒体数据挖掘系统设计
摘要、分类、聚类和关联操作;
25
的内容特性以及这些特性的相关语义,从大型多媒体集中、发现和分析出隐含的、有效的、有价值的、可理解的模式,这个过程即称为多媒体数据挖掘。假定多媒体集为M,多媒体数据的内容特性为C,所
发现的模式为P,则多媒体数据挖掘可以表示成一个空间的映射关系(假定为F):PzN(M/C)。根据多媒体的不同类型,多媒体数据挖掘包括图像数据挖掘、视频数据挖掘、音频数据挖掘、多媒体综合挖掘等范畴。1.2Web挖掘的概念
定义2Web挖掘从Web文档、媒体、结构以及用户交互行为中抽取感兴趣的、潜在价值的模式和隐含信息的过程。
Web挖掘主要分为3种类型:
Web内容挖
掘,也就是对Web页面的文本和各种媒体内容进行
[4]
Web结构挖掘是在
Web链结构中发现知识,Web链结构能够反映Web空间中信息的流向和分布,能够反映Web元素的性质和特点;Web使用方式挖掘,即利用访
问路径分析、分类和聚类等数据挖掘方法跟踪用户与Web的交互和操纵,包括对服务器访问记录的挖掘,对访问路径的分析等。
1.3Web多媒体数据挖掘系统架构
图1为基于Web的多媒体信息挖掘模型,负责将Web网页中的文本和多媒体信息进行分析和特征挖掘,并以一定的格式存入多媒体数据库,为Web数据服务系统提供多媒体数据源。该系统由5个功能模块所组成:页面分析器、主体内容提取器、文本信息/多媒体信息提取器、特征提取器和多媒体数据库。
图1Web多媒体信息挖掘模型
1.3.1页面分析器
负责对Web页面进行内容和多媒体信息分析,根据多媒体特征需求和文本特征内容识别页面的主题内容、关键文本信息和多媒体信息等数据,并将这些数据提交主体内容提取器处理。提高Web页面分析质量的关键在于如何避免网页/噪音0的干扰、快速而准确地识别各类网页的主题内容。1.3.2主题内容提取器
该组件负责将Web网页中的不同主体内容的信息提取并分解成文本信息和多媒体信息,交给下一组件处理。
1.3.3文本信息/多媒体信息特征提取器
包括图像信息、视频信息、音频信息。
图像
可以将视频按照各种属性(如场景、视频对象或运
动特性)进行分割,然后进行分类、聚类等操作,得到视频的结构模式。也可以从视频中提取视频对象,跟踪其运动,结合时间特性分析其模式以及与其他对象之间的关联,从而发现高层次的事件摘要、概念或模式。音频信息,音频是听觉媒体,其主要特征有基音、音调、韵律或旋律等。1.3.4多媒体数据库(MDB)
MDB是Web多媒体信息挖掘模型的输出对象,也是Web数据服务系统的输入数据源。它运用元数据的结构将多媒体数据进行组织,并能够直接管理数据、文本、图形、图像、视频、音频等多媒体数据。
Web多媒体数据挖掘系统如图2所示。该系统采用模块化设计,把信息发现的各个阶段按照功能进行抽象,然后实现为标准的组件;按照一定的组装规则以及全局或局部约束构建成一个具体多媒体领域的知识发现应用系统。该系统主要由非核心构件和核心构件组成。Web页面和过滤器为系统的非核心构件,其主要功能是收集用户的信息提取需求,并过滤非法的Web请求,然后把信息交给核心构件完成数据挖掘操作。
信息,根据图像的注释文本信息、视觉特性和空间特性等特征运用图像处理技术,如图像分割、边缘探测、边缘提取、模式识别等,从图像(视频帧)中抽取能代表、区分该图像的结构化内容的特征,同时收集用于图像处理和数据挖掘所需要的知识,获得各种元数据及领域知识,建立特征库和知识库。视频信息,视频包括丰富的内容特性,除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。运用视频处理技术,
26
上海电气技术
2009年第4期
图2Web多媒体数据挖掘服务系统
系统核心构件由数据预备组件、数据挖掘组件、知识解析组件、接口组件和多媒体数据库等模块组成。数据预备组件的功能可描述为:数据挖掘的相关领域,解析用户的信息需求。
分析根
1.4多媒体数据挖掘系统的核心关联规则多媒体数据的关联规则挖掘是在相关的多媒
体对象集合中,找到一组关联规则,显示一组对象或特征的模式或相互关系的发生频率。
1.4.1图像的核心关联规则
图像的关联规则是指图像对象或特性之间频繁出现的模式。设D为图像集,那么关联规则可表示为P1CP2C,CPnyQ1CQ2C,CQm(A%),其中,P1,P2,,,Pn,Q1,Q2,,,Qm为图像集D中的特征描述,可以是图像的大小、颜色、纹理、密度、对象、空间位置、文本描述等;A%为该规则的可信度,其含义为当P1,P2,,,Pn发生时,Q1,Q2,,,Qm发生的概率。
当图像数据挖掘时,系统先建立特征描述集,设为(P1,P2,,,Pn),然后定义一个支持度来表示集合内的所有描述同时发生的概率,记为A(P1CP2C,CPn)。1.4.2
视频的核心关联规则
与图像关联规则类似,视频的关联规则是指视频特性间的关联程度。设V为视频数据集,那么关联规则表示为I1CI2C,CInyJ1CJ2C,CJm(B%),其中,I1,I2,,,In,J1,J2,,,Jm为视频集V中的特征描述,可以是视频的场景、对象特性、运动特性、文本描述等;B%为该规则的可信度,其含义描述与A%类似。
类似地,可以建立视频多媒体信息的特征描述集(I1,I2,,,In),并定义出对应的特征描述集支持度B(I1CI2C,CIn)。1.4.3
音频的核心关联规则
设U为音频数据集,那么关联规则可表示为X1CX2C,CXnyY1CY2C,CYm(V%),其中X1,X2,,,Xn,Y1,Y2,,,Ym为音频集U中的特征
据用户需求从多媒体数据库中提取相关数据。数据挖掘主要从这些数据中实施知识提取。另外,该组件还应用数据库操作指令完成一些数据处理。对预备数据完成格式转换、尺寸统一、图像处理、镜头边界检测等。
剔除冗余的域,选择合适的
根据用
维,目的是缩减多媒体信息的数据量。算法。
数据挖掘组件的主要功能是应用所选择的数据挖掘算法,并调用相应的数据挖掘模块,从多媒体数据库中挖掘出用户所需的知识,并应用一定的表达方式或规则存入知识库中。在数据挖掘过程中可能需要加入适当的人工干预行为(如实时人机交互等),以减轻数据挖掘的难度,提高挖掘效率。
知识解析组件负责对发现的知识模式进行解释,形成用户容易接受的知识表现形式,如可视化多媒体数据立方体等。在知识解析过程中,可能会返回到前面的组件处理程序中进行反复的知识提取。完成知识解析后,系统组件可能还需要从不同层次不同角度评价挖掘结果,以实现知识提取优化和系统性能优化。
接口组件是通过一定的接口规则、应用层通信协议和数据封装协议,完成数据预备组件、数据挖掘组件及知识解析组件与多媒体数据库之间的信息交互。接口组件一般为非可视化界面,只完成核心构件内部组件之间的数据交互,除了通信故障外一般不提供人机交互。
户的实际需求和数据对象选择合适的数据挖掘
2009年第4期
潘大胜,等:基于Web服务的多媒体数据挖掘系统设计
27
描述,可以是音频的基音、音调、音律、文本描述等;V%为该规则的可信度,其含义描述与A%类似。对于音频多媒体信息的特征描述集(X1,X2,,,Xn),并定义出对应的特征描述集支持度6(61CX2C,CXn)。
/清晰风景图片0为用户挖掘条件,则结果为34;而以/不清晰图片0为识别条件,则结果为10。在挖掘结果中还能够准确显示出符合相应识别条件的图片。
3结语
2仿真系统结果及其分析
笔者应用C++语言基于上述系统架构和图像
本文将Web多媒体数据挖掘模型和以Web形式提供信息识别服务的多媒体数据挖掘系统结合,探讨了多媒体数据挖掘过程中的图像、视频和音频关联规则,并进行了一定程度的仿真实验。下一阶段的研究工作主要有视频和音频特征多媒体数据库的形成、多媒体综合数据挖掘的关联规则、数据挖掘算法的优化等问题。
参考文献
[1]武德峰,李国辉,来
旭,等.多媒体数据集中的数据挖
关联规则开发了Web服务多媒体数据挖掘仿真系统,并在校园局域网中进行了模拟运行。为了简单
起见,该仿真系统算法没有涉及多媒体综合数据挖掘领域。仿真实验为系统准备了75张不同大小的图片,其中文本描述为Nature001~Nature060共60张风景图片,文本描述为Animal001~Animal015共15张动物图片。风景图片中,分辨率为1600@1200dpi的有34张,2560@1600dpi的共有20张,480@0的有6张;动物图片中,分辨率为1600@1200dpi的有9张,2560@1600dpi的有2张,480@0的有4张。实验判定分辨率为2560@1600dpi的判定为/高清晰0图片,1600@1200dpi为/清晰0图片,480@0dpi为/不清晰0图片。以文本描述作为第一特征描述,以分辨率作为第二特征描述,并通过Web挖掘的方式建立多媒体数据库。仿真实验结果,如果以/高清晰风景图片0为用户信息识别条件,则挖掘结果为20;如果以
掘:系统框架和方法[J].计算机应用研究,2005(2):53-55.[2]邱
鹍.Web数据挖掘算法研究[D].秦皇岛:燕山大
学,2007.
[3]刘同明.数据挖掘技术及其应用[M].北京:国防工业出
版社,2001.[4]丁
一,卢正鼎.基于Web挖掘的用户服务研究[J].计
算机仿真,2004(6):83-84.
5上海电气技术6
欢迎投稿
E-mail:
dqjs@secca.cn
26027838
联系电话:(021)66057023(传真)
5上海电气技术6编辑部
邮政编码:200070
联系地址:上海中兴路960号3号楼209室
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo6.com 版权所有 湘ICP备2023023988号-11
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务