2008年第9期 计算机与现代化 JISUANJI YU XIANDAIHUA 总第157期 文章编号:1006-2475(2008)09-00014)5 社会经济统计地理信息系统中元数据的研究 张伟超 ,张丽娟2 ,张富。 (1.胜利油田高原石油装备有限责任公司,山东东营257000;2.洛阳理工学院,河南洛阳471023; 3.南京师范大学地理信息科学江苏省重点实验室,江苏南京210046) 摘要:参考(中华人民共和国国家标准地理信息元数据ISO 19115:2003)、<中国科学院科学数据库核心元数据标准 INF105.SDB-2.105:20o4),构建出社会经济统计信息元数据。利用元数据驱动技术,对分布、异构、多时段的社会经济统 计数据进行整合,实现了GIS数据与统计数据的有效融合,满足了系统自适应统计数据不断变化的需求,促进了统计信 息化和统计信息产业化。该方法已经成功应用于863课题“国家社会经济统计地理信息系统建设”中。 关键词:社会经济统计地理信息系统;元数据;元数据驱动技术 中图分类号:TP311.13 文献标识码:A ’ Application of Metadata・driven Technology in Socioeconomic Statistical GIS ZHANG Wei.chao ,ZHANG Li—juall2 ,ZHANG Fu (1.Shengli Oilifeld Highland Petroleum Equipment Co.,Ltd,Dongying 257000,China; 2.Luoyang Institute of Science and Technology,Luoyang 471023,China; 3.Key l_ ̄d3oratory of Virtual Geographic Envimnn ̄nt,Ministry of Educaiton,Nanjing Normal University,Nanjing 210046,China) Abstract:This paper designs socioeconohfic statistical metadata.By metadata.driven technology,it integrates heterogeneous,dis. tributed,multi—period databases and suits tO the data’S newly changing. It Can be an exploring attempt of印plication of GIS to statisitcs.This research is validated in the project“National Socio—economic GIS”funded by hish—tech research and development program of China(863). Key words: statistical GIS;metadata;metadata-driven 0 引 言 统计数据作为社会经济发展的“晴雨表”或“脉 搏”,是国家和各级地方进行管理和决策的重要 的空间分析方法还可以帮助使用者进行深层次的数 据挖掘。采用地理信息技术,基于时空框架集成和整 合各专业统计数据,建立社会经济统计地理信息系统 (ESSGISu ’),提供管理、分析统计数据资源的新的 技术手段,是统计信息化建设的必然趋势。 各级统计部门在多次普查中得到的统计数据具 依据,也是开展科学研究的重要素材u 引。统计数 据一般以表格的形式存在、展示,它的复杂性、专业性 影响了统计领域外人员的使用。由于统计信息普遍 具有空间属性,地理信息技术可以将晦涩难懂的统计 数据直观地反映到地理空间上,让使用者一目了然, 快速、准确地把握本区域经济、人口、产业状况等问 题,做出合理的分析、决策;此外,地理信息技术特有 收稿日期:2008-07-14 有三大特点:①存储方式各不相同;②数据库管理系 统不同;③统计指标体系复杂多变。如何以空间单元 为核心整合和集成统计数据,从而实现数据的共享; 如何使系统有效管理不断扩展和变化的数据,并且能 够自动适应数据的变化,这些是系统实现的关键问 基金项目:国家863高技术研究发展计划项目(2003AA132020) 作者简介:张伟超(1973一),男,河南驻马店人,胜利油田高原石油装备有限责任公司工程师,研究方向:计算机技术及应用。 工业控制数据库,油田自动化;张丽娟(1975一),女,河南洛阳人,洛阳理工学院讲师,南京师范大学地理科学学院博士研究 生,研究方向:地理信息安全及电子政务;张富(1977一),男,河南驻马店人,南京师范大学地理科学学院博士研究生,研究方 向:城市规划GJs,地理信息安全,电子政务及GIS应用开发。 2 计算 机与现代化 2008年第9期 题。本文提出建立元数据 引,利用元数据驱动 m 出社会经济统计信息元数据。 技术,有效地解决了上述难题。 1.2社会经济统计信息元数据设计 通常,海量的社会经济统计信息按照专题组成专 题数据库,如人口数据库、宏观经济数据库、基本单位 1元数据的构建 1.1社会经济统计信息元数据的提出 社会经济统计数据主要以数据库、文件、纸制报 数据库等。这些专题数据库的结构有着极大的相似 性:横向上看,每个数据的取值都可以由(时间、空 间、指标)三元组来唯一确定 ——F=f(x,Y,z); 纵向上看,各专题数据库可以分为服务器、数据源、数 表等3种方式进行存储。可以通过手工录入、ETL过 程,将文件和纸制报表入库。然而,这些数据存放在 不同的部门,而各个部门又选择不同的数据库管理系 据库、数据表、字段五个层次。因此,社会经济统计信 统。例如省级以上统计部门多采用Oracle系列 DBMS,而市、县级统计部门则倾向于使用SQL Sever。 同时,统计数据由时间、空间、指标三个维度共同构 成。空间和时间的划分较为稳定,但指标体系的划分 却存在很大的不确定性。这是因为:一方面,指标体 系受时间和空间的影响,一旦两者发生变化,它也会 随之发生变化;另一方面,随着人们认识水平的提高, 复杂的统计指标体系本身也会发生变化。 因此,社会经济统计地理信息系统不仅要能整合 分布式、异构存储的数据源,并且要能适应数据源的 移动、统计数据的指标体系的变化。本文提出建立社 会经济统计信息元数据,通过元数据实现对社会经济 统计数据的访问。元数据详细记录了社会经济统计 数据的物理存储、时间、空间、指标体系等信息。元数 据的内容随数据源、指标体系的变化而变化,但元数 据的结构保持不变,因此,通过元数据进行查询操作 的系统代码也就保持了稳定。利用元数据和数据构 成的系统数据二层结构模式开发系统(如图1),很好 地实现了数据源的整合与共享,并且满足了系统适应 底层属性数据库结构与内容变化的要求。 『应用组件 : l I虚拟用户数据视图 : 元数据组件 : 元数据 ,f 数据 图1元数据驱动的系统数据二层结构 笔者参照《中华人民共和国国家标准地理信息 元数据ISO 19115:2003))、《中国科学院科学数据库 核心元数据标准INF105一SDB・2—105:2004)),依据社 会经济统计数据的特征和统计部门的业务需求,设计 息元数据不仅要描述时间、空间、指标等横向属性,而 且要存储服务器、数据源、数据库、数据表、字段等纵 向属性,具体设计如图2所示。 图2社会经济统计信息元数据 逻辑分类元数据、数据目录元数据记录了社会 经济统计数据的逻辑关系,通过数据目录与表关系元 数据将逻辑分类与数据表联系起来;服务器元数据、 数据源元数据、数据库元数据记录了数据表的物理位 置;数据表元数据记录了社会经济统计数据时间、空 间、指标等信息;空间元数据记录了所有的空间信息; 时间分类元数据、时问元数据记录了所有的时间信 息。这样,用户在查询数据时不需要知道数据表物理 位置,.只需要在逻辑分类(如人口数据库、宏观经济 数据库、基本单位数据库等)下的各个专题即数据目 录(如人口、财政、工业等)中查找感兴趣的指标。 为保持表结构的一致性,描述逻辑关系和物理关 系的元数据表要遵循常用字段命名规范,如表1所 示。各个表都以ID为主键,通过PARENTID和其它 表建立联系。 2008年第9期 张伟超等:社会经济统计地理信息系统中元数据的研究 3 表1元数据表常用字段命名规范 字段名 字段类型 字段解释 数据对象唯一标识码, ID NUMBER 主键,由触发器自动维护 PARENT旺) NUMBER 数据对象父表唯一标识码,外键 NAME VARCHAR2(32) 数据对象名称,通常为英文 CA阿0N VARCHAR2(64 数据对象标题,通常为中文 DESCRI VARCHAR2(512) 数据对象描述性信息 Pn0N sTATUS CHAR(1) 数据对象状态,对象不可用0代表数据 ,1代表可用 时间元数据是较为特殊的元数据表,表结构如表 2所示。时间元数据的具体含义如表3所示。 表2时间元数据表结构 字段名 字段类型 字段解释 ID NUMBER(4) 时间编号,器自动维护 主键,由触发 nMEU£VEL CHAK2(1) 时间级别 MairITjⅡle VAnCHA.P,2(4) 主时问,描述年份信息 Sub nie VAnCHAPO.(2) 子时间,描述季度、月份等内容 sr^ 【『s CHAR(1) 时间对象不可用时间对象状态,0代表 ,1代表可用 表3时间元数据字段含义 ID TimeLevel MainTime SubTime 含义 1 1 2OO6 TimeLevel为“l”代表“年”; 该记录意思为2006年 TimeLevel为“2”代表“季度”; X 2 2OO6 2 该记录意思为2006年第2季度 Y 3 2OO6 3 TimeLevel为…3代表“月”, 该记录意思为2006年3月 2元数据驱动技术的应用 基于元数据进行程序设计和行为控制,称为元数 据驱动 。本文利用元数据驱动技术,通过元数据 提取统计数据。一旦统计数据数据源、指标体系发生 变化,只需要修改元数据内容,程序不需要进行任何 处理依然可以正确运行。 元数据驱动技术主要体现在分布式、异构数据的 提取中,但是,由于提取的数据分布于各个的数 据表,还需要利用ADO.NET技术完成数据的整合, 最终实现GIS数据与统计数据的融合。 2.1分布式异构数据提取 用户面向的是专题数据,根本不需要感知真实数 据库的存储和组织情况。元数据中记录了专题数据 和物理表之间的关系。从图3可以看出,用户能根据 自己的查询目标,组织专题数据进行查询,然后由元 数据将要求转化到实际的物理表中,从而提取数据。 物 理 裘 …… 三 ……一 图3虚拟数据表与物理表的关系 分布式异构数据的提取过程如图4所示。 图4分布式异构数据的提取过程 (1)通过地图选择所需信息的地理范围,如果省 鲁 到囤 囤 略了这一步,则默认为最高行政级别下的所有空间单 元;选择时间类型,例如年报、季报、月报;选择逻辑分 类,如基本单位数据、宏观经济数据; (2)根据所选参数,利用逻辑分类、数据目录、数 据目录与表关系元数据、数据表元数据、指标元数据,一 构成查询界面; (3)选择需要的具体时间(如2003年、2005年、 2007年2月)、选择感兴趣的指标、设置查询条件; (4)访问记录物理关系的服务器元数据、数据源 元数据、数据库元数据,根据选定的空间单元、时间、 表名、指标名、查询条件等信息,构造查询语句。利用 查询语句访问数据库,获取满足条件的记录,分别存 储在数据表中。 2.2数据整合 对异构数据源的查询处理完毕后,必须将各自独 立的查询结果合并为统一的结果集返回给用户,如图 5所示。此过程采用基于XML的ADO.NET技术实 4 计算机与现代化 2008年第9期 现,为便于理解数据整合的过程,这里简单介绍 ADO.NET的几个核心概念: (1)DataSet:是一种内存数据库,该数据库将从 不同类型数据源中获取的查询结果以统一的对象模 型进行存储。DataSet主要由DataTable、DataRelation 等对象组成。 (2)DataTable:表示DataSet中的一个表。 (3)DataRelation:表示DataTable之间的关系。 (4)PrimaryKey:充当DataTable主键的列。 各地区生产总值(Dsl ̄TaMe) 教育情况(Da ̄TaHe) 一地址码 Da扭Set -地址码 一主时闯 一 1_时坷 一子时『日] 一子时间 主表(Ds ̄TsM0 一地址码 —、——~ ’ 、 一主时问 了时间 _-—— 医疗情况DamTa¨d 一…((DamTaUd 一主时间一地址码 / \ 一地址码 一主时翱 一予时问 一子时间 合并 用户选择的所有指标(DxWTsM ̄ 一地址码 一主时间 一子时问 图5数据表整合 查询结果合并过程描述如下: (1)来自各个数据库的数据存放在一个DataSet 中。 (2)DataSet中有一张主表,存储在DataTable中, 该表的记录来自用户已经选择的空间单元与时问的 笛卡尔积,并将这几个字段(Column)设为主键。 例如,若用户想查看2002年和2003年的北京、 上海这两个地区的一些社会经济信息,那么,主表中 的记录如下: 20o2,北京 2002,上海 2003。北京 2003。上海 (3)来自不同数据库的数据表被放在一个个 DataTable(从表)中,每个DataTable中均有时间和空 间字段,由主表的建立过程可以看出,这些从表的时 间与空间字段的取值肯定能与主表某个记录完全相 同。同样地,从表中的时间+空间字段作为各自的主 键。 (4)以主表为核心,DataSet存储了主表与所有 从表的关系,这些关系完成了主表与从表之间的对等 记录的匹配。 因此,数据整理将从DataSet中记录的主表与从 表之间的关系人手,首先建立一张新的DataTable,然 后,遍历所有关系,将具有对等记录即DataRelation. ChildRows属性大于0的填人新的DataTable中,没有 对等记录的则舍弃。最后得到的DataTable包含了满 足条件的所有指标,即虚拟表。 2.3 GIs数据与统计数据融合 通过“空间单元代码+时间”将最终得到的虚拟 表与GIS矢量数据关联,实现了统计数据与空间数据 的融合。如图6所示 ,将统计数据映射到空间上, 以专题图形式或通过空间插值的方法以三维面的形 式表示,实现统计数据的空间可视化,从而可以了解 统计数据所反映的空间分布规律或模式。 图6 GIS数据与统计数据的融合 3应用实例 863计划《国家社会经济统计地理信息系统建 设》的核心部分——“国家社会经济统计地理信息系 统平台”,以空间地理框架为基础,采用元数据及元 数据驱动技术成功实现了分布式、异构、多时段海量 数据的查询、提取、分析和表达,实现了代码的可重 用,为、企业和社会了解国民经济与社会发展状 况提供一个有效的信息工具。 系统用Oracle 9i管理元数据和空间数据,用Or- acle 9i和S QL Ser.ver 2000 存储多年的统计数据。以SuperMap Objects 5为GIS开发平台,在Visual C#. Net集成开发环境下完成开发。用户利用数据查询 界面(图7),可以很容易地获得查询结果(图8)。进 而实现统计分析、统计图表显示(图9)、专题图显示 (图lO)。 2008年第9期 张伟超等:社会经济统计地理信息系统中元磬据的研究 5 图7数据查询界面 督蕃#墙童 渊啪∞■日嘎】删脚 |堪出∞ . 弱鞠强 馨 ・ 。 搀§哟一 一 燕莲 …一 毒 ̄mlt_ 差蜂 蜂羹一 剥 ● 糖 壁量…羹 照熏, 蔓储量 ’ 0s5∞ 柚0锄呻0 上 i内膏古县精匠 ,南蛳省 2珊 1鲫0 5D∞ ¨篱增 I } _佗ljt鹤 1 ¨ 蜘 椒 站擒 11㈣地幕市2咐9 a髓 越州胄#薯2O啦! ̄17 ̄:t铷 ; 斡 1甜 n蚰 镊∞ o。。0 四川 狮 5 83 趋 箍弼 髓加 1瑚关II币 揶3Tla∞ 347嚣 刮0∞O ,置西肆目雌 2OO3 9 ∞0 3●O ;强 m'n70 0。T {1髓0昭1o 3瑚 山幕省 硼 日驰3B 0皤g 8 ∞ 4//1000广幕省 硼9 n '7 魁如 盯40 s5∞∞新—蠢吾尔詹撸瑚3蔼撇船野H Z船47310 8280 l∞啪 广西牡接茸请区 硼1菇70 8旺 n9拿 6"r ̄6 70 ’§柏 删 西省20∞・ e* 12瓣 15&鄹 ●瑚∞ 埔曹2∞ 61o510 1 n 。_ - 1疆 10.∞ t ●; ¨ 图8数据查询结果 图9统计图表 4 结束语 统计指标体系的复杂性、可变性、多时段性,使得 GIS很少高效地应用于统计行业。本文构建出社会 经济统计信息元数据,存储统计数据的逻辑关系及物 理位置。利用元数据驱动技术高效地提取出不同地 区、不同时段的统计数据,并使系统自动适应指标的 变化。目前,该方法已经成功应用于863计划“国家 社会经济统计地理信息系统建设”的核心部分—— 图10动态专题图 “国家社会经济统计地理信息系统平台”,应用实践 部分——“昌平社会经济统计地理信息系统”。 参考文献: [1] 吴建玲.基于GIS的区域社会经济信息资源集成技术研 究[D] 北京:中国科学院地理科学与资源研究所, 2【)【)5. ‘ [2] Cordon S,Novak Jr.Software reused by specialization of generic procedures through views[J].IEEE Trans.on Software Engineering,1997,23(7):401-417. [3] Papageorg'OU H.Modeling statistical metadata[C]//Pro- ceedings of the Thirteenth International Conference on Sci— entitle and Statistical Database Management,2001:25・35. [4] 郑有材,蔡希.元数据驱动的可重用通信软件的设计 [J].西安电子科技大学学报,1998,25(6):35-37. [5] 李青山,陈平,褚华.支持柔性机制的元数据驱动模型的 研究与应用[J].西安电子科技大学学报(自然科学 版),2002,29(3):319-323. [6] 陈雪龙,王延章.WebGIS中的元数据研究[J].小型微 型计算机系统,2004,25(6):1028.1031. [7] 吴建玲,安凯,梁军.以元数据组织GIS中社会经济数据 及应用[J].地球信息科学,2006,8(3):17-21. [8] 杨宽宽,宋雪清,安凯.国家社会经济统计地理信息系统 的设计与实现[J].地理信息世界,2005,8(3):32-34. [9] 贺铿.统计法及其需要完善的几个问题[DB/OL].ht- tp://www.chinalaw.gov.cn/jsp/contentpub/browser/con- tentpro.jsp?,contentid=co6676237351,2004—12-29. 张富,张丽娟,梁军,等.社会经济统计地理信息系统元 数据库的设计及应用[J].测绘科学,2007,32(2):143. 144,162. . Department of Economic and Social Affairs Statistics Divi- sion.Report of the United Nations Sub-regional Workshop on Census Cartography and Management[R].New York, 2007. 岳建伟,钟耳顺,张秋义,等.元数据驱动的土地信息系统 可复用构件研究[J].地球信息科学,2006,8(1):30-34.