地理时空数据关联与聚合服务方法综述

2019-11-20 14:04:00

来源:中国电子科学研究院

对地观测技术的快速发展使得快速高效获取高分辨率、内容要素丰富的时空数据成为可能。时空数据异构多源、体量巨大、时效性强,现有数据组织以分类建立索引的管理方式为主,较少描述与存储数据之间的关联关系,数据检索依赖“人工经验+元数据关键字”的“硬匹配”方式。面对观测数据爆炸式增长,人工检索耗时耗力,如何快速准确地从海量数据中优选信息以满足应用对时效性、精准性的要求,是提升时空信息服务能力亟需解决的重要问题。围绕地理时空数据关联与聚合服务方法现状,对比分析现有方法在时空数据整合、管理、关联、汇聚、推送等环节的特点及优劣,为时空数据智能管理与应用提供方法支撑。

引言

    时空数据是地理信息技术应用的信息承载,随着对地观测技术的快速发展以及各类传感器的广泛部署,连续获取高时空分辨率、属性信息日益丰富的地理时空数据成为可能。灾害应急管理、公共安全、智慧城市等典型行业应用离不开时空数据的支持[1]。随着信息化技术的快速发展,时空数据在国土、减灾、农业、城市管理中发挥的效益日益凸显,与此同时,行业应用对时空数据的获取和应用提出更高要求。
    如何快速对数据进行有效的处理和自动分类管理,结合基础地理数据和历史案例数据及时获取行业应用所需的信息与知识、充分发挥时空数据的使用效能,对地理信息行业应用具有极为重要的意义。与既快又易的时空数据获取能力形成鲜明对比的是信息的解析、存储和管理能力低下,数据管理大多采用传统简单条目式索引管理方法,条目存储的数据信息以基础显性属性为主,较少地考虑和体现异构数据之间的关联关系以及数据本身的深层特征。数据检索主要依靠“简单元数据+人工经验”发现业务所需数据。
    随着接入实时数据的体量增大,仅仅依靠人工方法完成数据准备工作变得越发耗时与低效,难以保证行业应用业务输出的产品保持较高的准确性和时效性。
    一方面,大量获取的数据被记录和保存在数据库中未被有效发现和利用,导致需要的信息不能及时提供,另一方面业务人员检索的数据未必满足需求,但又难以快速精准地找到合适任务的数据集合,这种数据“既多又少”的矛盾日益突出。
    因此,亟需研究和实现新的时空数据管理方法,提供异构数据的智能化关联服务,面向各异的地理信息处理任务提供自动化的优势数据汇聚和推送,为地理信息应用服务及时提供最为合适的数据集,提高业务运行和专题产品生产的效率。

国内外发展现状

    对地观测技术与传感网技术的发展显著促进了时空信息获取能力的提升,数据由单一固定数据源向多源异构、高复杂度的趋势发展。尤其是地球观测数据在体量和类型上均飞速增长,以高空间、时间和辐射分辨率为特征的新航天、航空以及地基遥感数据广泛接受及应用。本文从时空数据整合、关联模型、信息汇聚于服务的角度出发,综述当前研究现状和问题。
2.1时空数据整合方法
    数据整合是把不同来源、结构、格式和特征的数据进行一体化表达、管理和查询检索,实现异构数据资源的有效集成,为用户提供统一的数据视图。地理时空数据来源广泛、类型多样,在数据结构和语义方面存在显著差异,数据整合对多源异构数据进行统一管理,为应急减灾、公共安全响应、智慧城市等行业应用提供数据支持。
    近年来,地理时空数据体量、异构性和复杂度上有显著增加,给数据整合管理带来巨大挑战[9]。本文对地理时空数据整合划分为信息系统管理方式、统一数据交换方式和基于本体语义网技术的方式进行综述。
(1)信息系统管理方式
    地理时空数据基于信息系统管理方式的时空数据建成方法形成于上世纪80年代后期地学与计算机学科交叉,计算机领域的元数据描述方法被用于表达地理空间信息。该方法将业务需求和数据存储紧密联系,针对每一条观测数据建立独立的元数据描述,以编目的形式进行存储管理。此阶段的信息管理系统主要面向独立部门的固定数据源,数据库的数据类型单一。
 
    随着地理信息系统发展,带有时空索引的空间数据库引擎逐渐成为主要平台,例如ESRI公司的ArcSDE、Oracle公司的Oracle Spatial以及加州大学伯克利分校的PostgredSQL & PostGIS产品,通过将空间索引与传统E-R索引组合,向关系数据库提供空间计算与查询的接口,大大提升信息统计和评估能力,并广泛应用与空间信息专题产品制作。
    虽然信息系统支持行业应用的能力有所提升,但系统的扩展性和管理对象是受信息产品和业务需求严格限制的,地理信息系统所管理的数据依然有限,只能提供简单固定的分析统计功能。随着对地观测等技术的发展,行业应用周期内获取数据的类型和数量均显著增加,信息系统不仅需要实现具体的业务能力,同时具备海量数据存储和发布共享的能力。
    从数据类型的角度看,地理时空数据也不仅仅限于条目记录,数据形式更多元化,例如栅格数据、矢量数据、三维模型、文本、多媒体等,加之数据体量的增加使得传统基于SQL存储与查询检索的数据库设计难以满足多源异构数据的业务应用需求。逐渐出现了以MongoDB、Redis等为代表的非关系型分布式数据库,配合开源空间数据服务引擎(如GeoServer),信息系统实现了地理时空信息发布与共享以及在线分析制图等功能。
    尽管利用空间数据管理引擎对时空数据(如点位数据、道路数据等)和行业业务数据(如专题图片、报表等)统一存储并支持一定程度的空间信息关联查询,但是由于缺少统一的语义描述,导致管理系统的标准不一,数据的共享和集成困难;数据之间缺乏联系,难以自动实现地理时空数据的关联分析。
(2)统一数据交换方式
    统一交换格式利用面向对象等方法将表达、描述各异的数据向标准化的称谓进行映射转换,并提供数据交换和互操作方法。数据字典是实现异构数据相互转换的有效途径,有利于数据集成与共享,通过记录数据之间的互操作和关系表达提供基本的数据关联查询和分析。
    但是,在数据转换过程中,数据映射关系表达简单,语义描述有限,缺少层次化的高级描述,数据的检索和查询仍然依赖人工经验,针对复杂地理处理任务,海量数据自动检索和筛选的颗粒度较低,难以根据任务需求实现精准的检索结果。
(3)基于语义的管理方式
    空间数据的语义描述方法已广泛应用于行业数据管理领域,其目标是解决多源数据的语义多样性对数据存储与管理产生的不利影响,实现异构数据之间的语义互操作。链接开放数据(LOD, Linked Open Data)是建立多源数据及关系描述的方法之一,利用语义网对时空数据进行组织,采用RDF等描述语言构建标准的、可交换的统一数据格式,依据行业领域的知识对数据进行语义标注,显式地表达数据和管理对象的关联关系。
    例如在灾害管理领域,通过LOD方法可将关联关系转换为计算机“理解”的信息,支持行业知识的自主推理和挖掘。
    语义约束模型也是时空数据语义描述的常用方法,根据经验知识将地理时空大数据管理与服务过程中的对象划分为若干个层级,在每个层级定义对象的要素组成和不同对象之间的关系,在多个层级建立语义约束关系。在此基础上,将统一对象的要素、关系、操作等抽象为一个实体,通过本体描述方法对任务、事件、数据之间的关系进行形式化描述,支持地理信息智能检索。相比语义约束模型,本体描述具有更强的语义完整性,支持从数据定义和组成到数据操作的统一描述,更有利于计算机自动发现数据的关联关系。
基于信息系统管理模式和交换模式的时空数据整合方法将行业数据作为空间数据进行处理,由于缺乏时空数据的语义关联描述,数据关系分析能力弱,难以支持面向地理时空大数据的有效信息自动检索;尽管语义约束模型和本体描述方法为信息的自动检索提供了有效途径,但是语义知识在关联关系层面的表达能力单一,特别是针对任务和数据的关系描述过于简单。因此,当前时空数据整合方法难以支持针对特定应急任务需求的有效数据自动发现与汇聚。
2.2时空数据关联方法
    面向任务时效性、准确性的需求,定义和建立有效的地理时空数据关联关系是从异构地理时空所给数据中快速、准确发现优势信息的关键和前提。时空数据关联模型被用于灾害应急、智慧城市等行业,用于发现以后数据的潜在联系以及辅助分析管理对象的时空分布特征,进一步可支持地理对象监测与预报预警。关联模型可分为语义约束的描述模型和计算统计驱动的数值型模型。
(1)描述型模型
    语义约束的描述型关联模型主要从概念层面建立不同对象之间的关系。其中,基于本体的关系表达中,对象之间的关系则描述为part of、instance of和attribute of,分别表示整体与部分的关系、继承关系、实例化和属性关系;决策树分析的关联模型通过定义父子、兄弟等节点之间的操作(如剪枝、嫁接等)实现事物节点的关系构建;面向时空特征的关联模型以九交模型为基础,结合时态概念,提出包含拓扑、方向、距离、点线面空间交互关系和时态的时空谓词逻辑,实现对对象时空关系的描述。
(2)数值型模型
    基于计算统计的数值型关联模型对关联关系进行量化描述,常见方法包括:构造面向时间的语义网络二维矩阵,利用jaccard、Salton等悉数计算节点之间的语义相似度,统计计算时间共同发生的概率。灰度关联分析通过算法将关联度归一化到0到1之间,得到反映和描述因素间关联大小的量。关联度越大代表因素之间的相对变化态势(如变化程度、速率和方向等)越接近,反之则相差越远,灰度关联方法常用于例如灾害和公共安全等应急评估。
    上述两类方法统称为相关性函数计算方法,由于其具有简单和归一化特点而被普遍应用;另外基于关联规则的数值型关联模型可以从应用领域挖掘有效的先验知识,这列算法通常由时空数据事务化算法和事务表挖掘算法组合而成,前者的作用是根据挖掘目标数据构建一个时空事务表,后者的作用是对这个事务表进行挖掘,从中提取频繁项集和关联规则,常见的关联规则构建方法有Apriori及扩展算法[、FP-树频集算法等。
    基于语义描述的关联模型多用于布尔型关联关系判断,量化分析数据对任务的满足度能力有限。基于计算统计的数值型关联关系模型所采用的关联规则主要是对数据之间的先验知识进行表达,缺少在任务和数据之间建立联系;此外,大规模时空数据集的关联规则构建效率下降显著,难以满足地理时空数据关联分析的时效性需求。
2.3时空信息聚合服务
    信息聚合是从大数据中萃取信息的前沿技术,围绕某一主题,把极度分散、高度相关、前后依存的信息碎片迅速、及时地整合成完整的、具有参考价值的知识信息。互联网技术的发展促进了地理空间信息服务的快速发展,也为地理信息管理提供了丰富的在线资源。现有的信息汇聚方法主要是以行业业务为对象,在线检索、加载、应用网络地理空间信息服务,结合本地客户端的模型组建功能,完成地理相关行业分析任务。开放地理空间信息联盟OGC(Open GIS Consortium)是地球空间信息领域重要的国际标准化组织,制定了一系列标准规范促进空间信息的共享与互操作。
    例如,数字地图服务WMS(Web Map Service)于2000年被OGC制定并作为标准协议用于互联网的具有空间参考的数据服务,作为全球范围内的基础影像数据资源被广泛应用于应急任务。
    此外,网络处理服务WPS(Web Processing Service)以标准化的方式在互联网上共享信息处理资源。该功能提供了标准的模型封装标准,为更多的环境监测、模拟、分析和评估模型的封装提供接口,促进了计算资源的共享与互操作。
    上述空间信息汇聚主要以遥感地图服务为主,对空间范围、空间参考、要素属性等服务资源特征进行描述。在简易信息汇聚RSS(Really Simple Syndication)编码的基础上对数据的坐标和空间参考等特征要素进行标注,将地图信息与其他互联网信息进行关联,通过空间分析模型挖掘互联网信息的地理要素特征帮助用户从海量信息中迅速找到真正需要的信息。
    现有信息汇聚主要通过直接和组合模式接入空间信息服务的形式实现。直接模型基于已有的遥感信息,根据任务需求,通过网络地图、网络要素和网络覆盖服务直接将数据分发给用户。通过搜索和发现满足任务需求的遥感信息,聚焦数据服务、传输服务协同完成地理信息处理与分析任务。诸如SpaceGRID、GEON、G-POD、OKGIS等项目采用面向技术,通过网格等技术实现地球观测数据的按需检索与服务推送,提高了地理时空数据管理的可交互性,满足用户方便获取数据。直接模式下提供共享的数据比较单一,功能简单,汇聚的信息互相独立。
    组合模式基于已有的地理时空信息,根据任务需求和处理环境,动态组合数据服务、处理服务和传输服务等生成聚焦服务,经过数据组合加工得到满足任务需求的产品信息。通过服务自组织方法汇聚广域分布的小颗粒处理服务、数据服务和传输服务,协同完成更大的复杂任务。服务组合为满足多环节协同作业的任务需求提供了一种解决途径,通过将若干个独立的服务按照一定的规则进行组合形成服务链
    当前服务链构建方法主要分为两类,即服务组合的工作流方法和地理本体知识驱动的服务链。服务组合的工作流方法主要是通过对不同服务增加语义支持,利用人工或自动的方法将多个服务的调用流程进行排序和组合。其中通过手动建立多个WMS、WFS和WPS组合的工作流方法以及面向信息管理的OWS(OGC Web Service)服务多选方案,支持业务人员根据任务需求对标准OWS服务进行组合;此外,ACE-GIS项目为服务组合提供了语义互操作、标准集成和服务互操作等方法;SWING项目在为减少语义描述的负责行并增加服务调用灵活性而提出基于语义Web的空间信息服务技术,支持面向服务组合和调用的推理能力
    该类方法主要从服务的角度满足任务需求,较少地考虑服务绑定数据对任务的影响。此外,服务组合方法依赖空间信息基础设施的目录索引,通过元数据关键字或空间过滤等方法查找合适的服务源,由于缺乏统一的描述方法,不同系统的语义表述存在歧义,引起服务查询的准确度降低,导致复杂服务链执行结果的可靠性难以保证。
    地理本体驱动的服务链方法通过构建地理本体来表达地理空间信息领域的概念、知识,使用元数据追踪等方法实现自动或半自动的服务链组建。此类方法根据既定的规则从一定程度实现了地理时空信息的自动发现与服务链组合,但应用多是面向以地理空间信息处理为主的地学分析建模任务,相比更为复杂的地理分析任务,该方法仅能参与局部任务环节,难以覆盖整个任务流。
    当前时空数据汇聚方法主要针对地图数据、较少考虑面向应用行业的数据的异构性,在一定程度上解决了异构数据的共享以及任务协同的需求,但缺乏任务和数据的统一描述,难以满足例如灾害、公共安全等应急阶段多源数据的使用需求,特别是针对任务随事态发展具有紧迫性、突变性和不确定性的特点,通用信息汇聚难以根据环境变化信息等影响因素自动感知和准确匹配时空数据与服务。汇聚数据的特征描述以地理空间属性为主、缺乏针对不同任务需求的多样性特征表达,汇聚结果难以反映任务的实际需求;基于字段标注的时空数据特征描述以地理空间属性为主、缺乏针对不同任务需求的多样性特征表达,汇聚结果难以反映任务的实际需求;基于字段标注的时空数据特征描述智能刻画数据之间的基本关系,缺少深度语义关联表达,尽管为时空数据的汇聚和检索提供了查询依据,但缺乏自动汇聚的基础和机制,依然难以解决应急任务数据准备与任务编排高度依赖人工交互的问题。
3. 总结
    面向天地一体化信息网络、传感网络等泛在时空数据的实时接入,现有空间信息服务存在的局限日益明显:由于地理分析处理任务和时空数据之间缺乏深度语义关联导致地理时空信息服务从庞大繁杂的实时接入数据和历史数据中为特定任务提供最需要数据的能力受到限制,而时空数据应用对信息接入后的处理分析的时效性、精准性提出更高的要求,现有基于人工经验的手动检索难以处理信息应急阶段骤增的数据规模,严重制约数据的应用效能。随着人工智能技术的发展,基于知识图谱的信息关联方法和用户偏好自学习的数据自组织与检索方法将是数据关联与聚焦服务的发展方向之一,面向任务需求并开展用户行为分析,自主汇聚相关性较高的优势数据开展处理与分析,从而提升时空数据业务应用的自主性和智能化水平。

相关阅读