大数据背景下的警务云结构化数据建设

更新时间:2009-03-28

随着社会向“大数据”化方向发展,对数据处理的动态性和实时性要求越来越高,传统的单个服务器和终端的处理能力的局限性逐渐显露。在这种情况下,“云计算”应运而生。“云计算”通过大数据技术将网络上的各种数据资源虚拟成一个特殊的计算器,向用户提供信息等一系列服务。警务信息化在大数据浪潮的带动下,已取得革命性发展,几乎改变了传统的警务工作模式。但是随着警务数据量和应用需求的不断增长,现行硬件构架和服务模式已难以满足当下的警务要求,警务信息“云”化已势在必行。

根据陈国权《2017中国报业发展报告》,专业报纸因致力于细分市场,读者对象更明确,总印数降幅较小,市场前景良好。但面对“互联网+”模式的冲击,专业报也融入新媒体中,深挖读者需求,谋求进一步发展。根据中山大学张志安教授团队完成的《2017年中国新闻业年度发展报告》显示,2017年传统纸媒发展和转型形势依然严峻。相比于党报、专业报,综合商业报由于缺乏政策红利、盈利模式相对单一、新型收入探索艰难、服务功能更易被网络所替代等原因,转型面临诸多困难,相继停刊。因此,综合商业报必须攻难克坚,在2017年继续与新媒体融合,寻找生存和发展的出路。从整体上看,党报在2017年与新媒体融合方面成效显著。

一、结构化数据建设能满足警务信息化应用的要求

伴随着社会信息化水平的快速提高,互联网和物联网等新型应用的不断推广,社会上的数据越来越多,对数据的信息化处理方式、速度、精度等都提出了极高的要求。而作为维护社会安稳的警务人员,也面临着如何将这些数据有效地进行整合、分类、研判,进而转化为有效侦查线索的难题。而结构化数据建设恰恰能解决这一难题,满足警务信息化应用的要求。例如,在对犯罪嫌疑人的住店信息进行轨迹分析时,可能会出现以下的应用场景(见表1),通过场景的研究就会获取有价值的线索。

表1列出的只是一个部分的假设应用场景,实际应用可能更加复杂,特别是对多类数据进行综合分析的时候。然而,再复杂的应用需求也是有规律的。查询信息、交叉比对、关系分析、排查分析、数据挖掘这五类方法是将庞杂的数据进行数据结构化的重要工具,因为信息的查询多是通过关键字来进行的,本文不作为介绍的重点,主要介绍其余四类。

(一)交叉比对

交叉对比是指对两组或多组数据中相同标识项进行对比,从而发现数据间相同数据项的操作。交叉对比虽然操作简单,但是信息应用过程中不可或缺的手段,也是数据结构化的基石。交叉对比又可以分为同类数据比对和非同类数据比对。

1.同类数据比对

即进行比对的两组或多组数据的所有数据项相同。例如,想找到与A、B、C三个手机都通过话的号码,就可以对A、B、C三个手机话单中的通话对方号码进行交叉对比,从而找出共同的号码。又如,表1对D酒店和E酒店不同时间段都住宿过的人进行比对也属于同类数据比对。

包括全文检索、对象要素组合检索、关系检索和路径检索。全文检索和对象要素组合检索是各种应用系统最常用的功能,其具体实现这里不赘述。要注意的是在数据重构后的情况下,对象之间的“关系”中的数据项目也应成为检索的内容。关系检索和路径检索是在关系型数据库存储模式下无法提供的服务。关系检索的模式(见图4)。使用该功能首先要明确“对象A”“对象B”或“关系1”其中的部分条件属性,系统根据该条件属性返回数据集合。

 

表1 同类数据比对表

  

需求 需要的数据项 分析方法对于A住过的酒店进行整合了解B的轨迹对于C的同住人员整合了解在不同时间段分别在D酒店和E酒店都住宿过的人证件号码、酒店名称证件号码、入住时间、退房时间、酒店地址证件号码、酒店编号、入住时间、退房时间、酒店地址、房号证件号码、酒店编号、入住时间、退房时间通过证件号码查询个人住店信息,在结果中对酒店名称去重通过证件号码查询个人住店信息,再根据入退房时间、地址确定轨迹存在多种方法,最简单的是通过C的证件号码查询个人住店信息,再查询具有相同入住时间、退房时间、房号、酒店编号的其他人根据入退房时间、酒店编号分别查询出指定时间段在D酒店和E酒店的住宿人员列表,将在D酒店和E酒店的住宿人员列表中的证件号码进行交叉比对

2.非同类数据比对

即进行对比的两组数据或多组数据的数据项不同,但至少有两组数据存在相同标识数据。例如,分析重点人员乘坐航班的情况、其手机号码存储在哪些人的手机中,就可以通过以下方式进行交叉比对。一是将重点人员的证件号码分别与航班旅客数据进行比对;二是将重点人员的手机号码分别与数据库中的机主号码和通讯录号码进行比对。

理财之所以受到广大投资者青睐,主要原因是保本又有稳定高收益,随着刚性兑付被打破,对于追求保本收益的投资者来说,表内存款将成为理财产品的替代。2017年以来,银行的结构性存款规模出现大幅增长,一度被认为是保本理财替代品。但是,从目前来看期权触发可能性极小的情况仍存在于部分结构性存款中,从某种程度上可以被当成变相的保本理财,预计在未来的发展中将会强化对结构性存款的监管,表内存款仍将成为理财转移重要去处。

(二)关系分析

对于英语学习者而言,英语近义词一直是一大难点。由于语言具有任意性,英语中存在大量近义词。从近义词本身来看,它们虽表达相同的概念,但如果文本不同,语境不同,或角度不同,这些近义词,尤其是近义动词就会有所差别。该文以obtain,gain和acquire为例,通过coca语料库来分析其在语义和语用上的区别,从而为英语学习者提供新的学习方法。

一是在登记信息中分析与确定目标存在某种关系的其他目标。例如,确定目标为人员,可通过户籍登记资料分析出其同户人员、同址人员、同工作人员,进而分析其同案人员。

二是通过确定目标的行为轨迹特征分析出与其存在特定关系的其他目标。例如,通过确定目标入住酒店的编号、入退房时间等信息分析其同住人员,通过航班信息中的航班号、日期、订票编号等信息分析出其同行人员,通过上网登记信息的上下网时间、地点分析其同上网人员等。

三是通过对不同目标的不同行为轨迹特征分析与其存在特定关系的其他目标。例如,几辆车已掌握其轨迹和人员手机号码轨迹,可以通过对比目标在时空、空间上是否存在多点重叠,来分析目标是否有关联性。

实验室资源与创新平台利用率低 随着高等院校越来越注重学生的实践动手能力培养,国家对教育投入的持续增加,很多高校在开放实验室和双创平台建设上投入的人力、财力和物力不断增加,但在这个过程中,实验室重复建设、资源配置不合理等高校开放实验室与双创平台利用率不高的问题不断出现[6]。由于管理和协调方面存在很多缺陷,大多数实验室只是满足基本的本科和研究生教学任务,进实验室进行科技创新实验和到平台进行双创实践的学生很少,因此,创新平台和实验室利用率低。

四是多层关系路径查找。如果两个目标之间未发现直接关系,可通过路径查找的方法找到形成两个目标关联的中间目标及其关系类型。

(三)排查分析

排查分析是在未确定目标,只掌握该目标符合某种规律的情况下,通过排查的形式确定目标。主要有以下4种方式。

一是通过行为活动规律排查分析目标。例如,在对套牌车辆的排查分析中,可根据同一辆车在短时间内不可能同时出现在距离较远地点的规律排查出套牌车辆的号码;也可以通过对封闭路段上的多个卡口点经过的车辆进行反规律分析,将不符合正常规律的车辆(封闭路段的车辆必经过此路段的所有卡口)列入排查范围。

P与U取不同的函数,可构造出不同的小波变换。经过Matlab仿真结果的分析,最终选用正交小波db2作为母小波,对功率序列进行三尺度分解。

二是通过行为活动规律排查分析目标。例如,对疑似无业人员的排查分析,可通过上网数据排查长期在工作时间到网吧上网的人员。

三是通过关系特点规律排查分析目标。例如,对印刷行业人员的关系进行排查,有可能找到假币或者假发票窝点。

多少对夫妻,不都是这样过来的。娶的或者嫁的,并不是原先想要的。心心念念想圆一场关于初恋的梦,可等到那个梦里的人出现时,才发现那真的只是一场梦。

四是通过统计方式排查目标。统计可以发现数据的变化规律,从而逐步发现目标。例如,通过对电话清单中的通话对象在通话时长、次数、时间段上的统计,就可以发现与机主关系较为密切或者特殊的目标。

(四)数据挖掘

数据拆分是将原始数据按照各类数据标准进行拆分,在对应项目填写。例如,表2中人口基本信息的拆分过程中,除将人口基本信息对应人员类别标准项填写外,还需将住址、户籍、出生地、服务场所等分别填写对应的标准数据项目。

二、警务云平台数据建设的建议

1.定义数据标准

(一)数据分类

要提供统一的服务规范,必须有统一的数据规范。目前,公安机关的数据种类繁多,数据项目各异,没有统一的数据规范,造成数据的大量重复,而且不利于提供统一服务。因此,应以统一的规范对数据进行分类。数据一般可分为人员、物品、组织、地址、行为等类别,分类后每一组可以区别于其他数据的数据元称为“对象”,具体说明如下。

人员:以证件号码作为唯一标识,将涉及的人员信息全部归到该类。如人口基本信息、吸毒人员信息、在逃人员信息、违法犯罪人员信息、重点人员信息等。

物品:将所有涉及物品类登记的信息全部归入该类,如车辆、手机号码、手机设备、银行账号等。列入该类别的物品必须具有唯一标识,同时要规范物品名称并进行编号,以物品编号和该物品的标识组合作为该物品的唯一标识。如车辆(编号W01)、手机号码(编号W02),那么车牌号码为粤A00001的车辆的唯一标识是“W01粤A00001”,手机号码13900000001的唯一标识是“W0213900000001”。

所有患者均符合DM诊断标准[1]:空腹血糖≥7.0mmol/L或餐后2 h血糖≥11.1 mmol/L,诊断过程中需排除肝脏疾病、慢性肾功能不全、应激状态、肢端肥大症、库欣综合征等原因导致的血糖继发性或一过性升高,排除其他继发性高血糖疾病,且年龄在50~75岁之间。其他排除标准:①合并严重心、肝、肾等脏器功能不全者;②酒精依赖或药物滥用;③受认知能力限制,无法接受健康教育者;④因精神疾患无法配合者。满足上述研究标准的100例该社区所属的糖尿病患者纳入该对照研究,入组的糖尿病患者进行均进行体检,内容包括内科、外科常规,胸片、心电图、腹部B超和生化指标检验,并建立健康档案。

组织:单位、公司、机构、团伙、团体等。一般使用组织类别编号和组织机构代码的组合作为标识,没有组织机构代码的,可重新自定义规则进行编码。

在马克思之后,阿伦特从人的行动与语言的公共性维度概括出存在主义的公共性,哈贝马斯将公共性阐发为主体间商谈伦理的公共性,罗尔斯则提出在无知之幕中建构公共理性并以此限制人的行为,但他们都没有超越马克思,只是对马克思的公共性理论进行了部分延伸和拓展,使之更加正视人性之弱点、更为契合新的时代精神。在21世纪破解人类共同难题,需要激活历史唯物主义的公共性维度,引导人们更多地从公共实践、公共利益、公共需要、公共意识、公共目标来认识和破解发展难题。

地址:所有描述位置信息的数据。先要对所有地址信息进行标准化描述,再将描述相同地点的不同描述内容进行合并。

行为:案事件和活动轨迹数据。案事件包括案件、警情、事件等信息。使用案件、警情、事件编号作为唯一标识,如没有编号的,按照自定义规则进行编号。活动轨迹是比较特殊的行为,通常为人员或物品在时间和空间上的连续行为,如宾馆住宿数据、民航数据、实名上网数据、电话通话清单、车辆卡口数据等,一般情况下不设定唯一标识,而是在转换成案事件的时候才设定唯一标识。

(二)数据重组

数据重组是从数据应用的角度将原始数据按照一定的标准进行拆分后重新按照上述分类进行写入,并在对象之间建立关联。数据重组是数据重构最关键的环节,主要从定义数据标准、数据拆分、数据关联3个阶段开展工作。

直接提供原始数据和提供数据服务接口,是数据提供的两种主要方式。直接提供原始数据可能出现数据安全问题,不符合数据安全管理原则,而提供数据服务接口的方式相对安全可靠。但是,就目前的数据结构和存储模式,在不拷贝原始数据的情况下,直接向警种提供接口服务,几乎是不可能的。为了更好地提供数据服务,打破现有数据结构和存储方式造成的瓶颈,建议将数据重构(根据数据分析需求按照一定的标准对数据进行分类,并按分类对数据进行重新组合),并改变存储方式。

根据各种数据的原始数据项,对照人员、物品、组织、地址、案事件分类,按照数据应用需求提取关键数据项,去除重复项目,确定每类数据的标准。例如,对人员类别下的人口基本信息和在逃人员信息的部分字段进行抽象合并(见表2)。

在我们对数据重构成“对象”和“关系”的结构之后,使用图形数据库对数据进行存储是比较好的选择。另外,行为对象中的活动轨迹类信息比较特殊,在其转换成案事件之前可以使用关系型数据库进行存储。

关系分析是在确定分析目标的情况下,根据有关信息资源,分析出与该目标存在某种关联性的其他目标。主要有以下几种分析方法。

数据挖掘是数据分析最高级的应用,上述排查分析中提到的“规律”,是有经验的侦查员长期积累并总结出来的,而数据挖掘却是发现这种“规律”的另一途径。用数据挖掘方式发现数据中的“规律”往往是“意想不到”的,需要侦查员在实践中不断印证与检验。所以,从数据挖掘到实际应用需要很长时间的“发现、印证”过程。数据挖掘中的关联分析、聚类分析、预测分析等,对警务情报分析过程中的关系分析、异常事件监测、犯罪形势预测等有很大的帮助。

3.数据关联

数据关联是在已按照人员、物品、组织、地址、行为等分类填写完的对象之间建立关联信息,用于描述对象之间的关系。关联信息至少应包含类型、关系来源、名称、方向、强度等级、关联发生时间、写入时间和备注等。关联信息主要有三方面。一是在原始数据拆分过程中根据登记信息建立关系。在对人口基本信息的进行拆分后,应建立人员与其出生地、住址、服务场所等的关系(见图1)。二是通过轨迹活动等信息分析或排查出对象之间的关系。例如,通过旅店住宿数据分析出A某的同住人员B某、C某(见图2)。三是民警在工作过程中发现对象之间的关系。例如,民警在走访过程中发现A某和B某共同住在某出租屋中(见图3)。

 

表2 人员信息抽象合并表

  

人口基本信息公民身份证号、姓名、性别、民族、户籍地县级公安机关、户籍地派出所、户籍地、出生日期、户籍登记地址、曾用名、出生地、籍贯、身高、出生地详细地址、住所、兵役状况、人员背景在逃人员信息人员标识、姓名性别、身份证号民族、身高、口音、职业、户籍地区划、户籍地址、现住地区划、现住地址、籍贯区划、籍贯、指纹编号、DNA编号人员(抽象合并)公民身份证号、姓名、曾用名、性别、民族、职业、出生日期、身高、口音、职业、兵役状况、指纹编号、DNA编号及人员背景(住址、户籍、出生地、服务场所等项目不作为人员信息项目)

  

图1

  

图2

  

图3

数据经过重构以后,所有原始数据将会变成以“对象”和“关系”为结构的网络结构数据。因此,数据重构过程就是将原始数据进行网络化重组的过程。数据网络化之后,针对数据的分析可以引入社会网络分析的思路和方法,用社会网络分析的方法提供数据分析服务,基本可以满足各警种的各种业务需求。

(三)数据存储

目前,绝大部分数据都采用传统的关系型数据库进行存储,使用SQL语言对数据库进行操作。随着大数据时代的到来,非结构化数据、社交网络、分布式数据分析、数据复杂分析等新型应用不断涌现,传统关系型数据库依赖多表进行关联查询导致的性能问题已难以满足需求。而一些非关系型数据库(NOSQL)不断出现,包括键值、列存储数据库、文档型数据库、图形数据库等。在数据重构中所有数据最终变成了“对象”和“关系”的组合结构。从数学理论角度看来,它刚好契合数学中的“图”。图是由一些点和这些点之间的连线组成的。严格意义上讲,图是一种数据结构,即Graph=(V,E),V是一个非空有限集合,代表顶点(结点),E代表边的集合,用于连接两个顶点。如果我们把重构后数据中的“对象”看成顶点,“对象”之间的关系看成边,那么我们重构之后的数据其实就是一个“图”。在图应用需求的驱动下,出现了图形数据库。图形数据库是非关系型数据库中的一种,它的应用非常广泛,如物流、导航、社会网络分析等。

图形数据库(graphic database)是利用计算机将点、线、画等图形基本元素按一定数据结构进行存储的数据集合。目前较流行的图形数据库有Neo4j、FlockDB、Allegro Graph、GraphDB、Infinite Graph、OrientDB、InfoGrid和HypergraDb等。图形数据库的特点是直接使用图的概念进行建模,同时提供了在对象图上进行查找和遍历等算法和功能。理论上关系型数据库也可以模仿图形数据库实现图的概念,但是它需要繁琐的对象关系映射技术来进行转换,效率非常低下。

2.数据拆分

三、警务云平台数据服务的建议

数据经过重新构建并使用图形数据库进行存储后,接下来考虑的就是如何建立应用并提供数据服务。警务云平台应提供以下应用及服务。

目前对食品、食品添加、转基因食品的风险认知研究很多,但针对保健食品的风险认知及影响因素分析的研究却相对较少。而在这些关于食品的风险认知研究中,其影响分析主要集中于概念知识与信任两个方面,对民众的信息搜索功能、信息来源等的影响因素分析较少。保健食品相对于食品来说,其信息、营养价值、保健功用等更容易引起民众的关注,而这些信息对民众来说却不是容易获得,在影响因素中加入对信息来源、信息搜索行为的变量,对理解民众对保健食品的选择与决策具有重要的作用。本文以信息来源途径作为一个变量,将更有助于理解民众对保健食品风险认知的产生机制和影响因素,帮助监管部门在制定保健食品监管措施时更有针对性。

(一)数据检索

根据《2017年全国大、中城市固体废物污染环境防治年报》,2016年全国214大中城市生活垃圾产生量为18850.5万吨,如此大的生活垃圾量给我国的垃圾处理提出了极大的挑战。 目前我国生活垃圾处理主要还是采取填埋的方式,但是随着城市的逐步发展,城市用地越趋紧张,原填埋场使用年限将近,填埋的方式已经不能满足垃圾处理的需求了,并且由于过度填埋所造成的垃圾问题也越趋严重。因此,我国目前正在努力引进与发展垃圾焚烧技术,来缓解垃圾处理问题。然而垃圾焚烧厂的建设却引发了周边居民的抵制,这严重影响了垃圾处理和垃圾治理的工作。

  

图4

例如,设定条件

对象A=“对象类型:案事件,案件类别:合同诈骗”

除了以上障碍,技术性障碍是始终存在的,无论是设计者还是学习者,都会面临技术不断更新、技术对多样化数字教育环境的适应性以及如何应用新科技于学习等问题。

对象B=“对象类型:人员,人员籍贯:广州”

关系1=“关系类型:涉案人员”

那么系统将返回所有籍贯为广州的合同诈骗涉案人员及案件信息的数据集合,查找将“对象A”和“对象B”关联起来的中间对象及其路径,例如上述提到的张1与李之间的关系实例。路径检索模式(见图 5)。

载波相位发生周跳引起了一个偏差,对于经过历元差分后的载波相位来说,周跳只是影响当前的载波相位历元差分,产生了明显的跳变,而后续载波相位重新进行差分操作不受影响,见图1所示。对于周跳的探测,设计算法检测出发生跳变的历元就可以了。

  

图5

(二)数据集合

民警通过检索返回的数据信息应该允许在系统中定义成数据集合,并进行保存,以备下一步分析使用。例如,民警需要分析涉及毒品犯罪的人员与涉及假币犯罪的人员以及他们的关系人是否存在某种关联,其简单的分析模型(见图6)。

  

图6

该分析过程至少需要4次关系检索才能得到结果。因此,民警需要将每次返回的数据集合保存到系统中,最后才将4次结果进行关联分析。同时,其保存的结果集合也可以作为今后进行其他分析的依据。

(三)建立档案

档案是按照对象的基本信息以及第一层关系的对象信息进行分类建档,并提供档案信息更新提醒。包括人员档案、组织档案和物品档案。如在人员档案中,可能包含以下分类(见表3)。档案为系统自动生成,当档案信息更新时,系统可以自动提醒关注该档案的民警。

 

表3 人员档案表

  

大类人员基本信息背景信息物品地址组织行为关系人小类无在逃、涉案、涉毒、重点人员车辆、手机、账户户籍地址、住址、单位地址工作单位、团体、QQ群涉案信息、旅店住宿、实名上网信息同户人员、同伙人员、同案人员、亲属、朋友、同行人员、同住人员

(四)数据可视化

目前,大部分应用系统都使用了可视化中间件,实现可视化分析。可视化分析本身就是基于“图”的理念的一种分析模式,它有利于数据直观化、图形化展现。以图形数据库模式存储的数据,使用可视化分析是最好的方式。

省内石油储量较少,2020年前可提供石油大约 1 000 万t/年,2020年以后暂不考虑省内石油供应。省外石油供应主要来自松辽、辽河、渤海湾、鄂尔多斯和新疆等地,国外主要供应来自中东地区(阿曼、伊朗和沙特等国家)、东南亚和非洲等地区。广东省港口资源丰富,港口接卸能力、铁路运输条件好。

总之,警务云的建设涉及各个方面,除了对结构化数据进行处理外,还涉及PGS(警用电子地理地图)、视频、语音、人像比对、文档数据等非结构化数据的处理,是一项复杂的系统工程。加大警务云的建设力度,可有效提高未来的警务效能。

[参考文献]

[1]张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013(1):18-22.

[2]马忠红.论侦查阵地控制的发展趋势[J].江西公安专科学校学报,2009(4):31-34.

[3]程学旗,王元卓,靳小龙.网络大数据计算技术与应用综述[J].科研信息化技术与应用,2013(4):3-14.

[4]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报(社会科学版),2014(5):405-419.

 
冯超,沙贵君
《广西警察学院学报》2018年第02期文献
100%安全可靠
7X18小时在线支持
支付宝特邀商家
不成功全额退款