搜档网
当前位置:搜档网 › 【精品】H3C新华三-XXX智慧城市大数据共享交换平台建设方案

【精品】H3C新华三-XXX智慧城市大数据共享交换平台建设方案

康巴什智慧城市大数据交换共享平台

建设方案

新华三技术有限公司

目录

第一章需求分析和项目建设的必要性 (4)

1.1 项目建设目标、内容 (4)

1.1.1 项目建设目标 (4)

1.1.2 项目建设内容 (4)

1.2 编制依据 (5)

1.3 与政务职能相关的社会问题和政务目标分析 (6)

1.3.1 社会问题分析 (6)

1.3.2 政务目标分析 (8)

1.4 业务功能、业务流程和业务量分析 (11)

1.4.1 用户角色分析 (11)

1.4.2 业务功能分析 (12)

1.4.3 业务流程 (14)

1.4.4 业务量分析 (14)

1.5 信息量分析和预测 (15)

1.5.1 存储量分析 (15)

1.5.2 处理量分析 (19)

1.5.3 网络流量分析 (20)

1.6 系统功能和性能需求分析 (20)

1.6.1 系统功能指标 (20)

1.6.2 系统性能指标 (22)

1.7 信息系统装备和应用现状与差距 (22)

1.7.1 现状 (22)

1.7.2 差距 (23)

1.8 项目建设的必要性 (23)

第二章总体建设方案 (26)

2.1 建设原则 (26)

2.1.1 统一性原则 (26)

2.1.2 可靠性原则 (26)

2.1.3可伸缩和可扩展性原则 (26)

2.1.4 开放性原则 (27)

2.1.5 安全性原则 (27)

2.1.6 高效性原则 (27)

2.1.7 友好性原则 (27)

2.1.8 可管理易维护性 (28)

2.2 总体目标与分期目标 (28)

2.3 总体建设任务与分期建设内容 (29)

2.4 总体设计方案 (30)

2.4.1 基础设施层 (32)

2.4.2 信息资源层 (32)

2.4.3 应用支撑层 (33)

2.4.4 应用层 (34)

2.4.5 服务层 (34)

2.4.6 安全保障体系 (34)

2.4.7 标准规范体系 (35)

第三章项目建设方案 (36)

3.1 标准规范建设 (36)

3.1.1 管理制度建设 (36)

3.1.2 标准规范建设 (40)

3.1.3 数据标准建设 (43)

3.1.4 标准规范索引 (46)

3.2 信息资源规划和数据库设计 (47)

3.2.1 信息资源规划 (47)

3.2.2 数据中心建设 (53)

3.3 门户系统建设 (69)

3.3.1 信息资源政务门户 (69)

3.3.2 信息资源开放门户 (73)

3.4 应用系统建设 (74)

3.4.1 数据汇聚平台 (74)

3.4.2 数据治理平台 (89)

3.4.3 数据运营平台 (102)

3.4.4 数据应用平台 (104)

3.5 四大基础数据库管理平台 (108)

3.5.1 人口库 (108)

3.5.2 法人库 (111)

3.5.3 经济库 (114)

3.5.4 地理库 (115)

3.6 应用支撑系统设计 (116)

3.6.1 统一用户管理 (116)

3.6.2 统一应用管理 (120)

3.6.3 统一服务管理 (121)

3.6.4 统一消息服务 (123)

3.6.5 统一日志服务 (124)

3.7 安全保障体系建设 (124)

3.7.1 建设目标 (124)

3.7.2 安全体系架构 (125)

3.7.3 安全防护体系建设 (125)

3.7.4 安全管理体系建设 (133)

3.8 主要软硬件选型原则和详细软硬件配置清单 (136)

3.8.1 主要软硬件选型原则 (136)

3.8.2 详细软硬件配置清单 (137)

第四章效益分析 (138)

4.1 经济效益 (138)

4.2 社会效益 (140)

第五章项目风险与风险管理 (142)

5.1 风险识别和分析 (142)

5.1.1 组织风险 (142)

5.1.2 管理风险 (142)

5.1.3 业务风险 (142)

5.1.4 技术风险 (142)

5.2 风险对策和管理 (143)

5.2.1 组织风险防范对策 (143)

5.2.2 管理风险防范对策 (143)

5.2.3 业务风险防范对策 (144)

5.2.4 技术风险防范对策 (144)

第一章需求分析和项目建设的必要性1.1 项目建设目标、内容

1.1.1 项目建设目标

智慧城市公共数据开放共享平台项目建设目标是,依托统一的“云”数据中心建设统一的公共数据开放共享平台。集中机关各部门业务应用进行,制定相关的数据规范和信息交换标准,使机关各部门业务系统依托统一的开放平台进行开发建设。确保部门之间系统之间的互联互通、数据共享,为大数据分析提供数据依据。1.1.2 项目建设内容

智慧城市公共数据开放共享平台项目建设内容包含:一套标准规范、两个数据门户、四大应用平台、四大基础数据库和一个应用支撑平台。

具体建设内容包括:

1、一个应用支撑平台

为了对需要调用智慧城市公共数据开放共享平台信息资源的政府部门应用系统进行有效管理,面向各类智慧城市应用,规划建设统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、服务管理等核心组件,可以对接入系统有效管理、实现统一认证及单点登录、统一消息服务。

2、两个数据门户

针对政府部门用户建设信息资源政务门户,针对企业、公众用户建设信息资源开放门户。

3、四大应用系统

建设承载智慧城市公共数据汇聚平台、数据治理平台、数据运营平台和数据应用平台。

4、四大基础数据库

通过智慧城市信息资源梳理,制定四大基础数据库的建库、入库和管理规则,建立四大基础数据库管理平台,提供基础库内容管理、数据处理、共享和应用功能。

四大基础数据库包括人口库、法人库、经济库和地理库。

5、一套标准规范

形成标准规范体系,包括管理制度、标准规范、数据标准等。

1.2 编制依据

1、中办、国办《2006-2020年国家信息化发展战略》;

2、国办《关于促进智慧城市协调发展的指导意见》;

3、国务院《促进大数据发展行动纲要》;

4、《国家智慧城市总体框架》;

5、《国家智慧城市“十二五”规划》(工信部规〔2011〕567号);

6、《关于印发“十二五”国家政务信息化工程建设规划的通知》(发改高技〔2012〕1202号);

7、《GB/T 21063-2007 政务信息资源目录体系》

8、《GB/T 21062-2007 政务信息资源交换体系》

9、《国家智慧城市工程建设项目管理暂行办法》

10、《政府信息公开条例》

1.3 社会问题和政务目标分析

1.3.1 社会问题分析

作为世界人口大国,理论上我国数据资源储量极为丰富,但大部分政府数据(例如:交通、社保、税收等),属于结构化数据,距离海量(volume)、速度(velocity)和多样性(variety)的3V属性还有一定距离,但从战略角度而言差距并不大。

从数据规模来说,政府拥有国内最为庞大的数据储量。政府数据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待存储与处理。

从数据来源来说,由于各行业、各地采用的法律法规和标准并不统一。传统的智慧城市信息系统,仅为满足特定功能而生,数据结构差异性大,大量数据存放于历史遗留应用中,委办局间碎片化、零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极为复杂。

从数据质量和价值来说,企业的数据种类单一化程度较高,而政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁

多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十分可观。

如上所述,政府数据的特点可以概括为:数据规模大、数据来源和结构复杂、数据价值高但利用率低。

政府收集了大量有价值的数据,通过这些数据,可以更好地了解国家资源使用情况,政府开支情况,土地交易和管理情况,这些将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为人民提供更多更好的服务选择。

1、政府数据体量越来越大

截至2014年,中国共有664个城市,2852个行政县,40446个行政乡。当前,中国中央和省级政务部门主要业务智慧城市覆盖率已经达到70%。据粗略估算,全国政府大数据加起来相当于数百个阿里巴巴的体量。而随着硬件技术的进步,对于数据采集精度、采集频率、数据存储等能力在增强,使得数据规模仍有提升空间,近几年数据中心的新建和扩容呈现井喷式的发展,这是以硬件基础设施带动的变革,促使软件技术也得到了快速发展。

随着数据体量的增长,大数据处理、大数据应用分析的门槛将会逐渐提高。

2、多部门协作成为常态化

复杂的城市治理问题,对跨部门的协作提出了更高的要求,过去个别部门间存在的职责交叉分散、协调运行不畅等问题。随着“大部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部

门、一个政府”目标。随着部门与部门的边界越来越模糊,政府数据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为政府大数据建设的入门。

3、国家治理不能仅仅依靠政府

由于时间和技术的局限性,以往国家治理基本是政府下达指令、向下逐层执行的“开环过程”。如今随着互联网发展,人民对于政府的期望越来越高,国家不仅要在政策出台前广泛征求、准确把握民意;出台后还需要获得执行反馈,并适时调整,政府治理变为下达指令—执行—反馈的“闭环过程”,需要借助社会各方面力量参与到国家治理过程之中。无论是社会自治还是合作共建,政府数据共享开放都是大前提。

4、社会普遍开始重视数据安全和隐私

数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患,随着全球各地用户信息安全事件频出,让人们开始感受到“数据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。数据安全和隐私保护不仅是公民个人的责任,对采集数据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过程中,政策、技术、意识缺一不可。需严格依照相关规范文件,将安全运营意识渗透到政府数据开放中。

1.3.2 政务目标分析

1、实现政务公开,打造透明政府

智慧城市公共数据开放共享促进政府和公众互动,让政务透明,帮助政府进行社会管理和解决社会难题,大数据时代下,政府是整合开放的平台,是一个大数据共享平台,它建立了公众与政府间的沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线交互让民众成为政务流程的节点,透明政务,让公众参与到政策制定与执行、效果评估和监督之中,使民众参政议政成为可能。大数据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促进经济社会快速发展。

2、实现数据融合,打造智慧政府

智慧城市公共数据开放共享真正跨越了政府内部协同的鸿沟,大大提高工作效率,降低政府运行成本。其一,政府内部协同除思想理念上的障碍外,技术上也存在一定障碍,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部纵向、横向部门得以流畅协同。其二,由于利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降低了政府开支。例如,政府利用大数据对社会人群进行细分,对不同人群进行针对性服务和政策施行。

3、实现科学决策,打造责任政府

智慧城市公共数据开放共享提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,越来越多的政府摈弃经验和直觉,依赖智慧城市的数据和分析进行决策。现在大数据又超越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图

表等都可以进行深度挖掘、人工智能。大数据的深入及广泛应用会给政府带来科学和精准的决策支持。

4、为康巴什智慧城市提供一个安全可靠的信息资源存储中心

对各部门的共享交换的数据资源进行统一的规划管理和应用,建设集约化的数据资源存储中心,从而避免了各部门重复建设工作;同时提高数据安全方面的建设,从硬件设备、网络、信息资源、应用系统、管理平台、数据库等方面的全面保证数据的安全性,并根据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的安全设计,并在应用服务上提供安全检测服务。

5、为康巴什智慧城市提供一个高效的应用服务平台

康巴什智慧城市公共数据开放共享平台的建设,为政府应用系统和信息资源的高效管理和服务提供手段,通过对相关的基础信息、业务信息、服务信息进行管理,实现康巴什智慧城市公共数据开放共享平台的信息管理和服务功能。城市级交换共享平台则对各部门的信息资源提供交换共享支撑,以提高信息资源的综合利用水平。通过整合各部门数据信息,建设基础信息库,并提供对外服务,实现康巴什智慧城市公共数据开放共享平台的服务功能。

6、为康巴什智慧城市提供一个长效和可维护的信息服务体系

康巴什智慧城市公共数据开放共享平台的建设要对康巴什智慧城市体系提供长久的服务,因此在管理和运维上必需配备相应的支撑。这一方面取决于管理制度的完善、管理手段的完备和对管理本身的技术支撑,另一方面,也取决于人员的配备和运维体系的建立。

1.4 业务功能、业务流程和业务量分析

1.4.1 用户角色分析

康巴什智慧城市公共数据开放共享平台的用户分为:领导、各部门、企业单位及社会公众。

1.4.1.1 政府领导

康巴什智慧城市公共数据开放共享平台有价值的数据、行政地图、决策方法和应急进行融合,采用大数据分析技术,有利于各级领导、管理决策人员方便、直观、形象地进行各种分析,从而使统计决策的科学化、人性化、智能化管理走上一个新台阶。

1.4.1.2 政府部门

可以向康巴什智慧城市公共数据开放共享平台提供数据或使用平台提供的数据;业务部门之间可以通过系统平台交换共享数据;遵循标准规范进行业务系统的建造和改进,可实现业务系统和数据开放共享平台的对接。

1.4.1.3 社会公众

可以依托康巴什智慧城市公共数据开放共享平台提供的应用服务对公众需求做出快速反应,公众可以更直接广泛的获得政府提供的服务,如证照协同、社保电子传递等。

1.4.1.4 企业单位

通过康巴什智慧城市公共数据开放共享平台提供的应用服务可

以方便企业进行业务级信息查询,并可通过业务协同对企业提供事项审批、信息推送服务。

1.4.2 业务功能分析

1.4.

2.1 数据共享

在政府部门内部强调的是共享共用。先把政府部门内部及部门之间数据共享的工作做起来。各级政府都以数据应用为导向,需要什么数据就共享什么数据。

部门间的信息共享,综合考虑管理难度和技术难度建议分为三个阶段:“条线内部门共享”、“平级跨部门共享”、“跨层级和跨区域的共享”,通过统一规划,逐步推进的策略,打造部门间信息资源共享共用的新格局。

1.4.

2.2 数据开放

对社会的数据开放,先从方便百姓生活又不是很敏感的数据开始。特别是涉及公共安全、公共利益的数据,提供公共服务的机构或企业有义务在一定前提条件下开放,这样一些可以预警、预防的群体性事件就能够避免。

按照社会关注程度、数据量大小和具体实施难度,数据开放建议分为三个阶段:“业务统计数据”、“少量高频数据”、“重点业务数据”。通过以安全为前提,重点关注优先试点,逐步扩大范围为原则,稳步推行数据服务开放。

1.4.

2.3 数据融合

政务大数据归根结底,还是要面向行业应用的,需要基于不同的业务部门开展,并和现有平台建立联系。

融合应用可以分为“数据融合”、“业务融合”、“产业融合”三个层次:其中,数据融合是把本单位数据、从其他单位共享的数据,以及互联网等社会相关的数据,相互融合,相互比对,建立融合数据资源中心,统一数据标准和口径。

业务融合主要围绕各行业的特定业务场景,比如交通出行、医疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分析体系,支撑城市运行和城市治理的方方面面。

产业融合,随着一大批大数据处理、大数据分析、大数据运营企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平台,数据交易平台等形式,引入社会资本共同参与城市建设和社会治理,实现向集约型、服务型、智慧型政府的转变。

1.4.3 业务流程

1.4.4 业务量分析

业务量分析可以从平台交互量、每天总用户数(个)、每天每个用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进行综合估算。康巴什互联网大数据分析平台的业务量估算如下表所示:

表 3-1 业务量估算

1.5 信息量分析和预测

1.5.1 存储量分析

本项目中存储的数据主要包括两大部分:系统网站群的在线行为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内容数据。在线用户行为数据以符合W3C格式标准的日志形式进行存储。网站内容更新数据直接存到关系型数据库或其他非关系型数据库中。

1、在线行为数据存储量

网站群的在线行为数据存储主要分为三部分:

(1)接收数据,是系统储存的原始数据。

(2)结构化数据,将原始数据进行数据清洗和去重后进行结构化后存储。

(3)分析数据库,将结构化的数据进行分析预计算后存储。

按照本项目需要涵盖康巴什系统网站群的500个网站,每个网站的日平均访问按照10000个PV计算,预计每日需要处理的总的PV数为500万。

接收数据的测算依据及结论

其中接收数据库的主要条目占用空间,如下表所示:

例如:

按照其他同类项目的数据估算,PV和Session数量比为4:1,Session和Cookie的数量比为1.25:1。则500万的PV会产生125万的Session以及产生100万的Cookie,总占据空间为5000000*2976+1250000*2016+1000000*768=18G,包括索引以及其他表占用的空间之后,约为20G。原始日志存储到SQL Server中会采用压缩技术,大小将降为5G。

结论:对于接收数据库,采用了压缩和优化技术后,每500万PV至少需要25G的储存空间。

结构化数据的测算依据及结论

康巴什系统政府网站群监测分析调度系统的结构化数据库和原始数据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原始数据的一半,也就是2.5G。

结论:对于结构化数据库,采用了压缩和优化技术后,每500万PV至少需要2.5GB的储存空间。

?分析数据的测算依据及结论

康巴什系统政府网站群监测分析调度系统的分析数据库内容基本是结构化数据库的拷贝,大小与结构化数据库基本一致,也为2.5G。

结论:对于“决策支持系统”的分析数据库,采用了压缩和优化技术后,每500万PV至少需要2.5GB的储存空间。

综上所述,在不做任何备份的情况下,每500万的PV,需要文件存储空间为:25GB + 2.5GB + 2.5GB=30G。

到2015年底的存储量为10.5T,到2019年底的存储量为52.5T,具体测算如下表所示:

2、在线内容数据存储量

?国内外互联网重点渠道和信息源

按照本项目需要面向国内外互联网重点渠道和信息源进行在线内容采集爬取,按照覆盖包括主流媒体在内的200个信息源,每个信息源爬取3级计算,平均每天可以爬取更新的总的页面数约为30万个,每个页面按照100KB计算,共需要占用的空间为30W*1000KB=30G。

到2015年底的存储量为10.8T,到2019年底的存储量为54T,具体测算如下表所示:

康巴什级以上政府网站群

康巴什级以上政府网站群网站内容更新数据主要包括以下三部分:网站更新页面、网站更新的入口,网站更新的白名单。

按照本项目需要涵盖康巴什系统网站群及康巴什各级政府网站群的6500个网站,平均每个网站每天更新10个页面,就是6.5万个。

如果每天爬取10次,就是10×6500=6.5万个入口,每个网站算10个白名单,那就是10×6500×10=65万个白名单。

总共是6.5万+6.5万+65万=78万,共需要占用的空间为78万页*100KB/页=78G。

到2015年底的存储量为28.08T,到2019年底的存储量为140.4T,具体测算如下表所示:

综上所述,系统的数据存储总量如下表所示:

表 3-2 数据量估算表

1.5.2 处理量分析

(1)网站群用户访问行为数据处理量分析

以每天725万个客户端访问(包括500万PV、100万Session、125万Cookie)并发计算,结合在线行为数据的接收主要集中在工作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务器接受每秒钟接收日志请求251个,远远低于系统的每秒接收到的正常数(该值通常为7000-9000)。

根据日志接收每秒钟的并发量为251,因此系统的数据接收只需要再用两台服务器做负载均衡即可。但是为了防止数据接收网站的域名出现单点故障,因此系统的数据接收采用双域名备份,即每个域名对应两台数据接收服务器,一共四台。

根据系统需要满足康巴什政府网站智能分析系统诊断的需要,目前系统的单台服务器的数据处理能力为400家左右,因此需要4台数据库服务器,另外需要两台相同配置的数据库服务器作为备份。

(2)其他在线内容数据处理量分析

一是系统需要支持对不少于108万个数据采集点每天至少一次轮询抓取,同时对抓取回的数据进行数据预处理和清洗入库工作,二是需要实现对存量数据和增量数据的指标自动抽取和更新工作,三是需要支持前台交互系统的交互分析挖掘需求。

结合以上几部分需求,预计所需的内容数据处理服务器约50

相关主题