搜档网
当前位置:搜档网 › 智慧政务大数据交换共享平台建设解决实施方案

智慧政务大数据交换共享平台建设解决实施方案

目录

第一章需求分析和项目建设的必要性 (4)

1.1 项目建设目标、内容 (4)

1.1.1 项目建设目标 (4)

1.1.2 项目建设内容 (4)

1.2 编制依据 (5)

1.3 与政务职能相关的社会问题和政务目标分析 (6)

1.3.1 社会问题分析 (6)

1.3.2 政务目标分析 (8)

1.4 业务功能、业务流程和业务量分析 (11)

1.4.1 用户角色分析 (11)

1.4.2 业务功能分析 (12)

1.4.3 业务流程 (14)

1.4.4 业务量分析 (14)

1.5 信息量分析和预测 (15)

1.5.1 存储量分析 (15)

1.5.2 处理量分析 (19)

1.5.3 网络流量分析 (20)

1.6 系统功能和性能需求分析 (20)

1.6.1 系统功能指标 (20)

1.6.2 系统性能指标 (22)

1.7 信息系统装备和应用现状与差距 (22)

1.7.1 现状 (22)

1.7.2 差距 (23)

1.8 项目建设的必要性 (23)

第二章总体建设方案 (26)

2.1 建设原则 (26)

2.1.1 统一性原则 (26)

2.1.2 可靠性原则 (26)

2.1.3可伸缩和可扩展性原则 (26)

2.1.4 开放性原则 (27)

2.1.5 安全性原则 (27)

2.1.6 高效性原则 (27)

2.1.7 友好性原则 (27)

2.1.8 可管理易维护性 (28)

2.2 总体目标与分期目标 (28)

2.3 总体建设任务与分期建设内容 (29)

2.4 总体设计方案 (30)

2.4.1 基础设施层 (32)

2.4.2 信息资源层 (33)

2.4.3 应用支撑层 (34)

2.4.4 应用层 (34)

2.4.5 服务层 (34)

2.4.6 安全保障体系 (34)

2.4.7 标准规范体系 (35)

第三章项目建设方案 (36)

3.1 标准规范建设 (36)

3.1.1 管理制度建设 (36)

3.1.2 标准规范建设 (40)

3.1.3 数据标准建设 (43)

3.1.4 标准规范索引 (46)

3.2 信息资源规划和数据库设计 (47)

3.2.1 信息资源规划 (47)

3.2.2 数据中心建设 (53)

3.3 门户系统建设 (69)

3.3.1 信息资源政务门户 (69)

3.3.2 信息资源开放门户 (73)

3.4 应用系统建设 (74)

3.4.1 数据汇聚平台 (74)

3.4.2 数据治理平台 (89)

3.4.3 数据运营平台 (102)

3.4.4 数据应用平台 (104)

3.5 四大基础数据库管理平台 (108)

3.5.1 人口库 (108)

3.5.2 法人库 (111)

3.5.3 经济库 (114)

3.5.4 地理库 (115)

3.6 应用支撑系统设计 (116)

3.6.1 统一用户管理 (116)

3.6.2 统一应用管理 (120)

3.6.3 统一服务管理 (121)

3.6.4 统一消息服务 (123)

3.6.5 统一日志服务 (124)

3.7 安全保障体系建设 (124)

3.7.1 建设目标 (124)

3.7.2 安全体系架构 (125)

3.7.3 安全防护体系建设 (125)

3.7.4 安全管理体系建设 (133)

3.8 主要软硬件选型原则和详细软硬件配置清单 (136)

3.8.1 主要软硬件选型原则 (136)

3.8.2 详细软硬件配置清单 (137)

第四章效益分析 (138)

4.1 经济效益 (138)

4.2 社会效益 (140)

第五章项目风险与风险管理 (142)

5.1 风险识别和分析 (142)

5.1.1 组织风险 (142)

5.1.2 管理风险 (142)

5.1.3 业务风险 (142)

5.1.4 技术风险 (142)

5.2 风险对策和管理 (143)

5.2.1 组织风险防范对策 (143)

5.2.2 管理风险防范对策 (143)

5.2.3 业务风险防范对策 (144)

5.2.4 技术风险防范对策 (144)

**政务大数据交换共享平台建设方案

第一章需求分析和项目建设的必要性1.1 项目建设目标、内容

1.1.1 项目建设目标

电子政务公共数据开放共享平台项目建设目标是,依托统一的“云”数据中心建设统一的公共数据开放共享平台。集中机关各部门业务应用进行,制定相关的数据规范和信息交换标准,使机关各部门业务系统依托统一的开放平台进行开发建设。确保部门之间系统之间的互联互通、数据共享,为大数据分析提供数据依据。

1.1.2 项目建设内容

电子政务公共数据开放共享平台项目建设内容包含:一套标准规范、两个数据门户、四大应用平台、四大基础数据库和一个应用支撑平台。

具体建设内容包括:

1、一个应用支撑平台

为了对需要调用电子政务公共数据开放共享平台信息资源的政府部门应用系统进行有效管理,面向各类电子政务应用,规划建设统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、服务管理等核心组件,可以对接入系统有效管理、实现统一认证及单点登录、统一消息服务。

2、两个数据门户

针对政府部门用户建设信息资源政务门户,针对企业、公众用户建设信息资源开放门户。

3、四大应用系统

建设承载电子政务公共数据汇聚平台、数据治理平台、数据运营平台和数据应用平台。

4、四大基础数据库

通过电子政务信息资源梳理,制定四大基础数据库的建库、入库和管理规则,建立四大基础数据库管理平台,提供基础库内容管理、数据处理、共享和应用功能。

四大基础数据库包括人口库、法人库、经济库和地理库。

5、一套标准规范

形成标准规范体系,包括管理制度、标准规范、数据标准等。

1.2 编制依据

1、中办、国办《2006-2020年国家信息化发展战略》;

2、国办《关于促进电子政务协调发展的指导意见》;

3、国务院《促进大数据发展行动纲要》;

4、《国家电子政务总体框架》;

5、《国家电子政务“十二五”规划》(工信部规〔2011〕567号);

6、《关于印发“十二五”国家政务信息化工程建设规划的通知》(发改高技〔2012〕1202号);

7、《GB/T 21063-2007 政务信息资源目录体系》

8、《GB/T 21062-2007 政务信息资源交换体系》

9、《国家电子政务工程建设项目管理暂行办法》

10、《政府信息公开条例》

1.3 社会问题和政务目标分析

1.3.1 社会问题分析

作为世界人口大国,理论上我国数据资源储量极为丰富,但大部分政府数据(例如:交通、社保、税收等),属于结构化数据,距离海量(volume)、速度(velocity)和多样性(variety)的 3V属性还有一定距离,但从战略角度而言差距并不大。

从数据规模来说,政府拥有国内最为庞大的数据储量。政府数据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待存储与处理。

从数据来源来说,由于各行业、各地采用的法律法规和标准并不统一。传统的电子政务信息系统,仅为满足特定功能而生,数据结构差异性大,大量数据存放于历史遗留应用中,委办局间碎片化、零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极为复杂。

从数据质量和价值来说,企业的数据种类单一化程度较高,而政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁

多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十分可观。

如上所述,政府数据的特点可以概括为:数据规模大、数据来源和结构复杂、数据价值高但利用率低。

政府收集了大量有价值的数据,通过这些数据,可以更好地了解国家资源使用情况,政府开支情况,土地交易和管理情况,这些将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为人民提供更多更好的服务选择。

1、政府数据体量越来越大

截至2014 年,中国共有664 个城市,2852 个行政县,40446 个行政乡。当前,中国中央和省级政务部门主要业务电子政务覆盖率已经达到70%。据粗略估算,全国政府大数据加起来相当于数百个阿里巴巴的体量。而随着硬件技术的进步,对于数据采集精度、采集频率、数据存储等能力在增强,使得数据规模仍有提升空间,近几年数据中心的新建和扩容呈现井喷式的发展,这是以硬件基础设施带动的变革,促使软件技术也得到了快速发展。

随着数据体量的增长,大数据处理、大数据应用分析的门槛将会逐渐提高。

2、多部门协作成为常态化

复杂的城市治理问题,对跨部门的协作提出了更高的要求,过去个别部门间存在的职责交叉分散、协调运行不畅等问题。随着“大部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部

门、一个政府”目标。随着部门与部门的边界越来越模糊,政府数据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为政府大数据建设的入门。

3、国家治理不能仅仅依靠政府

由于时间和技术的局限性,以往国家治理基本是政府下达指令、向下逐层执行的“开环过程”。如今随着互联网发展,人民对于政府的期望越来越高,国家不仅要在政策出台前广泛征求、准确把握民意;出台后还需要获得执行反馈,并适时调整,政府治理变为下达指令—执行—反馈的“闭环过程”,需要借助社会各方面力量参与到国家治理过程之中。无论是社会自治还是合作共建,政府数据共享开放都是大前提。

4、社会普遍开始重视数据安全和隐私

数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患,随着全球各地用户信息安全事件频出,让人们开始感受到“数据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。数据安全和隐私保护不仅是公民个人的责任,对采集数据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过程中,政策、技术、意识缺一不可。需严格依照相关规范文件,将安全运营意识渗透到政府数据开放中。

1.3.2 政务目标分析

1、实现政务公开,打造透明政府

电子政务公共数据开放共享促进政府和公众互动,让政务透明,帮助政府进行社会管理和解决社会难题,大数据时代下,政府是整合开放的平台,是一个大数据共享平台,它建立了公众与政府间的沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线交互让民众成为政务流程的节点,透明政务,让公众参与到政策制定与执行、效果评估和监督之中,使民众参政议政成为可能。大数据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促进经济社会快速发展。

2、实现数据融合,打造智慧政府

电子政务公共数据开放共享真正跨越了政府内部协同的鸿沟,大大提高工作效率,降低政府运行成本。其一,政府内部协同除思想理念上的障碍外,技术上也存在一定障碍,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部纵向、横向部门得以流畅协同。其二,由于利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降低了政府开支。例如,政府利用大数据对社会人群进行细分,对不同人群进行针对性服务和政策施行。

3、实现科学决策,打造责任政府

电子政务公共数据开放共享提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,越来越多的政府摈弃经验和直觉,依赖电子政务的数据和分析进行决策。现在大数据又超越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图

表等都可以进行深度挖掘、人工智能。大数据的深入及广泛应用会给政府带来科学和精准的决策支持。

4、为**电子政务提供一个安全可靠的信息资源存储中心

对各部门的共享交换的数据资源进行统一的规划管理和应用,建设集约化的数据资源存储中心,从而避免了各部门重复建设工作;同时提高数据安全方面的建设,从硬件设备、网络、信息资源、应用系统、管理平台、数据库等方面的全面保证数据的安全性,并根据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的安全设计,并在应用服务上提供安全检测服务。

5、为**电子政务提供一个高效的应用服务平台

**电子政务公共数据开放共享平台的建设,为政府应用系统和信息资源的高效管理和服务提供手段,通过对相关的基础信息、业务信息、服务信息进行管理,实现**电子政务公共数据开放共享平台的信息管理和服务功能。城市级交换共享平台则对各部门的信息资源提供交换共享支撑,以提高信息资源的综合利用水平。通过整合各部门数据信息,建设基础信息库,并提供对外服务,实现**电子政务公共数据开放共享平台的服务功能。

6、为**电子政务提供一个长效和可维护的信息服务体系

**电子政务公共数据开放共享平台的建设要对**电子政务体系提供长久的服务,因此在管理和运维上必需配备相应的支撑。这一方面取决于管理制度的完善、管理手段的完备和对管理本身的技术支撑,另一方面,也取决于人员的配备和运维体系的建立。

1.4 业务功能、业务流程和业务量分析

1.4.1 用户角色分析

**电子政务公共数据开放共享平台的用户分为:领导、各部门、企业单位及社会公众。

1.4.1.1 政府领导

**电子政务公共数据开放共享平台有价值的数据、行政地图、决策方法和应急进行融合,采用大数据分析技术,有利于各级领导、管理决策人员方便、直观、形象地进行各种分析,从而使统计决策的科学化、人性化、智能化管理走上一个新台阶。

1.4.1.2 政府部门

可以向**电子政务公共数据开放共享平台提供数据或使用平台提供的数据;业务部门之间可以通过系统平台交换共享数据;遵循标准规范进行业务系统的建造和改进,可实现业务系统和数据开放共享平台的对接。

1.4.1.3 社会公众

可以依托**电子政务公共数据开放共享平台提供的应用服务对公众需求做出快速反应,公众可以更直接广泛的获得政府提供的服务,如证照协同、社保电子传递等。

1.4.1.4 企业单位

通过**电子政务公共数据开放共享平台提供的应用服务可以方

便企业进行业务级信息查询,并可通过业务协同对企业提供事项审

批、信息推送服务。

1.4.2 业务功能分析

1.4.

2.1 数据共享

在政府部门内部强调的是共享共用。先把政府部门内部及部门

之间数据共享的工作做起来。各级政府都以数据应用为导向,需要

什么数据就共享什么数据。

部门间的信息共享,综合考虑管理难度和技术难度建议分为三

个阶段:“条线内部门共享”、“平级跨部门共享”、“跨层级和跨区域的共享”,通过统一规划,逐步推进的策略,打造部门间信息资源共

享共用的新格局。

1.4.

2.2 数据开放

对社会的数据开放,先从方便百姓生活又不是很敏感的数据开

始。特别是涉及公共安全、公共利益的数据,提供公共服务的机构

或企业有义务在一定前提条件下开放,这样一些可以预警、预防的

群体性事件就能够避免。

按照社会关注程度、数据量大小和具体实施难度,数据开放建

议分为三个阶段:“业务统计数据”、“少量高频数据”、“重点业务数据”。通过以安全为前提,重点关注优先试点,逐步扩大范围为原则,

稳步推行数据服务开放。

1.4.

2.3 数据融合

政务大数据归根结底,还是要面向行业应用的,需要基于不同

的业务部门开展,并和现有平台建立联系。

融合应用可以分为“数据融合”、“业务融合”、“产业融合”三个层次:其中,数据融合是把本单位数据、从其他单位共享的数据,以

及互联网等社会相关的数据,相互融合,相互比对,建立融合数据

资源中心,统一数据标准和口径。

业务融合主要围绕各行业的特定业务场景,比如交通出行、医

疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分

析体系,支撑城市运行和城市治理的方方面面。

产业融合,随着一大批大数据处理、大数据分析、大数据运营

企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平

台,数据交易平台等形式,引入社会资本共同参与城市建设和社会

治理,实现向集约型、服务型、智慧型政府的转变。

1.4.3 业务流程 开 始 从 缓 冲 区 增 量 数 据 表 中 获 取 人 口 增 量 数 据 根 据 证 件 类 型 判 断 证 件 号 是 否 符 合 规

范 否 通 过 证 件 号 判 断 该 人 是 否 存 在 于 人 口 主 表 中 将 该 条 增 量 数 据 插 入 异 常 表 中 否 是 将 人 口 库 【 人 口 增 量 数 据 表 】 中 该 人 口 记 录 删 除 通 过 【 部 门 业 务 系 统 提 供 字 段 配 置 表 】 得 到 该 业 务 系 统 需 采 集 的 字 段 且 循 环 这 些 字 段 判 断 人 口 库 该 字 段 值 的 来 源 是 否 是 该 业 务 系 统 将 该 人 口 记 录 插 入 到 【 人 口 基 础 信 息 表 】 及 【 专 题 表 】 是 是 否 根 据 证 件 号 码 和 类 型 更 新 【 人 口 基 础 信 息 表 】 及 【 专 题 表 】 的 字 段 否 判 断 新 采 集 的 字 段 值 是 否 为 空 否 将 该 人 口 记 录 字 段 来 源 插 入 到 【 字 段 来

源 表 】 判 断 人 口 库 库 该 字 段 值 是 否 为 空 否 否 判 断 该 业 务 系 统 的 数 据 是 是 否 是 业 务 上 的 新 增 ? 否 是 根 据 证 件 号 码 和 类 型 更 新 【 人 口 基 础 信 息 表 】 及 【 专 题 表 】 的 字 段 值 是 判 断 该 业 务 系 统 是 否 为 该 字 段 的 权 威 来 源 更 新 【 字 段 来 源 表 】 中 该 字 段 的 来 源 循 环 人 口 库 需 采 集 该 业 务 系 统 的 字 段 是 否 结 束 将 人 口 库 【 人 口 增 量 数 据 表 】 中 该 人 口 记 录 删 除 结 束 1.4.4 业务量分析

业务量分析可以从平台交互量、每天总用户数(个)、每天每个

用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高 峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进 行综合估算。**互联网大数据分析平台的业务量估算如下表所示:

表 3-1 业务量估算

序号 数据名称

平台交互量

数据量 200(日均) 100 1 2 3 每天总用户数(个)

每天每个用户平均执行操作数

高峰时段交互量占全天交互量的

百分比

1000 4 60%

序号

数据名称 数据量 4(9:00-11:00,15:00-17:00) 60(日均)

5

6 高峰时段持续时间(小时)

高峰时段在线用户数(个)

1.5 信息量分析和预测

1.5.1 存储量分析 本项目中存储的数据主要包括两大部分:系统网站群的在线行

为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内 容数据。在线用户行为数据以符合 W3C 格式标准的日志形式进行存 储。网站内容更新数据直接存到关系型数据库或其他非关系型数据 库中。

1、在线行为数据存储量

网站群的在线行为数据存储主要分为三部分:

(1)接收数据,是系统储存的原始数据。

(2)结构化数据,将原始数据进行数据清洗和去重后进行结构

化后存储。

(3)分析数据库,将结构化的数据进行分析预计算后存储。

按照本项目需要涵盖**系统网站群的 500个网站,每个网站的

日平均访问按照 10000个 PV 计算,预计每日需要处理的总的 PV 数 为 500万。

接收数据的测算依据及结论

其中接收数据库的主要条目占用空间,如下表所示:

单个 PV 所要储存的信息 空间大小(字节) 访问路径信息

1600

来源路径信息 1120 其他信息(会话标识、Cookie 标识、时间信息等) 256 汇总 2976 单个 Session 所要储存的信息(1个 Session 大约产生 4PV ) 访问路径信息 512

1120 128 来源路径信息 客户端信息(IP 、浏览器等) 其他信息(会话标识、Cookie 标识、时间信息等) 256 汇总 2016 单个 Cookie 所要储存的信息(1个 Cookie 大约产生 1.25Session)

访问路径信息 512

256

768

其他信息(Cookie 标识、时间信息等) 汇总 例如:

按照其他同类项目的数据估算,PV 和 Session 数量比为 4:1,

Session 和 Cookie 的数量比为 1.25:1。则 500万的 PV 会产生 125

万 的 Session 以 及 产 生 100 万 的 Cookie , 总 占 据 空 间 为 5000000*2976+1250000*2016+1000000*768=18G ,包括索引以及其他 表占用的空间之后,约为 20G 。原始日志存储到 SQL Server 中会采 用压缩技术,大小将降为 5G 。

结论:对于接收数据库,采用了压缩和优化技术后,每 500 万

PV 至少需要 25G 的储存空间。

结构化数据的测算依据及结论

**系统政府网站群监测分析调度系统的结构化数据库和原始数 据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结 构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原 始数据的一半,也就是 2.5G 。

结论:对于结构化数据库,采用了压缩和优化技术后,每 500 万 PV 至少需要 2.5GB 的储存空间。

分析数据的测算依据及结论

**系统政府网站群监测分析调度系统的分析数据库内容基本是

结构化数据库的拷贝,大小与结构化数据库基本一致,也为 2.5G 。

结论:对于“决策支持系统”的分析数据库,采用了压缩和优

化技术后,每 500万 PV 至少需要 2.5GB 的储存空间。

综上所述,在不做任何备份的情况下,每 500万的 PV ,需要文

件存储空间为:25GB + 2.5GB + 2.5GB=30G 。

到 2015年底的存储量为 10.5T ,到 2019年底的存储量为 52.5T , 具体测算如下表所示:

接收日志 明细 汇总数据 合计 875G 单月数据量(G)

保留周期(月)

25*30=750 2.5*30=62.5 2.5*30=62.5 60 60 60 60 一年内需要存储

五年内需要存储 9000 45000 750 750 10.5T 52.5T

3750 3750 2、在线内容数据存储量

国内外互联网重点渠道和信息源

按照本项目需要面向国内外互联网重点渠道和信息源进行在线

内容采集爬取,按照覆盖包括主流媒体在内的 200个信息源,每个 信息源爬取 3级计算,平均每天可以爬取更新的总的页面数约为 30

万 个 , 每 个 页 面 按 照 100KB 计 算 , 共 需 要 占 用 的 空 间 为

30W*1000KB=30G 。

到 2015年底的存储量为 10.8T,到 2019年底的存储量为 54T,具体测算如下表所示:

国内外互联网重点渠道和信息

源单月数据量(G)

一年内需要存储

五年内需要存储30万*30=900G

10.8T

54T

**级以上政府网站群

**级以上政府网站群网站内容更新数据主要包括以下三部分:网站更新页面、网站更新的入口,网站更新的白名单。

按照本项目需要涵盖**系统网站群及**各级政府网站群的6500个网站,平均每个网站每天更新 10个页面,就是 6.5万个。

如果每天爬取 10次,就是 10×6500=6.5 万个入口,每个网站算 10个白名单,那就是 10×6500×10=65 万个白名单。

总共是 6.5万+6.5万+65万=78万,共需要占用的空间为 78万

页*100KB/页=78G。

到2015 年底的存储量为28.08T,到2019 年底的存储量为140.4T,具体测算如下表所示:

更新页面数据6.5*30=195

2.34T 网站入口数据白名单数

合计

单月数据量(G) 一年内需要存储五年内需要存储

6.5*30=195 65*30=1950 2340G

2.34T

11.7T

23.4T

117T

28.08T

140.4T 11.7T

综上所述,系统的数据存储总量如下表所示:

表3-2 数据量估算表

序号数据名称初始量

10.5T 5年内的增量

1 2

在线行为数据52.5T

54T 互联网重点渠道和信息

**团以上政府网站群

10.8T

3 28.08T

49.38T 140.4T 246.9T

合计

1.5.2 处理量分析

(1)网站群用户访问行为数据处理量分析

以每天 725万个客户端访问(包括 500万 PV、100万 Session、125万 Cookie)并发计算,结合在线行为数据的接收主要集中在工作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务

器接受每秒钟接收日志请求 251个,远远低于系统的每秒接收到的正常数(该值通常为 7000-9000)。

根据日志接收每秒钟的并发量为251,因此系统的数据接收只需要再用两台服务器做负载均衡即可。但是为了防止数据接收网站的域名出现单点故障,因此系统的数据接收采用双域名备份,即每个域名对应两台数据接收服务器,一共四台。

根据系统需要满足**政府网站智能分析系统诊断的需要,目前系统的单台服务器的数据处理能力为 400家左右,因此需要 4台数据库服务器,另外需要两台相同配置的数据库服务器作为备份。

(2)其他在线内容数据处理量分析

一是系统需要支持对不少于 108万个数据采集点每天至少一次轮询抓取,同时对抓取回的数据进行数据预处理和清洗入库工作,二是需要实现对存量数据和增量数据的指标自动抽取和更新工作,三是需要支持前台交互系统的交互分析挖掘需求。

结合以上几部分需求,预计所需的内容数据处理服务器约50 台。其中较高性能处理服务器(单机20 核服务器CPU:2660*2 MEM:144G DISK:SSD 480G*2+SAS 4T*6,万兆网卡,远程管理,双电

源)10 台,中等性能处理服务器(单机12 核服务器,CPU:2620*2 MEM:32G DISK:4T*10,万兆网卡,远程管理,双电源)10台。较低性能服务器(单机12 核服务器,CPU:2620*2 MEM:72G DISK:SSD 480G*2+SAS 600G*4,万兆网卡,远程管理,双电源)30台。

1.5.3 网络流量分析

按每天处理 725万在线行为数据,每条数据为 10KB大小,108 万条在线内容数据,每条 100KB计算,需要的平均带宽为 17Mbps,高峰时期按 3倍带宽需求计算为:51Mbps,GE链路接入可以满足需求,出于冗余考虑,建议使用双 GE链路(主备)进行接入。

1.6 系统功能和性能需求分析

1.6.1 系统功能指标

1.6.1.1 数据存储功能

政府数据量很大,海量数据的处理与传统架构完全不同,原有小型机加商业数据库的方式已不能完全胜任,部分领域数据需要引入新架构。大数据存储于处理架构包括分布式存储、分布式资源管理及分布式文件架构。

1.6.1.2 数据汇聚功能

数据汇聚功能要求实现将各部门相关的信息资源统一采集交换到数据中心前置库中,满足多种采集方式,能够满足不同的网络环境、不同的数据类型等情况下进行数据的采集,并对采集的数据进

相关主题