搜档网
当前位置:搜档网 › 基于Hadoop平台的大数据应用

基于Hadoop平台的大数据应用

项目起源

年秋天作为Lucene 的子项目Nutch 的一部分正式引Google File System(GFS ) 的启发。

优点

高可靠性高扩展性高效性高容错性Hadoop

分布式系统分布式文件系统HDFS MapReduce Doug Cutting

简介

2005200620072008200920102011201220132014201520162017

Spark

pig hbase

zookeeper

hive yarn impala

Hadoop生态系统cassandra

s4

kafka

storm

hadoop

Shark

Spark Streaming

Graphx

SparkSQL

Spark生态系统

SparkMLlib

es

Spark R

Tensorflow On Spark

决策机器学习Spark Hadoop JVM 操作系统

Apache H adoop Clouder a H or tonwor ks M apR

兼容性,安全性,稳定性

麦芽

麦芽

数据应用

数据整理

数据采集

数据分析

精准营销:客户行为洞察,产品精准推广风险管理:客户评级、风险监测体系

采集麦芽体系内及外部数据:

客户基本信息、信用数据、运营商数据等

对收集来的数据进行分析,提取有用信息、形成结论

对所采集的数据,进行标签体系建设

麦芽的核心竞争力:采集、整理、分析和应用工作

kafka

内部推送实时数据目录接口

离线数据

Spark streaming Shell 脚本

HBase

Hive

映射

impala 服务治理

安全认证高并发

数据服务层(dubbox )数据可视化层(JEECG )BI 分析决策

数据存储、计算层

流式计算层

数据源

直调第三方接口数据zookeeper

a z k a

b a n

基于hadoop平台

应用的期望

应用

?实时欺诈交易分析?信用风险评估

?个贷客户全程数据分析

?交叉营销?个性化推荐

?客户生命周期管理?客户流失化分析?客户关联销售

?市场和渠道分析?产品优化?舆情分析

?贷款用户画像?理财用户画像?企业客户画像?保险用户画像?投资用户画像

用户画像运营优化

风险管控

精准营销

画像

大数据时代需要将“人”数据化:“用户画像”

BIG Data = 无处不在的数据

信息化建设

全社会的信息化程度越来越高,越来越多的业务需要计算机应用,用户与这些应用交互产生大量数据可穿戴设备

可穿戴设备甚至可植

入设备将越来越多的

出现在现实生活中

信息网络

无处不在的网络将人

和设备连接在一起,

认识人、与人沟通的

方法将发生本质的变

人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类

方式

验证

目标

标准

组织

用户画像

描述人、认识人、了解人、理解人

结构化、非结构化

非形式化手段:文字、语音、图像、视频…形式化手段

依据:事实、推理过程检验

常识、共识、知识体系

用户画像的几个方面

大数据用户画像:定义

用户画像是对现实世界中用户的数据建模

用户画像是描述用户的数据,是符合特定业务需求的对用户

的形式化描述

源于现实,高于现实用户画像是通过分析挖掘用户尽可能多的数据信息得到的源于数据,高于数据

大数据+洞察

大数据用户画像:构建原则

用户画像

业务知识体系形式化

本体

本体是一种形式化的、对于共享概念体系的明确而又详细的说明

本体提供的是一种共享词表,也就是特定领域之中哪些存在着的对象类型或概念

及其属性和相互关系

本体就是一种特殊类型的术语集,具有结果化特点,且更加试用于计算机系统

之中使用

本体实际上就是对特定领域之中某概念及其项目之间关系的形式化表达

基于本体论的知识表示方法

本体

实例:个体元素

类:个体的集合

关系:类之间的相互作用函数:一种特殊的关系公理:永真断言

本体通常采用谓词逻辑作为描述语言(符号表示、形式化表现)

朴素的知识表示方法:符号-概念

概念

符号

事务

符号化

指的是

朴素的用户画像表示方法:标签-模型

经验总结的用户特征用户特征的符号表现

业务涉及的用户特征

相关主题