当前位置:首页 >> 互联网 >>

Intel Bigdata Roadshow PPT(公开版)


英特尔大数据解决方案 电信,金融,医疗行业
?Presenters Name ?Title / Position Organization ?May 21 2013

1

INTEL CONFIDENTIAL, FOR INTERNAL USE ONLY

Legal Disclaimer
INFORMATION IN THIS DOCUMENT IS PROVIDED IN CONNECTION WITH INTEL PRODUCTS. NO LICENSE, EXPRESS OR IMPLIED, BY ESTOPPEL OR OTHERWISE, TO ANY INTELLECTUAL PROPERTY RIGHTS IS GRANTED BY THIS DOCUMENT. EXCEPT AS PROVIDED IN INTEL'S TERMS AND CONDITIONS OF SALE FOR SUCH PRODUCTS, INTEL ASSUMES NO LIABILITY WHATSOEVER AND INTEL DISCLAIMS ANY EXPRESS OR IMPLIED WARRANTY, RELATING TO SALE AND/OR USE OF INTEL PRODUCTS INCLUDING LIABILITY OR WARRANTIES RELATING TO FITNESS FOR A PARTICULAR PURPOSE, MERCHANTABILITY, OR INFRINGEMENT OF ANY PATENT, COPYRIGHT OR OTHER INTELLECTUAL PROPERTY RIGHT. ? A "Mission Critical Application" is any application in which failure of the Intel Product could result, directly or indirectly, in personal injury or death. SHOULD YOU PURCHASE OR USE INTEL'S PRODUCTS FOR ANY SUCH MISSION CRITICAL APPLICATION, YOU SHALL INDEMNIFY AND HOLD INTEL AND ITS SUBSIDIARIES, SUBCONTRACTORS AND AFFILIATES, AND THE DIRECTORS, OFFICERS, AND EMPLOYEES OF EACH, HARMLESS AGAINST ALL CLAIMS COSTS, DAMAGES, AND EXPENSES AND REASONABLE ATTORNEYS' FEES ARISING OUT OF, DIRECTLY OR INDIRECTLY, ANY CLAIM OF PRODUCT LIABILITY, PERSONAL INJURY, OR DEATH ARISING IN ANY WAY OUT OF SUCH MISSION CRITICAL APPLICATION, WHETHER OR NOT INTEL OR ITS SUBCONTRACTOR WAS NEGLIGENT IN THE DESIGN, MANUFACTURE, OR WARNING OF THE INTEL PRODUCT OR ANY OF ITS PARTS. ? Intel may make changes to specifications and product descriptions at any time, without notice. Designers must not rely on the absence or characteristics of any features or instructions marked "reserved" or "undefined". Intel reserves these for future definition and shall have no responsibility whatsoever for conflicts or incompatibilities arising from future changes to them. The information here is subject to change without notice. Do not finalize a design with this information. ? The products described in this document may contain design defects or errors known as errata which may cause the product to deviate from published specifications. Current characterized errata are available on request. ? Intel product plans in this presentation do not constitute Intel plan of record product roadmaps. Please contact your Intel representative to obtain Intel's current plan of record product roadmaps. ? Intel processor numbers are not a measure of performance. Processor numbers differentiate features within each processor family, not across different processor families. Go to: http://www.intel.com/products/processor_number. ? Contact your local Intel sales office or your distributor to obtain the latest specifications and before placing your product order. ? Copies of documents which have an order number and are referenced in this document, or other Intel literature, may be obtained by calling 1-800-548-4725, or go to: http://www.intel.com/design/literature.htm ? Grizzly Pass, Big Horn Peak, Jefferson Pass, Bobcat Peak and other code names featured are used internally within Intel to identify products that are in development and not yet publicly announced for release. Customers, licensees and other third parties are not authorized by Intel to use code names in advertising, promotion or marketing of any product or services and any such use of Intel's internal code names is at the sole risk of the user ? Intel, Sponsors of Tomorrow and the Intel logo ,Xeon, Xeon Inside are trademarks of Intel Corporation in the United States and other countries. ? *Other names and brands may be claimed as the property of others. ? Copyright ?2013 Intel Corporation.

Risk Factors
The above statements and any others in this document that refer to plans and expectations for the first quarter, the year and the future are forward-looking statements that involve a number of risks and uncertainties. Words such as “anticipates,” “expects,” “intends,” “plans,” “believes,” “seeks,” “estimates,” “may,” “will,” “should” and their variations identify forward -looking statements. Statements that refer to or are based on projections, uncertain events or assumptions also identify forward-looking statements. Many factors could affect Intel’s actual results, and variances from Intel’s current expectations regarding such fac tors could cause actual results to differ materially from those expressed in these forward-looking statements. Intel presently considers the following to be the important factors that could cause actual results to differ materially from the company’s expectations. D emand could be different from Intel's expectations due to factors including changes in business and economic conditions; customer acceptance of Intel’s and competitors’ products; supply constraints and other disruptions affecting customers; changes in customer order patterns including order cancellations; and changes in the level of inventory at customers. Uncertainty in global economic and financial conditions poses a risk that consumers and businesses may defer purchases in response to negative financial events, which could negatively affect product demand and other related matters. Intel operates in intensely competitive industries that are characterized by a high percentage of costs that are fixed or difficult to reduce in the short term and product demand that is highly variable and difficult to forecast. Revenue and the gross margin percentage are affected by the timing of Intel product introductions and the demand for and market acceptance of Intel's products; actions taken by Intel's competitors, including product offerings and introductions, marketing programs and pricing pressures and Intel’s response to such actions; and Intel’s ability to respond quickly to technological developments and to incorporate new features into its products. The gross margin percentage could vary significantly from expectations based on capacity utilization; variations in inventory valuation, including variations related to the timing of qualifying products for sale; changes in revenue levels; segment product mix; the timing and execution of the manufacturing ramp and associated costs; start-up costs; excess or obsolete inventory; changes in unit costs; defects or disruptions in the supply of materials or resources; product manufacturing quality/yields; and impairments of long-lived assets, including manufacturing, assembly/test and intangible assets. Intel's results could be affected by adverse economic, social, political and physical/infrastructure conditions in countries where Intel, its customers or its suppliers operate, including military conflict and other security risks, natural disasters, infrastructure disruptions, health concerns and fluctuations in currency exchange rates. Expenses, particularly certain marketing and compensation expenses, as well as restructuring and asset impairment charges, vary depending on the level of demand for Intel's products and the level of revenue and profits. Intel’s results could be affected by the timing of closing of acquisitions and divestitures. Intel’s current chief executive officer plans to retire in May 2013 and the Board of Directors is working to choose a success or. The succession and transition process may have a direct and/or indirect effect on the business and operations of the company. In connection with the appointment of the new CEO, the company will seek to retain our executive management team (some of whom are being considered for the CEO position), and keep employees focused on achieving the company’s strategic goals and objectives. Intel's results could be affected by adverse effects associated with product defects and errata (deviations from published specifications), and by litigation or regulatory matters involving intellectual property, stockholder, consumer, antitrust, disclosure and other issues, such as the litigation and regulatory matters described in Intel's SEC reports. An unfavorable ruling could include monetary damages or an injunction prohibiting Intel from manufacturing or selling one or more products, precluding particular business practices, impacting Intel’s ability to design its products, or requiring other remedies such as compulsory licensing of intellectual property. A detailed discussion of these and other factors that could affect Intel’s results is included in Intel’s SEC filings, including the com pany’s most recent Form 10-Q, report on Form 10-K and earnings release. Rev. 1/17/13

关于性能测试

? 在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行 了优化。诸如SYSmark和MobileMark等测试均系基于特定计算机系统、 硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测 试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用 时的运行性能)以对目标产品进行全面评估。 ? 更多信息敬请登陆http://www.intel.com/performance

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

Hadoop 可以帮到您什么?

1
高级分析

2个 核心使用模式 应用到多个行业
业界术语
社交网络分析 内容优化

行业

业界术语
点击流会话化 订阅

2
数据处理

Web 媒体

网络分析

电信
零售

计费调解

客户忠诚度 & 促销分析

数据工厂工具

诈骗分析

金融
政府 生物信息

贸易调解

实体分析

符号翻译解码 基因组定位

序列分析

7

传统商业企业数据结构 vs. 大数据结构
Data Delivery Data Management
Near Real-time Data Transfer

Data Usage

Structured Data

OLTP DB
ERP ERP Application Application

OLAP Oracle, OLAP DB2 (DW)
Batch Load

E T L

SAP ERP Applicat MDM ion Servers Servers

B B I I

Value By Location

Structured Data Services

OLTP DB
ERP CRM Application Application

Data Data Mart Mart
B B I I

Data Data Mart Mart
B B I I

Data As A Service

Unstructured Data – Facebook Twitter Sensor Google+ LinkedIn Documentation

Distributed File & Analytics Structures

Insight

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

大数据同传统电信系统的区别
一致性和可用性设计方向,非线性扩容
获取和转化

存储方式

计算模式

交互使用方式

传统

? ? ?

结构化数据 以写为主的架构 有ETL系统支持

? ? ?

网格集中存储 采用传统的关系型 数据库 最后的备份加载在 磁带上

? ? ?

移动数据到计算资 源端,采用RMDBS 计算方式 集中计算模式 加载数据到仓储系 统中

数据集市 传统数据库查询, 需中间件 ? 停机扩容 ? 数据经过转换,低 的保真度 ? ?

大数据

结构化或非结构 化数据 ? 所有的数据 ? 读的架构 ?

? 本地磁盘存储架构 ? 采用多份写冗余备 份方式 ? 非结构化数据储存 ? K-Value存储方式 ? 无需磁带备份设备

? ? ?

移动计算资源到数 据端 采用Map-Reduce或 Hbase/Hive等计算 方式 读的架构

? ? ?

可动态扩容 数据库方式或直接 查询 保持原始数据,数 据有高保真度

可用性和分区容忍性设计方向,线性扩展
Page 10

电信行业适用的场景
? 海量数据存储
? 需求:廉价的PB级海量存储空间,提供高聚合带宽访问, 不间断服务的动态扩容 ? 业务类型:log日志存储和分析,运营商搜索服务,中移动MM/中电信天翼内容下载, 运营商视频内容存储等 ? 解决方案:Intel IDH, 中移动大云,Intel Lustre, Redhat Gluster

? ETL类应用
? 需求: 数据量大,需求灵活多变,能提供高聚合带宽访问
? 解决方案:Intel IDH, 亚联橘云,中移动大云服务,华为hadoop服务

? 查询系统
? 需求:海量数据储存(>1TB),海量数据查询,后期有分析统计要求

? 应用类型:详单查询, 上网记录查询, 投诉系统查询
? 解决方案:Intel IDH, 亚联橘云

? 话单分析或处理系统
? 需求:海量数据储存(>1TB),海量数据查询,后期有分析统计要求

? 应用类型:在线2G/3G话单处理, WAP内容分析,SMS监控和分析,Log日志分析,视频 文件分析
? 解决方案:Intel IDH, 中移动大云服务

那些不适用的场景
? 非海量数据处理, 数据量小于1TB
? 典型案例:用户数少的省公司系统 ? 适用的解决方案:Oracle RMDBS 11g, Oracle TT, IBM DB2, Gbase, EMC Greenplum 等.

? 无并发处理能力要求的系统
? 适用的解决方案:Oracle RMDBS 11g, MS SQL server, Oracle TT, IBM DB2, Gbase, mySQL等.

? 对数据一致性和唯一性要求高的系统
? 典型案例:实时计费系统 ? 适用的解决方案:Oracle RMDBS 11g, Sysbase, IBM DB2等.

? 不希望改动传统软件架构的应用
? 适用的解决方案:Oracle RMDBS 11g, IBM DB2, MS SQL2010, GBase等.

案例分享一
某省级通信运营商清帐单查询系统

某省运营商清帐单系统关键需求
一、必须能够高效处理海量数据
? 单月清单数据量约1000亿条×1k/条=100TB,6个月总量高达600TB(6 + 1) ~ 700 T

? 从600TB清单数据中检索某用户某个月的清单记录,响应时间应小于1秒
? 支持高峰期每秒2000个并发访问查询 ? 满足现在清帐单业务的查询统计需求(23类) ? 实时入库,清单文件无积压。(清单文件最大2万条,最小1条记录。实时生产,平 均每秒2个20MB的清单文件,高峰期到每秒10个20MB文件) ? 对联机分析必须提供标准编程接口,支持SQL/JDBC/ODBC等

二、高可扩展和高可用
? 用户程序查询数据不需要知道底层细节,比如数据分布细节
? 可以水平扩展 ? 允许多台机器故障的场景下,业务不中断

为什么采用Hadoop解决方案
原有系统方案1-小型机+存储+Oracle 一、成本高、扩展性差

? 价格昂贵:
? 服务器采用P595的两个分区(48CPU),部署不同的地市,互为主备; 存储使用2台DS8300,RAID5方式,有效容量54TB。

? 数据量大,增长迅速,但数据库的扩容工程施工风险高。
二、数据风险高 ? 灾难恢复依赖磁带,业务中断时间长。 三、效率低 ? 关系数据库处理困难,查询慢(超过15秒)

? 关系数据库入库慢,常有清单文件积压,不能实时入库,从而不能实
时查询。

为什么采用Hadoop解决方案
? 原有系统方案2-小型机+存储+文件 ?原有清单中心基于266字节的格式,提供清单入库和查询、批量导出、统计功能。 ?原有清单中心采用传统小型机+存储架构。服务器采用P595的两个分区(48CPU),部署不同的 地市,互为主备;存储使用2台DS8300,RAID5方式,有效容量54TB,保存6+1个月数据,其中小 部分为数据库数据(查询日志、统计数据),大部分为详单文件数据,压缩存放,压缩比1:5。 ?当天的清单在内存,凌晨再写入磁盘。清单采用文件方式,需要专门开发程序支持批量导出、 统计等功能。无法像数据库一样进行规范化语言处理。
计费系统,实销系统
图示说明 功能模块 接口

融合计费核 融合计费核 心交换机 心交换机

清单
文件系统

系统 实体 话单/帐单流

IP网络

实 时 索 引
实时处理 事件触发或定时

分 流

预 处 理

采 集

在线详单 排 序 、 归 并 索 引 、 压 缩
文件系统

详 单 备 份

离线详单
备份介质-磁 带
离线查询

详单应用 详单应用 处理主机 处理主机1 1 (P595) (P595)

详单应用 详单应用 处理主机 处理主机2 2 (P595) (P595)

指向详单

详单索引

在线查询

详单查询系统

详 单 查 询

数据库

查 询 接 口

外围查询系统

磁盘阵列1 (DS8300)

磁盘阵列2 (DS8300)

? 11年,集团颁布了新清账规范,增加了清单关联产品、请账单一致性等众多要求,原有清单需要扩充到 1024字节。另外根据集团要求,要给预付费用户提供详细的账单,提供未出账账单查询的能力。如果在现 有基础上扩容,需要增加近4倍存储和2倍主机,投资大(硬件预计需要2200万)且很难实现灵活的清单需求。

基于英特尔Hadoop发行版的清帐单系统架构
? 清帐单中心现有架构采用了基于hadoop的分布式文件系统HDFS,数据存储则采用了 分布式数据库hbase,同时结合云计算的其他组件构成.如下图所示

Intel Hadoop 集群 清单 BOSS 清帐单 原始数 据 (3 台 FTP 服务器) 导入 HBase Thrift Intel Hadoop分布 式数据库 服务 器

清单查询接口

帐单查询接口 用户账单批量 生成

账单 CXBILL 导入

Intel Hadoop分布 式查询框架

HiveQL
清单统计业务

Intel Hadoop分布 式计算框架

Pig+Ma Hout

冲销支持 生产数据提取

新清账单中心的部署方案
? 一期工作在11年立项,底层通过78台X3650 PC服务器组构建出集群,采用INTEL提供的Hadoop产品(分布式 文件系统+分布式数据库),上层由从兴开发业务程序,对入库和查询进行业务处理。 ? 这种架构有效的屏蔽了底层的功能,对上层来说,只需要调研相关接口即可。数据的分发、复制、任务调 度、容错都是由系统软件来控制。大规模的PC具备强大的处理能力和网络带宽,同时具备线性的横向扩展 能力。3份冗余的数据保证对硬件的容错和读处理的支持。 ? 存储使用69台PC机身硬盘作分布式存储DataNode,每台PC配置6TB磁盘容量,按每份数据存放3份计算,有 效容量138TB,保存6+1个月数据,压缩比1:5 。

设备
Hadoop 集群管理节点 Hadoop集群 NameNode/JobTracker NameNode/JobTracker HA备 份节点 Secondary NameNode

硬件设备
IBM 3650 PC,双路六核,Intel 2.66GHz主频,48GB内存,6*1TB IBM 3650 PC,双路六核,Intel 2.66GHz主频,48GB内存,6*1TB X5650处理器, SATA硬盘 X5650处理器, SATA硬盘

数量
1台

1台
1台 1台 5台

IBM 3650 PC,双路六核,Intel X5650处理器, 2.66GHz主频,48GB内存,6*1TB SATA硬盘 IBM 3650 PC,双路六核,Intel X5650处理器, 2.66GHz主频,48GB内存,6*1TB SATA硬盘

HBase 集群Master和 Zookeeper节点 DataNode/TaskTracker/Regi on Server
HBase Thrift服务器节点/查 询服务器 入库服务器

IBM 3650 PC,双路六核,Intel 2.66GHz主频,48GB内存,6*1TB IBM 3650 PC,双路六核,Intel 2.66GHz主频,48GB内存,6*1TB

X5650处理器, SATA硬盘 X5650处理器, SATA硬盘

69台

15台(使 IBM 3650 PC,双路六核,Intel X5650处理器, 用集群节 2.66GHz主频,48GB内存,6*1TB SATA硬盘 点) 3台(不 IBM 3650 PC,双路六核,Intel X5650处理器, 属于集群 2.66GHz主频,48GB内存,6*1TB SATA硬盘 节点) 3台(不 IBM 3650 PC,双路六核,Intel X5650处理器, 属于集群 2.66GHz主频,48GB内存,6*1TB SATA硬盘 节点)

FTP服务器

某移动清账单查询业务中英特尔Hbase的非凡性能表现
测试配置
? 性能数据在8台服务器组成的小规模集群上测试得到 ? 服务器配置:6核CPU, 48GB内存,8块 7200rpm SATA硬盘, 千兆以太网
query/s insertion/s

IDH Hbase

IDH Hbase

测试用例和性能 ? 向HBase集群插入1KB大小的记录 ? 每台服务器平均每秒插入1万条记录,峰值在2万条记录 ? 每台服务器,从磁盘扫描数据,每秒完成400个扫描。 一次扫描从HBase表中获得单个用户一个月内的所有记录(平均100条)
*性能数据来源于该项目的内部测试。在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如SYSmark和MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试 (包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。 更多信息敬请登陆http://www.intel.com/performance

基于电信行业业务实测IDH HDFS线性扩展能力
Intel Hadoop HDFS scan性能分析图
8000 7000 6000 5000 4000 3640 20.00 15.00 10.00
scan速率(M/s) 性能加速比

30.00 6720 25.00

3000
2000 1000 0 2 280.2 4 1060.2

1988 5.00
0.00 8 16 32 64

556.3

实测结果
计算节点(台) scan速率(M/s) 性能加速比 计算规模 CPU配置

内存配置
网络带宽配置 磁盘配置

2 280.2 1.00 75Gb(2.5亿) 2*6*4core 48G 2GB/s 7200转sata盘

4 556.3 1.98 75Gb(2.5亿) 4*6*4core 48G 2GB/s 7200转sata盘

8 1060.2 3.78 75Gb(2.5亿) 8*6*4core 48G 2GB/s 7200转sata盘

曲线拟合推演 16 32 1988 3640 7.10 13.00 75Gb(2.5亿) 75Gb(2.5亿) 16*6*4core 32*6*4core 48G 48G 2GB/s 2GB/s 7200转sata盘 7200转sata盘

64 6720 24.00 75Gb(2.5亿) 64*6*4core 48G 2GB/s 7200转sata盘

*性能数据来源于该项目的内部测试。在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如 SYSmark和 MobileMark等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考 其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。 更多信息敬请登陆http://www.intel.com/performance

Interactive Hive Query over HBase
180 160 140 120 100 80 60 40 20 0

159 98 68 63 18
Query 3

100 million records over a 8-node cluster

28

Hive 0.9.0 (M/R) (sec) Interactive Hive (sec)

0.2
Query 1

0.2
Query 2

Query 4

User Scenario
Calculate each day’s internet traffic of a specific user

Query
SELECT sum(down+up) FROM cdr201209 WHERE number = '13300000000' GROUP BY day; SELECT TOP(10) tonumber, sum(call_length) len FROM cdr_201209 WHERE number = '13300032810' GROUP BY tonumber ORDER BY len DESC SELECT TOP(1000) number, call_length FROM cdr_201209 ORDER BY call_length DESC SELECT TOP(1000) number, sum(fee) f FROM cdr_201209 GROUP BY number order by f DESC

Get the 10 most heavily called numbers for a specific user Get the top 1000 call length from all user phone calls Get the top 1000 users having highest total monthly charge

*性能数据来源于该项目的内部测试。在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如SYSmark和 MobileMark等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其他 信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。 21 更多信息敬请登陆http://www.intel.com/performance

电讯案例小结

旧清账单系统使用传统架 构, 采用小型机+集中存 储计算方式, 系统投资超 1200万元

原有系统每查询约3秒,忙 时达10秒,平均速度2.5万 条/秒

新系统采用云计 算清账单系统, 投资额在400万 元左右。

Intel Dist for Apache* Hadoop

新系统每查询约 0.5秒,平均速度 15万条/秒。

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

大数据在金融业的使用领域

监管改革
? 综合风险分析 ? 监管报告 ? 内部审计 ? 银行倒闭预测 ? 压力测试 ? 需求风险 ? 贷款信用风险分析 ? 财务分析

盈利
? 客户行为分析 ? 智能客户细分 ? 价格及盈利分析

运营效率
? 供应商和采购分析

? 费用分析
? 劳动力分析 ? 员工绩效管理

? 改善客户服务及相关性
? 客户关系分析

风险管理/监管
欺诈检测分析
? VISA:
? 2 亿笔交易/日
输入:交易
海量数据 转换

输出:过渡特性
模型生成

? 50 亿个账户
? 140 万笔 ATM 网络交易 ? 信用卡欺诈分析:
? 交易序列是欺诈的指标。 ? 集合不同时间段的各种类型序列(转变) ? 识别潜在欺诈需时从1 个月缩短到13分钟

?

交易序列分析:
前例 前因变量 抽样范围 = 2 月

交易

序列长度 = 3
25

最大序列跨度 = 2周 时标 = 间隔 周期 = 每日

风险管理

更快更精准信贷决定
? 英国创业公司短期在线贷款:
? 2011 年共审批 830,000 项贷款

? 纯数据的信贷决策:
? 从贷款申请人中整理出 30 项信息关键点:
? 从在线空间中获得有关申请人的 6,000 到 8,000 个在线数据点 ? 15 分钟内完成信贷决策,包括到指定银行的存 款 ? 无需面谈、无需电话交谈、无需提交带照片的证 件 ? 2/3 的申请遭到拒绝,违约率达到业界顶级水平

客户盈利潜力
客户关系分析
? 您可能已经发现了最有利可图的客户群 ? 问:你如何延长它的“利润”?
? 提供有价值产品

? 确定有意离开的客户
? 找出挽留客户的盈利方案

电联呼叫

中心抱怨
一项费用

访问网点

微博:高

要求豁免

昂的银行
费用

关闭银行

账户
其社交网

前例

前因变量

抽样范围 = 2 月

络圈朋友

转向寻找
别的银行 增值产品

交易

序列长度 = 3

最大序列跨度 = 2周 时标 = 间隔 周期 = 每日

企业级Hadoop使用模式的挑战
近实时支持
高容量的多数据源输入
安装,调优和警报

可管理性
加密

安全
文档

数据处理与回应 写入磁盘“持久” 分析与存储数据同时 Writ 进行 e
内存与 CPU 作业 1 分配 作业 2
作业 3

节点机架

表行,列

Corp IDM or ACLs?

数据中心扩容
高效 “组” 查询 跨全球部署
K E

跨堆栈优化
计算

建立/版本控制
定制开发

存储

子数据集

单列扫描: ? 广告定位 ? 行为分析

网络 应用与中间 件 最新而稳定代码? V1...V2? 支持?

IT Pro 调研 – 最大挑战
28

安全性和法规遵从性

32%

资本和运营开支

12%

熟练的数据科学专业人员短缺

11%

网络瓶颈

9%

企业级Hadoop使用模式的挑战
近实时支持
高容量的多数据源输入
安装,调优和警报

可管理性
加密

安全
文档

数据处理与回应

高吞吐量事件处理
写入磁盘“持久” 分析与存储数据同时 Writ 进行 e

内存与 CPU 作业 1 分配 作业 2
作业 3

节点机架 集成管理工具

数据访问控制

表行,列

Corp IDM or ACLs?

数据中心扩容
高效 “组” 查询 跨全球部署

跨堆栈优化
计算

建立/版本控制
定制开发

基于HBase的分布分析
子数据集

K E

单列扫描: ? 广告定位 ? 行为分析

端到端整体 解决方案架构 网络
应用与中间 件

存储

稳定,供应商支持 的开源代码
最新而稳定代码? V1...V2? 支持?

29

安全性和法规遵从性

32%

资本和运营开支

12%

熟练的数据科学专业人员短缺

11%

网络瓶颈

9%

跨数据中心大表

(英特尔Hadoop发行版特色功能)
特点与优势
全局虚拟大表,访问方便
分中心 A

大表数据分区存放在物理分中心
接入任何分中心可访问全局数据

高可用性
虚拟大表 适合本地高速写入 分布式聚合计算,避免大数据传输

分中心 C
分中心 B

30

英特尔hadoop发行版安全功能
(英特尔Hadoop发行版特色功能)
1. 基于用户的安全认证和访问控制 ? 支持Kerberos认证

?

支持LDAP

2. 加密文件系统 ? ? ? ? 防止磁盘泄密以及数据通讯过程中的泄密 支持HDFS文件级别加密 支持Map/Reduce运行在加密HDFS文件系统上 利用Intel Xeon处理器新指令集加速

3. HBase细粒度访问控制 ? ? 表级别的访问控制 列族(Column Family)和列(Column)级别的访问控制

中国四大银行之一案例
挑战:
? ? 交易数据查询缓慢,阻碍有效运营 不定期的交易数据批量修改耗时
LoadRunner9.5 LoadRunner9.5

解决方案:
? ? 数据未经解压直接导入HDFS, HDFS文件经处理后 32128MB 利用Hbase Bulk Load 进行初次批量导入, 利用 Hbase Put API进行增量导入

价值:
? 交易数据增量处理每秒可达15万条,每天处理时间~4-5分钟 (每天4千万条增量)。数据上传速度可优化至每秒插入150 万记录 (上传文件数据分布至多个磁盘) 交易数据查询可在0.1秒内完成 (并发用户数达600) 定期账户批量处理9千万条不超出15分钟
Intel-01: UI Manager Ganglia Server DataNode TaskTracker Hbae RegionServer Intel-03: Intel-04: Intel-02: Secondary NameNode Standby NameNode Primary NameNode ZooKeeper Zookeeper Zookeeper HMaster HMaster HMaster DataNode DataNode DataNode TaskTracker TaskTracker TaskTracker Hbase RegionServer Hbase RegionServer Hbase RegionServer Intel-05: DataNode TaskTrackerr RegionServer Intel-06: DataNode TaskTracker RegionServer Intel-07: DataNode TaskTracker RegionServer Intel-08: DataNode TaskTracker RegionServer

? ?

数据特性:
?

活期交易数据每年130亿条(4.5TB), 每天数据增量平均约 四千万条

?

定期账户批量处理每次约7千万条

32
32

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

趋势分析:我们正处在医疗行业的一个重要转折点
医疗服务产生的数据总量(PB)
15000 10000 5000 0 2010 2011 2012 2013 2014 2015 Admin

数据类型复杂多变
? 非结构化数据: ? PACS影像,B超、病理分析等业务所产生的非结构化数据 ? 影像数据大小不一,从数百KB到数百MB; Imaging ? 单个病人一次诊断需要存储或者调阅数百张影像 EMR ? 半结构化数据 ? 电子病历等数据采用HL7或者其他XML格式 Email ? 这些格式随时间变化,在不断演变中 File ? 很难制定统一的标准,给数据访问和交换带来挑战 Non Clin Img Research

一个医疗系统案例的数据

医疗影像归档

数据量大
? ? ?

大型医院:平均每年增加几十个TB的数据,其中有20TB是医 学影像数据 某三甲医院:目前有130TB,按现在年增长速率(100%),5 年之内将突破1PB 中等规模城市的卫生中心:数据量有望达到10PB

到2020年, 医疗数据将急剧增长到35 Zetabytes, 相当于2009年数据量的 44倍增长
Source: McKinsey Global Institute Analysis ESG Research Report 2011 – North American Health Care Provider Market Size and Forecast

医疗大数据相关解决方案
健康信息服务

基础医疗服务

个人健康管理

老龄社会

新兴的医疗服务 应用

临床决策支持

个体化医疗

肿瘤基因组学

数据分析及 视觉化处理

类SQL的检索

机器学习

医疗影像分析

数据处理/ 管理

医疗记录

基因数据

医疗影像

分布式平台

存储优化

安全和隐私

影像数据处理加速

大数据的挑战不仅来自于数据量的增长...

需要新技术的支持
数据量
1. 制药企业/ 生命科学 检验结果, 费用数据, 影像, 设备产生的感应数据, 基因数据等 2. 临床决策支持 & 其他临床应用 (包括诊断相关的影像信息) ? ? 3. 费用报销, 利用 率和欺诈监管

4.患者行为/ 社交网络

类型

结构化数据, 遵循标准的数据标准(如,HL7) 非结构化数据, 如口述、手写、照片、影像等

价值

基于现有数据库中的数据进行分析,来支持不同种类的业务:如 费用及报销、患者病史、归档影像分析、实时临床决策支持(数 据分析)
? 实时数据分析,而非传统的批量处理分析

速度

? 数据以流的方式进入系统,进行抽取和分析
? 对于实时运行中的每个时间节点产生影响,而不是事后处理

1. 个体化医疗

2. 临床决策支持

3. 欺诈监测得以加强

4. 由生活方式和行为引发的疾病分析

在传统的解决方案之上,引入新的数据及分析模型和技术,
实时有效的商业价值

大数据在中国医疗行业中的应用模式

?药品研发
对药品实际 作用进行分析;实 施药品市场预测

?基因测序
?分布式计算加快基因测序计算

1.制药企业/生命科 学

效率

2.临床决策支持 & 其他临床应用 (包 括诊断相关的影像 信息)

?临床数据比对
匹配同类型的病人,用药

?临床决策支持
利用规则和数据实时分析给 出智能提示

?公共卫生实时统计分析
发现公共卫生疫情及公民健康 状况

?远程监控
采集并分析病人随身携带仪 器数据,给出智能建议

?新农合基金数据分析
及时了解基金状况,预测风险 辅助制定农合基金的起付线, 赔付病种等

3.费用报销, 利用 率 和 欺诈监管

4.患者行为/社交 网络

?人口统计学分析
对不同群体人群的就医,健 康数据实施人口统计分析

?了解病人就诊行为
发现病人的特定就诊行为, 分配医疗资源

?基本药物临床应用分析
分析基本药物在处方中的比例

高昂的服务器存储投入

案例:国内一个中小型城市健康档案系统
人口数:120万; 数据规模:按3年数据增长总量估算,不包含医学影像数据,5T;
? 这仅仅是中心数据库服务器及 存储的基础设施预算; ? 中心数据库服务器及存储投入 占总预算达10%; ? 每年数据量正以100%以上的 速度增长; ? 2期即将启动,需增加医学影 像数据。

? RDBMS实现和操作上的局

解决方案及硬件部署
限性 – 不适合新的应用
大表:在一张表中存储500GB的数 据? 灵活动态可变的表结构:为大表修 改表结构(Alter Table )? 无停机时间的在线大表分区和动态 扩容… …

? IT价值

?经济价值

?海量数据存储 ?数据格式动态扩展 ? 海量数据快速检索 ? 统计分析 ? 平滑扩容 ?降低主机存储建设成本

Full-Text Indexing and Search (英特尔Hadoop发行版特色功能)

Full-text indexing and near real-time search for advanced data mining
(E.g., log and click stream analysis, healthcare record analysis, etc.)

Incremental full-text indexing on HBase ? Full-text indexing for semi-structured data (text, strings, numbers, etc.) ? Index incrementally built when records inserted or updated ? Support very high data insertion / update rate

Near real-time search ? Distributed, keyword or logical expression based search ? Zero delay of searching latest data that are just inserted

议程

?什么是大数据应用? ?电信业务大数据应用 ?金融业大数据应用 ?医疗大数据应用 ?英特尔大数据解决方案价值

Intel Optimized Solution for Apache Hadoop
? Flash storage for MapReduce shuffle data ? Caching and non-volatile memory for increased throughput ? HDFS improvement for OS kernel caching ? HDFS advanced replication for hot-files ? Heterogeneous storage performance & data Management

? HBase distributed tables across data centers ? HDFS data replication across data centers ? Archival storage support for cold data on HDFS

Performance

Intel Architecture
SSE Instructions JVM Enhancements Infiniband RDMA Support

Management
NETWORK

Security

STORAGE

COMPUTE

? File based encryption for MapReduce jobs ? Access Control List for HDFS and HBase at cell level

42

英特尔 大数据服务组合在案例中的定位…
大数据 基础设施 Hadoop框架
效率 信托 硬件和软件结 负载 构框架设计 管治 领先的生态系 工具 网络 统协作 计算资源 存储

数据管理
数据科学

数据使用 专业领域

(Data Science)
机器学习 运算法规 分析 算法和 Hadoop 集成 设计优化分析与 查询性能 存储 传输 改造 数据仓库

(Domain Expertise)
业务策略 KPIs 业务汇报 可视化结构

Value

数据采集 和 处理

将问题转化 为运算法规

询问 正确的问题

从专注于质量,精度和效率,英特尔推动大数据价值,


相关文章:
更多相关标签: