农行赵维平:农业银行自主可控的大数据平台建设

  • 时间:
  • 浏览:0

2000-333文章照片-大数据推动金融创新- 赵维平

跟传统不一样的是大数据平台的日加工时间目前在七六个小时,早期批量另另一1个多是优化只能位,另另一1个多是出理 的分层,这一用了Hadoop把ETL和操作数据区都装进Hadoop里,想要都时需节点多、计算能力强,完成了ET的过程,上游来的全量数据在这里做了归类,生成了另另一1个多纯层量的数据,减少了一天的批量时间十几只 小时,提升33%的性能。数据集市层,现在规划8个数据集市,跟这一行没人 不想 区别,客户营销、风险管控、结构监管,对分行服务的集市,各行服务的对象都会一样的。上端研了数据提取平台,结构监管和数据提取任务不为什么我么我重,早期都得到生产去导带生成,现在亲戚亲戚朋友通过单独建另另一1个多环境,把这一数据预加工好,基本以宽表的模式,想要做加法的事情变成了做减法,至少200%的提出需求都会我的环境里直接提取,大大减轻了人力。上端是分析挖掘平台,ODM、SaaS都会农行已有的云,大数据可是我它的用户而已,亲戚亲戚朋友在Hadoop分装了应用,为全行的分期挖掘提供服务支撑。

GBASE 2013-2014连续两年在IDC年度研究报告和赛迪顾问发布的《中国平台软件市场研究年度报告》中被评为“国产数据库第一品牌”。 从2014年起,南大通用结束了与IBM旗下的Informix美国研发团队开展商务商务合作,并引进了Informix源代码。在Informix源代码的基础上,南大通用结合自身的创新和核心技术推出GBase 8t等三款国内领先、国际同步的世界级自主可控数据库产品,取得了极佳的反响,想要在政府、金融、电信、国防等多个行业关键领域替代国外软件。

农业银行对大数据的预言2003年就结束了了,2004年的行长会上就明确了农业银行的大数据建设。亲戚亲戚朋友在建设过程中,这20字可是我亲戚亲戚朋友工作的出发点,夯实基础、拓展服务、提升应用、深入挖掘、推动治理。目标是促进全行的业务创新、管理创新、营销创新和服务创新。亲戚亲戚朋友实施的路径基本可是我统筹规划、顶层设计、共享复用、分步实施。

我谈一下感悟,大数据到底是那此,它是这一技术,是另另一1个多平台,还是另另一1个多生态圈?亲戚亲戚朋友在大数据生态里共享、复用和包容是永恒的主题。大数据是这一潮流,是这一意识,是这一习惯。大数据也是一场思维的变革,掌握了大数据,亲戚亲戚朋友从此都会了预知未来的能力。大数据与农业银行监行监近,大数据建设只能起点,没人 终点,亲戚亲戚朋友突然在路上。在国产化的道路上,希望民族工业无比强大,在国际市场上挺起腰杆,谢谢亲戚亲戚朋友!

原文发布时间为:2016年04月29日

中国农业银行软件开发中心的专家赵维平

亲戚亲戚朋友在2003年初结束了搞大数据,当时有这一困惑,首先感觉到大数据到来了,现在各个行业,中央台那此东西都用大数据说话,亲戚亲戚朋友在银行业亲戚亲戚朋友能做那此呢?早期在十几年前亲戚亲戚朋友亲戚亲戚朋友做数据仓库的想要,亲戚亲戚朋友想要选泽面都很窄,四大行除了亲戚亲戚朋友没用TD这一都会用TD做的数据仓库。亲戚亲戚朋友当时用SbaseIQ(音)也很痛苦,计算资源都时需扩,但IO能力就在那里。当时确实列存储带来很大的优势,出理 通用的数据量减少了这一IO。平台选泽那此?还用传统的吗?新型的为什么我么我么样?金融在这一技术的选泽上还是相对比较保守的,亲戚亲戚朋友不想用最新的技术,不想用最新的版本,这也想要金融工委和国家人民银行对于亲戚亲戚朋友的连续服务要求不为什么我么我高,一旦出了事情领导交不了差。大数据在那此领域能优先创造价值?你做了没人 多大数据,领导说你能给我带来那此,不管你用那此技术积攒了十几只 数据,采用那此样的管控机制保证数据安全,另外又用那此运维保证机制保证业务的连续性。

4月27日,中国大数据峰会上,农总行赵处的讲演,引得台下掌声雷动。“大数据建设只能起点,没人 终点,亲戚亲戚朋友突然在路上。在国产化的道路上,希望民族工业无比强大,在国际市场上挺起腰杆!”

GBASE打造了国内唯一支持PB级双活的MPP集群,唯一支持数据透明加密的MPP数据库!农行借助GBase 8a搭建的金融业PB级大数据平台的可行性方案打破了国外基础软件在我国的垄断,在保证国家信息安全方面进行了有益探索,一同也节约了大数据平台建设成本。

56+8是56个数据计算环境,8个是加载机,56个环境每个节点是12块3T的硬盘,有2块做Read1,是存放操作系统和重要的参数信息和数据库环境,这一10个环境是Read5来存放数据,另另一1个多节点存放有效数据10十几只 T,56的环境里有效数据将近200个T,Gbase有5到10的压缩比,各个字段都时需选泽压缩去,200个TB的数据换算成仓外的文本量,就算简单乘以200T也是1.5PB以上,现在折算成1.8PB左右,是PB级的。亲戚亲戚朋友跟Gbase从这一想要结束了商务商务合作,亲戚亲戚朋友在八方面跟亲戚亲戚朋友一同做了这一优化工作,跟Gbase做了极少量优化,有近百个优化的细项。MPP数据库,亲戚亲戚朋友搭建了双活机制,另另一1个多库之间的同步加验证现在每天至少是22TB的数据,仅时需3小时。早期在给主库做备份的想要,200TB的数据有小40个小时,想要亲戚亲戚朋友用了Hadoop做备份,200TB用了只能10小时,亲戚亲戚朋友用TB备份突然是比较难的事情,在Hadoop方面亲戚亲戚朋友做了极少量基础性的工作,非型态化的数据、文件的服务、数据的备份等等。

金融大数据的应用场景,工行和建行都讲过,随着互联网+时代的到来,那此年数据的膨胀呈指数增长,分两类,一类是型态化数据,这部分增长基本可控,随着业务的增长是另另一1个多线性关系。而对非型态化数据,尤其语音、图像,优酷上的视频,一天产生的视频想要一辈子看过不完。现在应用潜力巨大,精准营销、风险控制、运营等等都对各业务,对大数据的应用提出更高的要求。深度1次讲,现在随着大数据时代到来,亲戚亲戚朋友出理 大数据的技术手段和成本的下降都提供了对大数据的想要,不管是MPP还是Hadoop都会最近几年来风起云涌的,在技术上也是成长最快的一部分。应用的领域,亲戚亲戚朋友基本例如,不细说了。

应用的现状,我不一一介绍了,亲戚亲戚朋友在不同的领域里支持了不同的应用。亲戚亲戚朋友在大数据的建设中为了体现数据的价值,亲戚亲戚朋友在分析挖掘方面做了这一工作,另另一1个多是平台建设方面投入很大力量,亲戚亲戚朋友跟业务融合,分别在多个领域写出了20多份分析报告,有精准营销和业绩价值等九个方面都落到不同的应用去尝试实现。亲戚亲戚朋友培养的人才,对SaaS、Spack、R语言,熟悉那此算法,对聚类、分类、回归、神经网络等等进行了研究,另外建立一套多场景的实验环境,流水线式的作业、组建化的模型集脱拉拽式的服务,使业务人员能更快地使用我的系统。多个技术对用户来讲是透明的,用户要使用一句话非常方便。亲戚亲戚朋友展示了非常完整性的服务,对基础环境融合,对资源的管理展现进行全覆盖,部署的模式也是收放自如的,展现也突破了传统的思维,亲戚亲戚朋友在报表展示层面是可交付的、动态的,都时需放大缩小,都时需按某一列去排序,都时需锁定表头,都会另另一1个多静态的页面,报表是可操作的。

通过这部分报表的操作,我认为分析应用,另另一1个多是数据的可视化,再另另一1个多是逻辑的节点的快速开发,实现对分析型应用的快速开发部署。亲戚亲戚朋友有了基础的东西,还有一套规章制度去管理,总体的管理办法 、数据准入规则、运维的细则、数据模型规则,真正做到了大数据的生态圈。在自主可控上,基础硬件、基础软件、数据模型、工具平台和制度管理都会自主可控的。

自主可控方面,亲戚亲戚朋友从几方面,硬件方面采用华为的RH2288系列,2C、docore、256内存、12 4T硬盘,不一同期买的硬盘的容量是不一样的,想可是我4T,想可是我3T。基础软件方面亲戚亲戚朋友引进了国产的南大通用做的MPP架构数据库,亲戚亲戚朋友在原形试运行阶段从2013年圆形环境结束了投产,采用28个数据节点,2014年3月份把它扩到56个节点。非型态化,型态化的数据上游生产数据基本都会装进MPV架构数据库里,使用起来技术上更流畅,传输传输速率更好。Hadoop方面,非型态方面目前使用的是CDH开源版,至少有200个左右的Datanode。数据模型方面亲戚亲戚朋友结合先进的建模理论,亲戚亲戚朋友融合了范式和维度的思路。亲戚亲戚朋友在主库核心层面基本是范式建模减少重复。维度方面由业务驱动的办法 建立维度模型为主。自主可控在基础的工具上,亲戚亲戚朋友知道有ETL、批量调度、源数据的管理,那此东西都会亲戚亲戚朋友自主开发的。亲戚亲戚朋友制定了一套比较完备的规范、制度、办法 、标准。

本文来自云栖社区商务商务合作伙伴至顶网,了解相关信息都时需关注至顶网。

赵维平:首先感谢主办方能选泽没人 时尚一句话题,一同也感谢主办方能在一上午的时间把工农中建都搞到一同来,分享大数据一句话题,大数据建设和运用,各金融领域有共性,可是我亲戚亲戚朋友在实现模式上略有差异而已,亲戚亲戚朋友对业务的支撑有这一是共性的。我今天跟亲戚亲戚朋友分享的是农业银行在自主可控上做的这一工作,亲戚亲戚朋友再走这条路的想要能有所借鉴,少走弯路,为亲戚亲戚朋友的顺利实施提供这一点可借鉴的东西,没人 今天就没人 白讲。

这是硬件的环境,在Gbase而方面,56是生产环境,现在实现了56环境的双活,这另另一1个多56环境一同在工作,另另一1个多做T+1当天的数据加工,另另一1个多做隔一天的连级服务,没人 一句话连级服务的能力,按实侧一句话会比想要做TD的测试中更强这一,另外被委托人客户集市、资产负债集市,还做了数据挖掘层次,Gbase集成了WODM和SaaS。Hadoop的生产环境是9另另一1个多datanode和另另一1个多namenode。亲戚亲戚朋友现在Gbase有236个节点,库内主副本的整个容量有5.2PB数据,Hadoop的集群是200个节点,容量是4.3PB。

这是亲戚亲戚朋友整体的逻辑架构图,左侧是数据源层,上游的生产系统,几乎全行所有的生产系统的数据到今年底想要完整性进来了,金融交易类百分之百都进来了,现在有200多个上游系统,通过另另一1个多交换平台,交换平台不仅仅为大数据服务,负责上游生产和下游数据消费系统总分行之间、总行各应用系统间数据交互的平台。第二,数据出理 层,淡黄色指关系型的数据库,也可是我MPP架构数据库。操作数据区、非型态化数据区、历史数据平台、流计算,流计算用Hadoop Stam架构。下面是Hadoop的东西。亲戚亲戚朋友在整个大数据平台的型态化主库里分了基础数据库、共性加工区和指标区,非型态化有操作数据区、非型态化出理 和历史数据平台。影像那部分早期想要建好了,为了减少网络压力基本上位于分行。

对上层应用的服务有直接访问,数据文件和结构服务和数据快速好友克隆等技术和应用进行连接。应用主可是我对资产负债领域、电子银行领域、信用卡和被委托人金融领域、风险和财务提供了这一支撑,大数据平台和集市,亲戚亲戚朋友建成了另另一1个多集市,有六个集市在建的过程中,今年分行下二天要搞分行集市的试点。应用,亲戚亲戚朋友提供统一的数据展示和服务。展示服务另另一1个多是对所有全行业的用户,对所有行业监管的各种报送,想要各种报送比较零乱,点也比较多,趋向不同部署可是我一样,底层做了统一调度、统一监控和ETL,对全行描述类数据进行了统一管理,包括亲戚亲戚朋友的数据标准和数据质量管理都会这里统一进行。

以下是赵维平演讲实录:

亲戚亲戚朋友做了MPP和Hadoop的交互,这一应用要交互,亲戚亲戚朋友做了非型态化MPP和HDFS之间的融合。想要启用了MPP和Hadoop之间的备份,大大提高了传输传输速率,200T也时需将近20个小时,这一亲戚亲戚朋友做了双活,想要双活稳定一句话亲戚亲戚朋友就不想备份数据了。开发的基础工具包括ETL工具、批量调度、整个的监控和统一访问层,监控这块亲戚亲戚朋友还做了健康检查,通过SaaS把二天的日志交过去,最后生成这一模型,给我预测整个系统运行的安全情况汇报。数据混搭的模型设计,亲戚亲戚朋友有一套完整性的办法 论,能保证数据的准确、稳定、完整性和可用。一同亲戚亲戚朋友在办法 论、开发规范、数据规范和流程规范都积攒了一系列文档。整个模型是分层的,操作数据区、基础数据区、共性加工区、指标层和集市层,完成了客户的统一试图、产品的统一管理和客户的精准营销和风险管控等等。

农总行赵处的讲演的数据确实令国人振奋!农业银行以国产数据库GBase 8a为基础的国内最大的金融大数据平台采用混搭融合架构、双活数据仓库、超大规模数据库集群那此先进技术完整性应用其中。56是生产环境,现在实现了56环境的双活!5.2PB数据量、236个节点、每天20000多个多样化的分析任务! 这一系列指标令人咋舌。

这是真正的世界级的银行大数据平台,在容量、性能、挂接、关键技术等方面都当之无愧。其中令人激动的是,中国真的有软件厂商做到了“世界级”!GBASE真正做到了让中国用上世界级国产数据库!结束了在核心应用领域没人 国产数据库可替代的时代!

通过6个方面对大数据平台的数据进行了全生命周期的管理,包括建模、验证、清理、准入、数据地图和这一规范。亲戚亲戚朋友的数据量比较大,早期上游应用比较多,数据质量比较差,在这里亲戚亲戚朋友通过源数据管理,通过平台建设标准的制定和现有数据的治理及制度规范,通过四方面提升数据质量。亲戚亲戚朋友建立了被委托人的源数据管理,亲戚亲戚朋友对技术源数据、业务源数据和管理源数据进行了统一的管理,一同亲戚亲戚朋友也建立了技术源数据和业务源数据之间的血缘关系,没人 就能通过业务的视角能知道从技术为什么我么我么到业务。被委托人建的系统,目前大数据支持的应用,像互联网金融、资产负债、结构监管、运营分析、客户关系等等,有这一亲戚亲戚朋友正在建设过程中。