网络科技

    今日:654| 主题:246247
收藏本版
互联网、科技极客的综合动态。

[科技] 面向数据智能时代的大数据架构实践

[复制链接]
挑逗女人的心 发表于 2016-10-5 16:42:26
263 14

立即注册CoLaBug.com会员,免费获得投稿人的专业资料,享用更多功能,玩转个人品牌!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
诸葛io 在上线的不到 20 个月里,经历了客户量从 0 到 10,000 的突破,月有效行为数据处理量超过了 100 亿。这期间,其研发团队面临过许多难题与挑战,同时,对于大数据平台的发展与架构也有许多的思考与沉淀。这些思考与实践,正是本文中要与大家分享的内容。
  第一部分:大数据平台的三次浪潮

  在正文开始之前,我们回顾一下 1990 年到 2016 年间,大数据平台经历的三次浪潮。
  第一波浪潮

   
面向数据智能时代的大数据架构实践-1 (Microsoft,互联网,计算机,Oracle,智能)

  第一波浪潮起源于 90 年代,当时从计算机到软件大多还是企业级的,而数据分析就已经开始。
  这个时代还是集中式软件时代,存储数据的成本非常昂贵,所以大部分企业以 KPI 角度,抽取少量结构化数据进行数据分析。代表企业如 MicroStrategy、Microsoft、Oracle,代表产品也诸如 Sybase、Congos,这个时代能产生的数据有限,能处理数据的能力有限。
  第二波浪潮

  发展到 2000 年左右,互联网的兴起带动计算机和软件走向消费级,并且互联网成为基础设施,从以下三点带来数据的爆发式增长。
  
       
  • 网络带宽的升级优化,从 2G 到 4G,从拨号上网到光纤入户;   
  • 围绕互联网信息化带来大量的数据产生,例如门户网站、社交平台、内容和视频平台等等;   
  • 科技发展,从 PC 到移动设备到各种智能设备,都可以采集、传输数据。  
  数据的存储成本越来越低,数据的产生速度越来越快,数据量越来越大,第一波浪潮时的技术体系已经满足不了需求,并且由于摩尔定律基础硬件设备和条件也在优化,处理数据的能力越来越强,这个时候带来了大数据平台第二波浪潮的发展。

面向数据智能时代的大数据架构实践-2 (Microsoft,互联网,计算机,Oracle,智能)

  面临这样的环境趋势,第二波浪潮的需要解决的核心技术问题包括三方面:
  1. 越来越分散的数据需要集中采集处理

  数据采集集中大多是"Pull"和"Push"两种方式,但是收集方式、可扩展性、收集效率、消息队列等等都需要一些突破。
  2. 计算的可扩展性

  机器资源已经不是瓶颈了,所以如何能分布式计算,把计算的复杂度分散拆解是要解决的核心问题,比如算法上的"多项式拆分"到计算框架上的"批处理"
  3. 存储的可扩展性

  越来越大量的数据,导致效率越来越底下,所以为了保障访问和利用效率,可灵活扩展存储数据也是要解决的问题。
  这个阶段的大数据技术,陆续诞生了从 Facebook 早期开源的 Scribe、Cloudera 的 Flume、Linkedin 的 Kafka,还有后来的 Flink 等数据流处理框架,熟知的还有 Spark/Storm/Samza 等实时处理技术。
   在这个阶段似乎无人不提大数据,人人都喊 Hadoop,但是我们做到的是 数据流处理和实时处理以及存储方式的突破和革新,而分析主体还是老的分析中心化方式 ,由 BI 团队或者数据团队驱动,集中式的制定 KPI,数据采集集中之后会按照 KPI 进行处理展现,如果遇到多样化或者探索性的业务分析需求,还需要 On-Demand(按需)去编写程序或者 SQL 来基于这些大数据平台获取结果。
  第三波浪潮

  发展到 2010 左右,互联网发展也从信息化走向服务化,创业方向也从之前的"门户时代"、“社交时代”、“垂直化门户时代”、"内容视频时代"走向了电商、出行、外卖、O2O 等本地服务升级。
   如果说面向信息化的时代更多的是基于流量广告的商业模式,面向服务化的时代更多的是直接面对客户价值变现的商业模式,或者说消费者服务,所以从行业发展来看,服务类对分析的需求也要旺盛更多, 自古以来,电商游戏行业分析都做得比较好,不是吗?
  我们用破木桶蓄水过程来类比,到处都是水源的时候,并且外部水源流入率大于自身流失率的时候,更多思考的是抓紧圈水源而不是找短板,从 2000 年到 2014 年,流量势头猛进,到处都是用户,对于企业而言更多的思考是如何圈用户,而不是如何留住用户,分析流失原因。
  当外部没有更多水源进入,并且四处的水源有限时,企业需要的是尽可能修复木桶,并且找到木桶的短板。在 2014 到 2015 年左右,互联网流量红利也初现消尽之势,国内的经济下行压力也逐渐增大,就好比水源有限一样,企业需要更多的分析自身原因,提高各种转化率,增加用户的忠诚度和黏性,减少用户流失。所以分析需求开始逐步提升,各个业务部门都需要自我分析优化成本,提高利润和产出。
  过去企业更多面临的是由上而下的 KPI 中心化式分析,所以形成的是分析中心化的体系,基本上整个公司有统一关注的指标和数据看板,但是各业务部门的分析就需要单独处理了。
  数据分析其实从行业、角色、部门以及从场景而言,都是差异化的。
  行业上:

  
       
  • 电商关注的是购买相关;   
  • 内容关注的是阅读相关;   
  • 社交关注的是参与度相关;   
  • 工具关注的是使用情况。  
  角色上:

  
       
  • CEO 肯定关注的是整体、财务各部门的 KPI;   
  • 市场 VP 肯定是营销相关的子项目 KPI;   
  • 销售 VP 关注的是销售阶段状态和结果相关的指标。  
  部门上:

  
       
  • 市场关注的是投放转化率等指标;   
  • 产品关注的是功能留存率等指标。  
  所以要更充分的满足分析需求,就需要从 KPI 中心化分析转向分析去中心化,也就面临着又一次大数据平台的技术革新,这也推动了大数据平台第三波浪潮的变革。
  第一、第二波浪潮更多解决的还是技术问题,第三波浪潮最重要的是要解决分析问题,但是分析的问题主要有三点:
  
       
  • 分析其实是行业经验的积累和行业经验的信息不对称;   
  • 大多数公司缺少专业分析经验的人和能构建数据分析平台的团队;   
  • 依赖数据分析团队集中分析的方式效率低下,需求会排队。  
   这也就意味着第三波浪潮可能带来的更多不是通用的技术平台,而是更多深入的行业分析应用,所以在数据模型和数据仓库这一层的变革会更大,当然少不了的还是 Google 这样大鳄的弄潮, 开源了 BigTable 带来的是以 Hadoop 为核心的第二波浪潮兴起,而 Google 的 BigQuery 其实也是代表了第三波浪潮的趋势。
12345下一页
友荐云推荐




上一篇:How These Companies Are Using AI To Boost Productivity
下一篇:万万没想到,汽车数据比汽车本身还值钱
酷辣虫提示酷辣虫禁止发表任何与中华人民共和国法律有抵触的内容!所有内容由用户发布,并不代表酷辣虫的观点,酷辣虫无法对用户发布内容真实性提供任何的保证,请自行验证并承担风险与后果。如您有版权、违规等问题,请通过"联系我们"或"违规举报"告知我们处理。

我是逗比我骄傲 发表于 2016-10-5 18:32:37
女为悦己者容男为悦己者穷!
回复 支持 反对

使用道具 举报

wenxinliuxy 发表于 2016-10-5 18:32:37
系统居然说我是在灌水,我有吗?
回复 支持 反对

使用道具 举报

刘宇寒 发表于 2016-10-5 18:36:46
看了这么多帖子,第一次看到这么经典的!
回复 支持 反对

使用道具 举报

njoru 发表于 2016-10-5 18:43:01
态度决定一切,不错!
回复 支持 反对

使用道具 举报

方浩 发表于 2016-10-5 19:25:29
萌萌哒
回复 支持 反对

使用道具 举报

董欢 发表于 2016-10-6 02:49:27
看起来好像不错的样子
回复 支持 反对

使用道具 举报

tysltpc。com 发表于 2016-10-7 03:18:03
收藏了,很不错的内容!
回复 支持 反对

使用道具 举报

陈春梅 发表于 2016-10-8 03:08:05
我就算是一只癞蛤蟆,我也决不娶母癞蛤蟆.
回复 支持 反对

使用道具 举报

什么亀 发表于 2016-10-10 19:01:00
我也顶起出售广告位
回复 支持 反对

使用道具 举报

*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

我要投稿

推荐阅读

扫码访问 @iTTTTT瑞翔 的微博
回页顶回复上一篇下一篇回列表手机版
手机版/CoLaBug.com ( 粤ICP备05003221号 | 文网文[2010]257号 )|网站地图 酷辣虫

© 2001-2016 Comsenz Inc. Design: Dean. DiscuzFans.

返回顶部 返回列表