网络科技

    今日:15| 主题:245145
收藏本版
互联网、科技极客的综合动态。

[科技] 数据平台设计指南

[复制链接]
蹲街角只为等待伱 发表于 2016-10-1 11:12:16
85 3

立即注册CoLaBug.com会员,免费获得投稿人的专业资料,享用更多功能,玩转个人品牌!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
最近大部分精力花在为公司搭建统一的数据平台上,在不断地踩坑中慢慢摸索出了一套行之有效的方法,本文主要介绍数据平台的流程设计与相关思考,具体的技术实现可以参考我的另一篇文章 -数据平台技术指南  
  缘起  

  市场、运营、研发还是内部管理每天都会产生各种各样的数据及报表,一是用于监控各项事宜的运作情况,二是给决策提供更多有价值的信息。随着公司的快速发展与业务的不断扩大,产生和消费的数据也越来越多,传统手工以及简单的电子化统计已经不能满足各个部门的需求。我们来看看下面这三个问题:
  
       
  • 从前收集数据和制作报表只需要半天,但是现在随着需要统计的内容增多,可能需要三天,也就是说数据最重要的时效性大打折扣   
  • 很多时候依靠单一部门的数据无法完成复杂的分析,但由于不同部门间天生较高的沟通成本,除了需要专人对接外,还需要走一定的流程,就把原本简单的工作变得复杂了,甚至因为各种推诿最终不了了之   
  • 不同部门的业务统计很多需求是一致或者类似的,只是统计的数据维度不同,这也意味着很多没有意义的重复劳动  
  为了解决上面提到的三个问题,一个统一的内部数据平台便应运而生。在此基础上,我们还从另外两个维度扩展了数据平台,一是更基础的服务监控,二是更高级的智能分析。更让我骄傲的是,整个项目的核心开发者只有三人,其中前端一人,后台及服务器两人(在此感谢曾为此项目付出过的其他同事)。
  从白手起家到接入来自公司不同部门的十多项业务,从最初简单的原型到现在初具规模的系统,每次重构与架构调整,都是大家一起摸着石头过河淌出来的。虽然还有许多堆积的需求(缺人力呀),但只要地基打得好,就不怕盖高楼。
  注:本文不涉及具体的技术实践,感兴趣请参考数据平台技术指南  
  方向  

  在这个『大数据』与『云计算』概念满天飞的年代,我对于数据平台的思考应该是偏谨慎的。这是屁股决定脑袋的一个非常清晰的例子,创业公司最需要的就是给投资人描绘一个愿景,那么就需要带上各种时髦的词汇;而对于我在做的数据平台来说,最重要的是提供有价值的服务,真正能帮助各个部门节约时间、综合信息、提高决策效率的服务。正因如此,我没有给数据平台制定一个看得见摸不着的目标,而是打算分两步走:
  第一步:取代。深入各个部门的业务流程与实践,了解第一手的需求。这里的取代,指的是利用数据平台自动化处理数据生成报表,把他们从繁重的人工统计中解放出来(用 Excel 仍然需要大量需要人工参与的中间过程)。只要各个部门把数据接入并打通数据流,我们就可以根据需求制作相应的页面(这里主要指长期且能够流程化处理的需求)。当他们需要具体数据与报表时,只需要登录网站查看即可。如果需要做一些临时分析,也可以把数据导出为 Excel 表格自行处理。  
  第二步:超越。在接入了不同部门的数据后,数据平台实际上拥有了综合不同数据源进行协同统计的可能,相当于把原先部门范围的数据辐射到了公司范围,各个部门都可以方便地利用更加全面的信息进行业务判断。所谓超越,指数据平台应该能完成原先 Excel 不能做(或者是难以做好)的深入分析。通过挖掘隐藏在数据背后的规律,给各个部门提供更加简单轻松的数据服务。  
  我给这个方案起了个名字,叫做『数据自治自洽』,本质是给公司和用户带来有价值的数据产品,用来给公司的各项业务提供数据支持。作为公司平台化和数据化的重要一环,数据平台的意义不仅在于数据本身,而是通过信息共享与集体智慧形成某种意义上的『群脑』,最终转化成为更有意义的产品和服务。
  流程  

  其实数据平台的流程化简之后都差不多,难点不在于思路而在于具体实现。这里简要介绍一下各个步骤中的设计要点,具体的实现可在数据平台技术指南 查看  
  采集与预处理  

  数据采集也许是最被低估的一个步骤。做过数据挖掘和模型分析的朋友应该都知道『Garbage in, Garbage out』这个简单的道理,数据模型可谓是数据平台的灵魂,而数据采集的方法和策略是数据模型的基础,一定要谨慎。如果要用一句话总结数据收集的思路,那就是:
  从用数据的角度出发收集数据,而不是反过来

  具体的思路就有很多的扩展了,主要三点:细粒度、围绕业务、概念层级一致。
  清洗与分类  

  这部分的内容需要大量的跨部门沟通,比如不同业务系统的日志信息筛选过滤,一是能够有效减少无意义的存储(日志中会有大量重复信息),二是为后续的存储与查询打下良好的基础。
  我们目前是按照业务来进行划分的,不同的业务有不同的工作流,优点在于比较灵活,缺点在于没有把通用的部分抽出来(主要问题是目前公共的部分并不多)。
  在这一步我们需要进行概念统一,比方说外部代号与内部代号的映射,这样在之后的统计分析中,我们能够以比较简洁的代码和模型去处理,而不用再去纠结格式与编号问题(与网络分层模型的思路一致)
  存储与查询  

  这一步唯一需要统一的就是『存储是为了查询』。存的时候随意存,查的时候肯定就没办法随意。我见过很多把 NoSQL 数据库当做 MySQL 来用的做法,那不就是自找苦吃嘛。
  提一下『数据自治自洽』这个概念,自治指的是数据流的通畅以及自动根据多个系统的信息综合验证补全修复非正常数据,自洽指的是通过不同数据源得出的结论是说得通可以互相验证的。
  这一阶段技术细节比较多,本文不再深入。
  展示与应用  

  展示与应用是数据平台价值的外现,也是各个部门实际能够体验感知的部分。根据前面提出的『取代-超越』两步走思路,注定是一个比较耗费人力且业务导向的工作。
  这就涉及到数据可视化和数据挖掘的内容了,等我多看些书,请教下相关领域老司机,经过一段时间再找各个部门反馈一下再来更新后续内容。
  总结  

  能够从零开始参与公司数据平台的设计和建设,感觉自己非常幸运,同时也责任重大。而在具体实践中能够一点一点把自己在学校里所学的东西真正用起来,才算是真正完成了从书本到实践的最终转变。说『数据』的公司很多,但是真正用好『数据』的公司却不多,在我看来,数据平台的设计和开发,与其说是一个项目,不如说是火种。到底能不能燎原,就要看具体能推进到什么程度了。
友荐云推荐




上一篇:苏宁云商拟1.47亿元增持苏宁消费金融公司 持股49%
下一篇:Impoverished people are risking their lives for your smartphone batteries
酷辣虫提示酷辣虫禁止发表任何与中华人民共和国法律有抵触的内容!所有内容由用户发布,并不代表酷辣虫的观点,酷辣虫无法对用户发布内容真实性提供任何的保证,请自行验证并承担风险与后果。如您有版权、违规等问题,请通过"联系我们"或"违规举报"告知我们处理。

李曼 发表于 2016-10-1 11:55:14
按“开始键”再按两下“U”可以找出windows的隐藏游戏.
回复 支持 反对

使用道具 举报

iJsxufR 发表于 2016-10-2 05:45:38
与时俱进,你我共赴高潮!  
回复 支持 反对

使用道具 举报

zaq1596357 发表于 2016-10-2 07:42:00
楼主你好。。新人。混眼熟。顺便骗点经验。到手~拍拍屁股走人~
回复 支持 反对

使用道具 举报

*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

我要投稿

推荐阅读

扫码访问 @iTTTTT瑞翔 的微博
回页顶回复上一篇下一篇回列表手机版
手机版/CoLaBug.com ( 粤ICP备05003221号 | 文网文[2010]257号 )|网站地图 酷辣虫

© 2001-2016 Comsenz Inc. Design: Dean. DiscuzFans.

返回顶部 返回列表