重庆分母智慧科技有限公司
138-9696-4716 138-9696-4716
软件/系统定制开发 微信和小程序开发 电商平台开发 智慧大数据

房地产行业 分销行业 OA系统 智能物联网 物业管理系统

医疗行业 物流行业 CRM系统 MES系统 数据可视化

138-9696-4716 138-9696-4716
软件/系统定制开发 微信和小程序开发 电商平台开发 智慧大数据

房地产行业 分销行业 OA系统 智能物联网 物业管理系统

医疗行业 物流行业 CRM系统 MES系统 数据可视化

重庆分母智慧科技有限公司 > 动态

数据可视化的基本流程

2022-04-02

  很多人认为数据可视化非常简单,无非是输入几组数据,生成简单的条形图、直线图等等。然而,这未免有点管中窥豹。其实数据可视化大致可分为信息可视化、科学可视化和可视化分析三大类,刚才提到的简单图表只是信息可视化中最常见的几种。一旦数据量增大,可视化目标改变,可视化系统的复杂度可能就会超出我们的想象。


  本篇文章就来讲讲数据可视化的基本流程。


  可视化流程的基本步骤,就好像一个特殊的流水线,主要步骤之间彼此相互作用、相互影响。可视化流程的基本步骤,用文字表达就是:确定数据可视化的主题——数据采集——数据处理和变换——根据数据关系可视化映射——可视化呈现。


  可视化流程的第一步:确定数据可视化的主题,即确定需要可视化的数据是围绕什么主题或者目的来组织的。


  在可视化过程中的步骤之中,第一步是相对来说较容易的一步。


  业务运营中的具体场景和遇到的实际问题,公司层面的某个战略意图,都是确定数据可视化主题的来源和依据。简而言之,一个具体问题或某项业务、战略目标的提出,其实就可以对应一个数据可视化的主题。


  比如,银行分析不同城市用户的储蓄率、储蓄金额,电商平台进行双十一的实时交易情况的大屏直播,物流公司分析包裹的流向、承运量和运输时效,向政府机构或投资人展示公司的经营现状等,都可以确定相应的数据主题。


  可视化流程第二步:数据的采集。


  俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。


  数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。


  1.内部数据采集:


  指的是采集企业内部经营活动的数据,通常数据来源于业务数据库,如订单的交易情况。如果要分析用户的行为数据、APP的使用情况,还需要一部分行为日志数据,这个时候就需要用「埋点」这种方法来进行APP或Web的数据采集。


  2.外部数据采集:


  指的数通过一些方法获取企业外部的一些数据,具体目的包括,获取竞品的数据、获取官方机构官网公布的一些行业数据等。获取外部数据,通常采用的数据采集方法为「网络爬虫」。


  以上的两类数据采集方法得来的数据,都是二手数据。通过调查和实验采集数据,属于一手数据,在市场调研和科学研究实验中比较常用,不在此次探讨范围之内。


  数据可视化第三步:数据处理和变换。


  数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。


  一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。


  常见的数据质量问题包括:


  1.数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象。


  2.数据中的离群点,即不同于数据集中其他大部分数据对象特征的数据对象。


  3.存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全。


  4.数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。例如,体重是负数,或者所填的邮政编码和城市之间并没有对应关系。


  5.重复值的存在,数据集中包含完全重复或几乎重复的数据。


  正是因为有以上问题的存在,直接拿采集的数据进行分析or可视化,得出的结论往往会误导用户做出错误的决策。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。


  数据可视化的显示空间通常是二维的,比如电脑屏幕、大屏显示器等,3D图形绘制技术解决了在二维平面显示三维物体的问题。


  但是在大数据时代,我们所采集到的数据通常具有4V特性:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。如何从高维、海量、多样化的数据中,挖掘有价值的信息来支持决策,除了需要对数据进行清洗、去除噪声之外,还需要依据业务目的对数据进行二次处理。


  常用的数据处理方法包括:降维、数据聚类和切分、抽样等统计学和机器学习中的方法。


  数据可视化第四步:根据数据关系可视化映射。


  对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。


  可视化元素由3部分组成:可视化空间+标记+视觉通道


  可视化空间


  数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。


  标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。


  根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。


  视觉通道


  数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。


  常用的视觉通道包括:标记的位置、大小(长度、面积、体积。。。)、形状(三角形、圆、立方体。。。)、方向、颜色(色调、饱和度、亮度、透明度。。。)等。


  数据可视化第五步:可视化呈现。


  这个阶段主要包括两个方面:一是进行可视化布局的设计,二是数据图形化的呈现。


  页面布局


  可视化设计的页面布局,要遵循以下三个原则:


  (1)聚焦


  设计者应该通过适当的排版布局,将用户的注意力集中到可视化结果中最重要的区域,从而将重要的数据信息凸显出来,抓住用户的注意力,提升用户信息解读的效率。


  (2)平衡


  要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感。


  (3)简洁


  在可视化整体布局中,要突出重点,避免过于复杂或影响数据呈现效果的冗余元素。


  图表制作


  影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。


  (1)数据层面


  若数据中存在极端值或过多分类项等,会极大影响可视化的效果呈现,如柱形图中柱形条的高度、气泡图中气泡的大小、饼图中的分类项太多等。


  对于数据本身造成的可视化效果不佳的情况,我们是不是就束手无策了呢?当然不是,在以往的可视化过程中,本人虽然也踩了很多坑,但是对于如何解决这类问题也积累了一些经验,下次专题分享。


  (2)非数据层面


  非数据层面,但是影响图表呈现效果的因素,通常在设计过程中就可以解决。


  比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如果不加处理全部放出,视觉上就不够聚焦,干扰到你真正想展示的数据信息。


  因此,对于此类非数据层面,但是影响图表视觉呈现的元素,应该尽量隐藏和弱化。


  


咨询热线:138-9696-4716

提交您的需求,立即免费估价

昵称错误

电话错误

需求错误

温馨提示
你的需求已提交,我们会尽快联系您,请保持电话畅通!