图 :当业务分析师选择了两列时,引导可视化 统计测试自然会考虑数 过程可能生成的一些图表。
图 :显示引导式可视化流程中一个流程步骤(Hub 上可用的工作 统计测试自然会考虑数 流中的“自定义”组件)的工作流。此处根据所选列的数量和类型生成图形选择。每个图形选择都可以通过其他节点进行增强,以便可视化到相应的组件中。
指导数据科学家从未探索的数据
更有经验的用户,例如数据科学家,可能还会发现可视化数据 WhatsApp 号码数据 的过程具有挑战性,特别是当数据来自未探索的复杂数据集时。例如,我们所说的复杂是指数百个具有神秘名称的列。这个问题在分析过程的最早阶段很常见,专家需要在做出任何假设之前了 带有一个供现场服务团队使用的移动应用程序 解数据。数据可视化是数据探索的强大工具,但是,如果我们有数百个未知列,那么首先需要可视化什么?
自动可视化列之间的有趣模式
快速找到要可视化的有趣列的一种方法是使用统计测试。在这里,我们从非常 通过动 澳大利亚电话号码 态 大的数据集中抽取一个好的样本,然后开始计算单个列、列对甚至列组的大量统计数据。这通常需要大量计算,因此我们应该确保我们抽取的样本不要太大。
使用这种方法,我们可以发现有趣的模式——例如最相关的一对列(图 )、具有偏斜分布的列或具有大量异常值的列。 域。例如,如果我们想找到分类列和数字列之间的有趣关系,我们不会使用相关性度量,而是使用 方差分析检验 (图7)即可。