·发表于Towards Data Science ·阅读时长 7 分钟·2024 年 8 月 22 日
--
无论你是否意识到,你可能已经看过或与图表互动过。我们的世界由各种关系组成。我们认识谁,我们如何互动,我们如何交易——图表以一种使这些固有关系变得显而易见的方式来构建信息。
从分析的角度来看,知识图谱提供了最直观的方式来综合和表示数据集内部以及跨数据集的连接关系,供分析使用。知识图谱是一个技术产物,“以实体及其相互关系的形式将数据以视觉方式呈现”。它为分析师提供了一个数字化的问题模型。它大概是这样的……
图片来源:作者
本文讨论了什么构成一个伟大的图表,并解答了一些关于图表技术实现的常见问题。
图表几乎可以表示任何存在互动或交换的事物。实体(或节点)可以是人、公司、文档、地理位置、银行账户、加密钱包、实物资产等。边(或链接)可以表示对话、电话、电子邮件、学术引用、网络数据包传输、广告展示与转化、金融交易、个人关系等。
图片来源:作者
- 图表的目的很明确。
基于图的解决方案的领域包括分析环境(通常由图数据库提供支持)、图分析技术和图可视化技术。图像和大多数分析工具一样,需要特定的使用案例。图可以用来可视化数据集内外的连接,发现潜在的连接,模拟信息传播或建模传播,建模网络流量或社会行为,识别社交网络中最有影响力的参与者,等等。谁在使用图?这些用户想要在分析和/或可视化方面完成什么?他们是在探索一个组织的数据吗?他们是在回答具体问题吗?他们是在分析、建模、模拟、预测吗?理解图形解决方案需要解决的使用案例是确定图的目的和识别图的领域的第一步。
- 图是特定领域的。
实现基于图形的解决方案时,可能最大的错误就是试图创建一个主图——一个“统治一切的图”。换句话说,就是将所有企业数据放入一个图中。图并不是主数据管理(MDM)解决方案,也不是数据仓库的替代品,即使组织已经有一个可扩展的图数据库。最成功的图通常代表一个特定的分析领域。例如,财务情报图可能包含公司、受益所有权结构、财务交易、金融机构和高净值个人。生活模式定位图可能包含大量信号数据,如 IP 地址和手机数据,以及物理位置、技术资产和个人数据。一旦图的目的和领域明确,架构师就可以着手准备构建图所需的可用数据和/或必需数据。
- 图有清晰的模式。
存储在图数据库中的图将有一个决定其结构的模式。换句话说,模式将指定图中存在的实体类型以及它们之间允许的关系类型。与其他类型的数据库相比,图数据库的一大优势是其模式灵活,可以随着新数据、实体和关系类型的加入而更新。图数据工程师在设计图数据库以表示本体(数据集的概念结构)时,需要做出许多决策,确保模式对于所创建的图来说是合理的。如果组织对数据有充分的理解,通常可以从模式创建开始图架构设计,但如果图的性质和包含的数据集更具探索性,则可能需要首先进行本体设计。
考虑下面图片中的示例架构。这里有五种实体类型:人(黄色)、物理和虚拟位置(蓝色)、文档(灰色)、公司(粉色)和金融账户(绿色)。实体之间允许多种关系类型,例如,“is_related_to”(相关)、“mentions”(提到)和“invests_in”(投资)。这是一个有向图,意味着关系的方向性是有意义的,即,两个人是彼此的婚姻关系(双向链接),而一个人住在某个地方(有向链接)。
图片由作者提供
- 图有明确的机制来连接数据集。
跨数据集的实体之间的连接可能并不总是在数据中显式存在。仅仅将两个数据集导入图环境中,可能会导致许多节点之间没有任何连接。
考虑一个医疗数据集,其中有一个汤姆·马沃洛·里德尔(Tom Marvolo Riddle)条目,以及一个选民注册数据集,其中有一个 T.M.里德尔条目和一个梅罗普·里德尔·高恩(Merope Riddle Gaunt)条目。在医疗数据集中,梅罗普·高恩被列为汤姆·里德尔的母亲。在选民注册数据集中,没有描述家庭成员。如何在合并数据集时消除汤姆·马沃洛·里德尔和 T.M.里德尔条目的重复?即,图中不应有两个独立的节点代表汤姆·里德尔和 T.M.里德尔,因为他们是同一个人。如何将汤姆·里德尔和梅罗普·高恩连接起来,如何像下面的图片那样指定它们的连接关系?例如,连接、相关、母子关系?这种关系是否加权?
这些问题不仅需要数据工程团队来指定图的架构并实现图的设计,还需要某种实体解析过程,我曾经写过相关内容。
图片由作者提供
- 该图被设计为可扩展的。
图数据在图数据存储中是预先连接的,这意味着单跳查询的执行速度比传统数据库要快,例如,查询汤姆·里德尔并查看他所有的直接连接。然 而,在图上的分析操作则相当缓慢,例如,“显示汤姆·里德尔和米勒娃·麦格戈纳戈尔之间的最短路径”,或者“在《哈利·波特与混血王子》中哪个角色具有最高的特征向量中心性”?作为一般规则,图操作中的延迟会随着图密度的增加呈指数增长(图中现有连接与所有可能连接的比率)。大多数图形可视化工具在显示数万节点时会遇到困难。
如果一个组织希望为多个并发分析用户提供可扩展的图解决方案,则需要定制的图数据架构。这包括一个可扩展的图数据库、几个图数据工程过程和一个前端可视化工具。
- 该图有处理时间性的解决方案。
一旦构建了图表解决方案,最大的问题之一就是如何维护它。在图数据库中连接五个数据集并渲染结果图表分析环境只会生成一个时间快照。这些数据集的周期性如何?图表需要多久更新一次,比如每周、每月、每季度或实时?数据是被覆盖还是追加的?被移除的实体会从图表中移除吗,还是被保留?如何提供更新后的数据集,例如增量表,还是再次提供整个数据集?如果数据包含时间元素,它们是如何表示的?
- 基于图表的解决方案由图表数据工程师设计。
图表是美丽的。它们直观、引人注目且高度视觉化。从概念上讲,它们看起来 deceptively 简单。收集一些数据集,指定数据集之间的关系,合并数据,图表就诞生了。分析图表,渲染漂亮的图片。但构建可扩展的图表解决方案所面临的数据工程挑战并非小事。
工具和技术选择、架构设计、图表数据工程、实体解析和数据去重的处理方法,以及根据预期用途进行良好架构设计,都是一些挑战。重要的是,必须有一支真正的图表团队来领导企业级图表解决方案的设计。仅有图表可视化功能并不等于图表解决方案。而一个简单的点选式自服务软件可能适合单个分析师用户,但远远不能满足组织相关的图表分析环境。图表数据工程师、方法论专家和具有图表经验的解决方案架构师是构建高保真图表解决方案所必需的,尤其是在面对上述所有挑战时。
我见过图表改变了许多现实世界的分析组织。无论分析领域如何,分析师的大部分工作都还是手动完成的。市面上有许多技术产品试图自动化分析师的工作流程或创建点选式解决方案。尽管有这些努力,根本问题仍然存在——分析师所需的数据很少能通过一个界面轻松获取,更不用说是互联互通并准备好进行迭代探索。数据通过各种平台、应用程序接口(APIs)和查询工具提供给分析师,而这些都需要不同程度的技术能力才能访问。然后,分析师必须手动整合数据并得出有意义的分析结论。
基于图形的解决方案将分析师的所有相关数据集中在一个地方,并以直观的方式进行呈现。这使得分析师能够根据需要快速点击各个实体和连接,进行分析。我曾亲自帮助团队构建反洗钱解决方案,定位不法分子和非法金融交易,拦截迷失在海上的移民,追踪非法物质的流动,解决非法野生动物贩运问题,并预测迁徙路线,所有这些都采用了基于图形的解决方案。为分析型企业释放图形解决方案的力量,首先需要构建一个出色的图形——这是构建更强大、更具影响力的分析性探索的坚实基础。