全部版块 我的主页
论坛 新商科论坛 四区(原工商管理论坛) 商学院 创新与战略管理
102 0
2025-11-26

一、实验基础概述

图数据库属于非关系型数据库的一种,其核心理论基于图论,通过节点(Vertices/Nodes)、边(Edges)以及属性(Properties)对数据进行建模与存储。相较于传统的关系型数据库,图数据库在处理复杂关联网络(如社交关系链、资金流转路径、知识图谱等场景)中展现出更高的查询效率和更直观的结构表达能力。

TuGraph 图数据库平台简介

TuGraph 是由蚂蚁集团自主研发的高性能图数据库系统,具备强大的单机数据承载能力、高吞吐性能以及灵活的 API 支持,能够同时满足在线事务处理(OLTP)与在线分析处理(OLAP)的需求。本实验采用 TuGraph 提供的 Web 可视化控制台,完成图模型构建、数据导入及多类查询操作。

实验所用数据集说明

本次实验选取了 Elliptic Data Set 中的两个子集作为分析对象:

  • Transactions Dataset(比特币交易数据集):包含交易节点信息(txs_classes.csv)和交易之间的流向关系(txs_edgelist.csv)。每个节点记录了交易 ID 和类别标签(非法、合法或未知),边则表示比特币资金的实际流动方向。
  • Actors Dataset(钱包地址数据集):包括钱包地址节点(wallets_classes.csv)及其间的转账关系边(AddrAddr_edgelist.csv),用于研究不同分类钱包间的资金交互模式。

二、TuGraph 平台启动流程

  1. 登录阿里云计算巢服务管理后台,启动 TuGraph 实例服务。
  2. 进入对应的服务实例页面,申请并激活免费试用权限。
  3. 使用默认管理员账户 admin 及预设密码登录系统。
  4. 认证成功后,跳转至 TuGraph 欢迎界面,即可开始创建新的图项目。

三、Transactions Dataset 的图建模与数据导入

(一)图结构设计

  1. 新建一个名为“作业11hzz”的图项目。
  2. 定义点类型为 Transactions,用于表示每一笔交易记录。
  3. 添加属性 txId,设定类型为 INT32,并标记为主键(Primary Key)。
  4. 增加 class 属性,类型为 STRING,用于标识该交易是否属于非法、合法或未知类别。
  5. 创建边类型 Transfer,连接起点与终点均为 Transactions 类型的节点,体现资金从一笔交易流向另一笔的过程。

(二)数据导入执行过程

  1. 上传文件 elliptic_txs_classes.csv 导入节点数据。将源文件中的 txId 列映射到模型中的 txId 字段,class 列对应 class 字段。最终成功载入 203,769 条交易节点记录。
  2. 上传椭圆交易边列表文件 elliptic_txs_edgelist.csv 进行边数据导入。将 txId1 映射为起始节点 ID(SRC_ID),txId2 映射为目的节点 ID(DST_ID)。共成功导入 234,355 条边数据,完整还原资金流动拓扑。

四、Actors Dataset 的图建模与数据导入

(一)模型构建步骤

  1. 创建点类型 actor,代表参与交易的钱包实体。
  2. 配置属性 address,类型为 STRING,设置为主键,对应实际钱包地址。
  3. 添加 class 属性,类型为 INT32,用于区分钱包所属类别。
  4. 定义边类型 edge,连接两个 actor 节点,反映地址之间的转账行为。
  5. 设置该边的起点和终点类型均为 actor,形成完整的转账网络结构。

(二)数据导入情况与特殊说明

  1. 上传 wallets_classes.csv 文件,成功导入 65,535 个钱包地址节点。
  2. 继续上传 AddrAddr_edgelist.csv 文件以导入边数据,建立地址间转账关系。

尽管图模型的设计与操作流程正确无误,但需注意所使用的两个数据文件并非完全匹配的子集。边文件涵盖了大规模的转账活动记录,而当前导入的点文件仅覆盖其中一小部分参与者地址,因此存在大量边指向未被加载的钱包节点的情况。

五、Cypher 查询语言操作示例

(一)针对 Transactions Dataset 的操作演示

1. 基础查询(Basic Query)

目标:检索并展示 10 个被标记为“非法(Illicit)”的交易节点。
实际意义:在反洗钱应用场景中,可快速识别已知的高风险交易行为,辅助监管与预警机制。

2. 数据增删操作(Create & Delete)

目标:模拟新增一笔可疑交易记录,在核查后将其删除。
实际意义:体现图数据库对动态数据维护的支持能力,例如人工录入最新发现的黑名单交易,并在确认无效后及时清除。

  • 显示成功创建了一个 txId 为 999999 的新节点。
  • 随后执行删除命令,结果显示 1 个节点被移除,验证清理操作生效。

3. 复杂查询(Complex Query)

(后续内容可根据需要扩展,此处保留原结构占位)

资金链路追踪:识别非法资金的流动路径

核心目标是追踪“非法交易”中流出的资金,探索其两跳范围内的转移路径。这一过程在图数据库中被称为资金链路分析,是反洗钱场景下的关键能力。通过该技术,可以有效识别“脏钱”的去向,判断其是否已渗透至看似合法的账户体系中。

Actor 数据集操作示例

基础数据检索

从数据集中筛选出类别为“2”的10个钱包地址。此类操作常用于快速定位特定类型的账户,例如已知的交易所钱包或高活跃度用户地址,为后续深入分析提供起点。

节点管理:创建与移除

模拟系统中账户的生命周期行为,包括新增和删除钱包地址,以测试图数据库在动态环境下的稳定性与准确性。

(1)新增节点
向图中添加一个用于测试的虚拟钱包地址,验证写入操作的正确性。

(2)移除节点
在确认测试无误后,将该临时节点从图数据库中删除,确保数据环境的清洁。

深度路径查询

旨在发现从“类别3”钱包到“类别2”钱包之间的资金流动路径。该查询的实际意义在于揭示潜在的资金来源关系——特别是当未知身份的钱包(Class 3)频繁向可识别实体(如交易所等 Class 2 账户)进行转账时,可能暗示着可疑的资金归集行为,是金融风控中的重要分析维度。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群