Skip to content

流程映射

流程映射用于将数据集字段映射到标准流程模型字段,实现跨数据集的流程聚合分析。通过字段映射,不同格式的源数据可以被统一处理,为后续的流程分析、风险预测、策略仿真提供一致的数据基础。

前置条件:进行流程映射前,请先创建流程并关联数据集。详见 流程管理

功能架构

流程映射
├── 字段映射配置      # 配置源字段到目标字段的映射关系
├── 映射类型选择      # 全量映射 / 增量映射
├── 映射作业执行      # 执行映射处理
├── 作业状态监控      # 跟踪作业进度和结果
├── 版本管理         # 管理映射版本历史
├── 回滚操作         # 回滚到历史版本
└── 智能映射建议      # AI 辅助推荐映射关系

核心概念

什么是字段映射?

字段映射是将源数据集中的列(字段)与平台标准流程模型字段建立对应关系的过程。

源数据集                          标准流程模型
┌─────────────────────┐           ┌─────────────────────┐
│ order_id            │ ───────→ │ case_id (案例标识符)  │
│ activity_name       │ ───────→ │ activity (活动名称)   │
│ create_time         │ ───────→ │ timestamp (时间戳)    │
│ handler             │ ───────→ │ resource (执行资源)   │
│ department          │ ───────→ │ org_unit (组织单元)   │
│ process_cost        │ ───────→ │ cost (成本)          │
└─────────────────────┘           └─────────────────────┘

为什么需要字段映射?

问题解决方案
不同系统数据格式不同统一映射到标准字段
字段名称不统一字段名映射解决差异
数据质量参差不齐映射时进行数据清洗
多数据集无法联合分析统一映射后聚合分析

映射字段说明

必填字段

目标字段说明数据类型要求业务规则
case_id案例标识符字符串唯一标识一个流程实例,同一案例的所有事件共享相同 case_id
activity活动名称字符串流程中具体操作的名称,如"审批通过"、"订单创建"
timestamp时间戳日期时间事件发生的具体时间,用于确定活动顺序

case_id 业务规则

  • 不能为空
  • 同一数据集内必须唯一(同一案例的多条事件共享同一 case_id)
  • 支持字符串、数字、UUID 等格式
  • 建议:使用有业务含义的 ID(如订单号、工单号)

activity 业务规则

  • 不能为空
  • 建议使用统一的活动名称(避免"审批"和"审核"混用)
  • 平台会自动去除首尾空格
  • 大小写敏感("Submit"和"submit"视为不同活动)

timestamp 业务规则

  • 不能为空
  • 支持格式:
    • YYYY-MM-DDTHH:mm:ss.sssZ (ISO 8601)
    • YYYY-MM-DD HH:mm:ss
    • YYYY-MM-DD
    • Unix 时间戳(毫秒/秒)
  • 时区:系统统一使用 UTC 存储,显示时转换为本地时间
  • 同一案例的事件按 timestamp 排序

可选字段

目标字段说明数据类型要求业务规则
resource执行资源字符串执行该活动的人员或系统,如"张三"、"审批系统"
cost成本数值该活动或案例的处理成本,支持浮点数
org_unit组织单元字符串执行的部门或组织,如"销售部"、"财务部"

resource 业务规则

  • 可为空,为空时表示资源未知
  • 支持按资源进行统计分析
  • 建议使用统一的人员/系统标识

cost 业务规则

  • 可为空
  • 必须为数值类型(整数或浮点)
  • 负数视为无效,按 0 处理
  • 单位由业务自行定义(如元、美元、工时)

org_unit 业务规则

  • 可为空
  • 支持层级结构(如"华东区/上海分公司/销售部")
  • 可用于组织维度的分析

映射类型

1. 全量映射 (Full Mapping)

首次映射或需要重新映射时使用,将所有历史数据一次性映射到目标格式。

适用场景

  • 首次配置映射规则
  • 映射规则发生变化,需要重新处理
  • 数据质量问题需要整体修复

特点

特性说明
数据范围处理全部历史数据
执行时间较长(取决于数据量)
资源消耗较高
数据一致性高(所有数据使用同一规则)

执行流程

创建映射 → 配置字段 → 校验配置 → 执行全量映射 → 生成新版本 → 作业完成

2. 增量映射 (Incremental Mapping)

对于新导入的数据,只映射新增部分,提高处理效率。

适用场景

  • 定期导入的新数据
  • 持续产生数据的业务系统
  • 只想处理新增记录的场合

特点

特性说明
数据范围仅处理新增数据
执行时间较短
资源消耗较低
数据一致性需要确保历史映射已完成

执行前提

  • 必须先执行过全量映射
  • 新数据必须包含与全量映射相同的 case_id 格式
  • 时间戳必须晚于上次映射的最大时间戳

执行流程

检测增量数据 → 配置字段 → 执行增量映射 → 更新版本 → 作业完成

使用流程详解

步骤 1:进入映射管理

进入项目详情页,点击「打开映射管理」进入映射管理页面。

入口位置:项目详情页 → 映射管理按钮

步骤 2:选择数据集

从已关联的数据集中选择要映射的数据源:

选择条件说明
数据集状态必须为「就绪」
数据格式支持 XES、CSV、JSON
数据完整性必需字段无缺失

步骤 3:配置字段映射

从源数据集的字段列表中选择字段,映射到标准目标字段:

映射配置界面

操作说明
下拉选择从源字段列表选择对应字段
智能推荐点击「智能映射」自动推荐
批量映射拖拽批量匹配字段
校验映射实时检查映射配置有效性

字段匹配规则

匹配方式说明优先级
字段名称相似度名称相似的字段优先匹配
数据类型匹配类型相同的字段优先匹配
历史映射记录曾成功映射的组合被记忆
用户手动选择用户明确指定的映射最高

步骤 4:校验配置

点击「校验」按钮,系统会检查:

检查项检查内容不通过时的处理
必填字段case_id、activity、timestamp 是否已映射提示选择字段
数据类型源字段类型是否符合要求提示类型问题
数据完整性源字段是否存在空值提示检查数据
映射冲突是否有多个源字段映射到同一目标提示冲突

步骤 5:执行映射作业

配置完成后,点击「开始映射」启动映射作业:

参数说明默认值
映射类型全量映射 / 增量映射全量映射
映射版本自动生成或指定版本号自动生成

步骤 6:查看结果

作业完成后,可查看:

结果项说明
映射记录数成功映射的事件总数
失败记录数映射失败的记录数
映射版本号生成的版本标识
执行耗时作业执行总时长
生成规则系统提取的映射规则

映射作业管理

作业状态

状态标识说明可执行操作
queued灰色等待执行取消、删除
running蓝色旋转执行中查看进度、取消
succeeded绿色执行成功查看结果、回滚
failed红色执行失败查看日志、重试

作业状态流转

queued → running → succeeded

           failed

进度监控

执行中的作业显示实时进度:

进度指标说明
已处理记录数已完成的记录数
总记录数要处理的记录总数
进度百分比已处理 / 总数 × 100%
预估剩余时间根据当前速度计算

作业取消

正在运行的映射任务可以手动取消:

  1. 点击作业卡片上的「取消」按钮
  2. 确认取消操作

业务规则

  • 取消后已处理的数据不会保存
  • 取消操作不可逆
  • 建议先查看日志了解失败原因再决定是否取消

作业重试

失败的作业可以重新执行:

  1. 点击作业卡片的「重试」按钮
  2. 系统使用相同的配置重新执行

业务规则

  • 重试使用最新的映射配置
  • 建议先查看失败日志修复问题

版本管理

版本生成规则

每次映射执行后,系统会自动生成新版本:

版本格式说明
主版本号全量映射后递增(如 v1 → v2)
副版本号增量映射后递增(如 v1.1 → v1.2)

版本列表

在映射详情页面,可以查看所有历史版本:

版本信息说明
版本号如 v1.0、v1.1、v2.0
映射类型全量映射 / 增量映射
执行时间版本创建时间
映射记录数该版本处理的数据量
执行状态成功 / 失败
操作人执行操作的用户

版本对比

支持对比两个版本的差异:

对比项说明
字段映射变化新增、删除、修改的映射
数据量变化记录数增减
配置变化参数修改记录

回滚到历史版本

如需恢复历史映射规则,可选择对应版本点击「回滚」:

回滚操作流程

选择历史版本 → 确认回滚 → 创建回滚版本 → 更新当前版本

业务规则

  • 回滚会创建新版本,不会删除历史版本
  • 回滚后当前版本变为回滚目标版本
  • 回滚操作不可撤销

智能映射建议

推荐算法

系统会根据以下因素推荐映射字段:

推荐因素说明权重
字段名称相似度与标准字段名相似的源字段优先30%
历史映射记录曾经成功映射的字段组合会被记住30%
数据类型匹配类型相同的字段优先匹配25%
样本数据验证用样本数据验证映射正确性15%

智能映射规则

规则类型示例
名称包含"activity" 匹配 activity
名称相似"act_name" 匹配 activity
下划线命名"create_time" 匹配 timestamp
驼峰命名"createTime" 匹配 timestamp
中文翻译"活动名称" 匹配 activity
类型匹配时间类型字段匹配 timestamp

使用智能映射

  1. 点击「智能映射」按钮
  2. 系统分析源数据结构
  3. 显示推荐的映射关系
  4. 用户确认或调整
  5. 应用推荐配置

数据质量检查

映射前检查

执行映射前,系统会进行数据质量检查:

检查项检查内容不通过时的处理
必填字段完整性case_id、activity、timestamp 非空提示数据清洗
时间格式有效性timestamp 符合支持的格式尝试自动转换
case_id 唯一性同一案例有唯一 case_id提示检查数据
活动名称规范性活动名称无异常字符提示清洗建议

映射中检查

执行映射过程中,系统会检查:

检查项检查内容错误处理
数据截断字符串超长自动截断并记录
类型转换失败无法转换的数据记录为失败,保留原始值
编码问题特殊字符无法处理使用替代字符并记录

映射后报告

映射完成后,生成数据质量报告:

数据质量报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

【映射结果】
• 总记录数:10,000
• 成功映射:9,850 (98.5%)
• 映射失败:150 (1.5%)

【失败记录分析】
• case_id 为空:50 条
• timestamp 格式错误:80 条
• activity 为空:20 条

【数据分布】
• 案例数:1,250
• 平均每案例事件数:8
• 活动时间跨度:30 天

【建议】
1. 修复 50 条空 case_id 数据
2. 统一 timestamp 格式为 ISO 8601
3. 检查 20 条 activity 为空的原因
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

常见问题与解决方案

映射失败

问题:映射作业执行失败

排查步骤

步骤检查内容解决方案
1查看错误日志定位具体失败原因
2检查字段配置确认映射关系正确
3验证数据格式确保数据符合要求
4检查数据量大数据量可能超时

常见错误及处理

错误类型原因解决方案
字段不存在源字段名称错误检查字段名大小写
时间格式错误timestamp 格式不支持转换时间格式
数据为空必填字段为空数据清洗
作业超时数据量过大分批处理或增加超时时间

数据不一致

问题:映射后数据与分析结果不匹配

排查步骤

步骤检查内容解决方案
1检查 case_id 格式确认 ID 生成规则一致
2检查时间戳排序确保按时间正确排序
3检查活动名称确认名称完全一致
4查看映射版本确认使用正确的映射版本

可以修改已映射的数据吗?

答案:已映射的数据不支持直接修改。

替代方案

需求解决方案
调整映射规则创建新的映射版本
修复错误数据在源数据中修正后重新映射
删除错误记录修正源数据后执行增量映射

增量映射失败

问题:增量映射执行失败

常见原因

原因说明解决方案
未执行全量映射增量映射需要先有基准先执行全量映射
数据格式变化新数据格式与原来不一致检查并统一数据格式
时间戳问题新数据时间戳早于已有数据检查数据导入顺序

业务规则汇总

数据规则

规则说明
必填字段case_id、activity、timestamp 必须映射
数据格式timestamp 必须符合支持的格式
case_id 唯一性同一案例共享相同 case_id
增量前提必须先执行全量映射

版本规则

规则说明
版本生成每次映射执行生成新版本
版本数量最多保留 20 个历史版本
回滚操作回滚创建新版本,不删除历史

限制规则

资源限制说明
单次映射数据量最大 100 万条超出建议分批处理
每流程映射版本最多 20 个超出后自动归档旧版本
并行映射作业最多 1 个同一流程同时只能运行一个映射

权限规则

规则说明
租户隔离只能操作所属租户的流程映射
项目权限需要项目访问权限
操作权限创建映射需要编辑权限

最佳实践

1. 映射配置建议

  • 统一字段命名:在数据源头统一字段名称
  • 规范活动名称:建立标准活动名称词典
  • 时间格式统一:使用 ISO 8601 格式
  • 定期校验:定期检查映射结果是否正确

2. 数据质量保证

  • 导入前清洗:数据导入前进行质量检查
  • 必填字段验证:确保必需字段无缺失
  • 格式标准化:统一时间格式和编码
  • 建立数据规范:制定数据接入标准

3. 版本管理建议

  • 重要节点备份:在重要版本处创建备份
  • 版本命名规范:使用有意义的版本命名
  • 定期清理:清理不需要的历史版本
  • 文档记录:记录每个版本的变更内容

4. 增量映射建议

  • 固定时间执行:建议在每天数据导入后执行
  • 监控增量大小:增量过大时考虑全量重做
  • 保留历史记录:保留增量执行记录便于追溯