Appearance
流程映射
流程映射用于将数据集字段映射到标准流程模型字段,实现跨数据集的流程聚合分析。通过字段映射,不同格式的源数据可以被统一处理,为后续的流程分析、风险预测、策略仿真提供一致的数据基础。
前置条件:进行流程映射前,请先创建流程并关联数据集。详见 流程管理。
功能架构
流程映射
├── 字段映射配置 # 配置源字段到目标字段的映射关系
├── 映射类型选择 # 全量映射 / 增量映射
├── 映射作业执行 # 执行映射处理
├── 作业状态监控 # 跟踪作业进度和结果
├── 版本管理 # 管理映射版本历史
├── 回滚操作 # 回滚到历史版本
└── 智能映射建议 # AI 辅助推荐映射关系核心概念
什么是字段映射?
字段映射是将源数据集中的列(字段)与平台标准流程模型字段建立对应关系的过程。
源数据集 标准流程模型
┌─────────────────────┐ ┌─────────────────────┐
│ order_id │ ───────→ │ case_id (案例标识符) │
│ activity_name │ ───────→ │ activity (活动名称) │
│ create_time │ ───────→ │ timestamp (时间戳) │
│ handler │ ───────→ │ resource (执行资源) │
│ department │ ───────→ │ org_unit (组织单元) │
│ process_cost │ ───────→ │ cost (成本) │
└─────────────────────┘ └─────────────────────┘为什么需要字段映射?
| 问题 | 解决方案 |
|---|---|
| 不同系统数据格式不同 | 统一映射到标准字段 |
| 字段名称不统一 | 字段名映射解决差异 |
| 数据质量参差不齐 | 映射时进行数据清洗 |
| 多数据集无法联合分析 | 统一映射后聚合分析 |
映射字段说明
必填字段
| 目标字段 | 说明 | 数据类型要求 | 业务规则 |
|---|---|---|---|
| case_id | 案例标识符 | 字符串 | 唯一标识一个流程实例,同一案例的所有事件共享相同 case_id |
| activity | 活动名称 | 字符串 | 流程中具体操作的名称,如"审批通过"、"订单创建" |
| timestamp | 时间戳 | 日期时间 | 事件发生的具体时间,用于确定活动顺序 |
case_id 业务规则
- 不能为空
- 同一数据集内必须唯一(同一案例的多条事件共享同一 case_id)
- 支持字符串、数字、UUID 等格式
- 建议:使用有业务含义的 ID(如订单号、工单号)
activity 业务规则
- 不能为空
- 建议使用统一的活动名称(避免"审批"和"审核"混用)
- 平台会自动去除首尾空格
- 大小写敏感("Submit"和"submit"视为不同活动)
timestamp 业务规则
- 不能为空
- 支持格式:
YYYY-MM-DDTHH:mm:ss.sssZ(ISO 8601)YYYY-MM-DD HH:mm:ssYYYY-MM-DD- Unix 时间戳(毫秒/秒)
- 时区:系统统一使用 UTC 存储,显示时转换为本地时间
- 同一案例的事件按 timestamp 排序
可选字段
| 目标字段 | 说明 | 数据类型要求 | 业务规则 |
|---|---|---|---|
| resource | 执行资源 | 字符串 | 执行该活动的人员或系统,如"张三"、"审批系统" |
| cost | 成本 | 数值 | 该活动或案例的处理成本,支持浮点数 |
| org_unit | 组织单元 | 字符串 | 执行的部门或组织,如"销售部"、"财务部" |
resource 业务规则
- 可为空,为空时表示资源未知
- 支持按资源进行统计分析
- 建议使用统一的人员/系统标识
cost 业务规则
- 可为空
- 必须为数值类型(整数或浮点)
- 负数视为无效,按 0 处理
- 单位由业务自行定义(如元、美元、工时)
org_unit 业务规则
- 可为空
- 支持层级结构(如"华东区/上海分公司/销售部")
- 可用于组织维度的分析
映射类型
1. 全量映射 (Full Mapping)
首次映射或需要重新映射时使用,将所有历史数据一次性映射到目标格式。
适用场景
- 首次配置映射规则
- 映射规则发生变化,需要重新处理
- 数据质量问题需要整体修复
特点
| 特性 | 说明 |
|---|---|
| 数据范围 | 处理全部历史数据 |
| 执行时间 | 较长(取决于数据量) |
| 资源消耗 | 较高 |
| 数据一致性 | 高(所有数据使用同一规则) |
执行流程
创建映射 → 配置字段 → 校验配置 → 执行全量映射 → 生成新版本 → 作业完成2. 增量映射 (Incremental Mapping)
对于新导入的数据,只映射新增部分,提高处理效率。
适用场景
- 定期导入的新数据
- 持续产生数据的业务系统
- 只想处理新增记录的场合
特点
| 特性 | 说明 |
|---|---|
| 数据范围 | 仅处理新增数据 |
| 执行时间 | 较短 |
| 资源消耗 | 较低 |
| 数据一致性 | 需要确保历史映射已完成 |
执行前提
- 必须先执行过全量映射
- 新数据必须包含与全量映射相同的 case_id 格式
- 时间戳必须晚于上次映射的最大时间戳
执行流程
检测增量数据 → 配置字段 → 执行增量映射 → 更新版本 → 作业完成使用流程详解
步骤 1:进入映射管理
进入项目详情页,点击「打开映射管理」进入映射管理页面。
入口位置:项目详情页 → 映射管理按钮
步骤 2:选择数据集
从已关联的数据集中选择要映射的数据源:
| 选择条件 | 说明 |
|---|---|
| 数据集状态 | 必须为「就绪」 |
| 数据格式 | 支持 XES、CSV、JSON |
| 数据完整性 | 必需字段无缺失 |
步骤 3:配置字段映射
从源数据集的字段列表中选择字段,映射到标准目标字段:
映射配置界面
| 操作 | 说明 |
|---|---|
| 下拉选择 | 从源字段列表选择对应字段 |
| 智能推荐 | 点击「智能映射」自动推荐 |
| 批量映射 | 拖拽批量匹配字段 |
| 校验映射 | 实时检查映射配置有效性 |
字段匹配规则
| 匹配方式 | 说明 | 优先级 |
|---|---|---|
| 字段名称相似度 | 名称相似的字段优先匹配 | 高 |
| 数据类型匹配 | 类型相同的字段优先匹配 | 中 |
| 历史映射记录 | 曾成功映射的组合被记忆 | 高 |
| 用户手动选择 | 用户明确指定的映射 | 最高 |
步骤 4:校验配置
点击「校验」按钮,系统会检查:
| 检查项 | 检查内容 | 不通过时的处理 |
|---|---|---|
| 必填字段 | case_id、activity、timestamp 是否已映射 | 提示选择字段 |
| 数据类型 | 源字段类型是否符合要求 | 提示类型问题 |
| 数据完整性 | 源字段是否存在空值 | 提示检查数据 |
| 映射冲突 | 是否有多个源字段映射到同一目标 | 提示冲突 |
步骤 5:执行映射作业
配置完成后,点击「开始映射」启动映射作业:
| 参数 | 说明 | 默认值 |
|---|---|---|
| 映射类型 | 全量映射 / 增量映射 | 全量映射 |
| 映射版本 | 自动生成或指定版本号 | 自动生成 |
步骤 6:查看结果
作业完成后,可查看:
| 结果项 | 说明 |
|---|---|
| 映射记录数 | 成功映射的事件总数 |
| 失败记录数 | 映射失败的记录数 |
| 映射版本号 | 生成的版本标识 |
| 执行耗时 | 作业执行总时长 |
| 生成规则 | 系统提取的映射规则 |
映射作业管理
作业状态
| 状态 | 标识 | 说明 | 可执行操作 |
|---|---|---|---|
| queued | 灰色 | 等待执行 | 取消、删除 |
| running | 蓝色旋转 | 执行中 | 查看进度、取消 |
| succeeded | 绿色 | 执行成功 | 查看结果、回滚 |
| failed | 红色 | 执行失败 | 查看日志、重试 |
作业状态流转
queued → running → succeeded
↓
failed进度监控
执行中的作业显示实时进度:
| 进度指标 | 说明 |
|---|---|
| 已处理记录数 | 已完成的记录数 |
| 总记录数 | 要处理的记录总数 |
| 进度百分比 | 已处理 / 总数 × 100% |
| 预估剩余时间 | 根据当前速度计算 |
作业取消
正在运行的映射任务可以手动取消:
- 点击作业卡片上的「取消」按钮
- 确认取消操作
业务规则:
- 取消后已处理的数据不会保存
- 取消操作不可逆
- 建议先查看日志了解失败原因再决定是否取消
作业重试
失败的作业可以重新执行:
- 点击作业卡片的「重试」按钮
- 系统使用相同的配置重新执行
业务规则:
- 重试使用最新的映射配置
- 建议先查看失败日志修复问题
版本管理
版本生成规则
每次映射执行后,系统会自动生成新版本:
| 版本格式 | 说明 |
|---|---|
| 主版本号 | 全量映射后递增(如 v1 → v2) |
| 副版本号 | 增量映射后递增(如 v1.1 → v1.2) |
版本列表
在映射详情页面,可以查看所有历史版本:
| 版本信息 | 说明 |
|---|---|
| 版本号 | 如 v1.0、v1.1、v2.0 |
| 映射类型 | 全量映射 / 增量映射 |
| 执行时间 | 版本创建时间 |
| 映射记录数 | 该版本处理的数据量 |
| 执行状态 | 成功 / 失败 |
| 操作人 | 执行操作的用户 |
版本对比
支持对比两个版本的差异:
| 对比项 | 说明 |
|---|---|
| 字段映射变化 | 新增、删除、修改的映射 |
| 数据量变化 | 记录数增减 |
| 配置变化 | 参数修改记录 |
回滚到历史版本
如需恢复历史映射规则,可选择对应版本点击「回滚」:
回滚操作流程:
选择历史版本 → 确认回滚 → 创建回滚版本 → 更新当前版本业务规则:
- 回滚会创建新版本,不会删除历史版本
- 回滚后当前版本变为回滚目标版本
- 回滚操作不可撤销
智能映射建议
推荐算法
系统会根据以下因素推荐映射字段:
| 推荐因素 | 说明 | 权重 |
|---|---|---|
| 字段名称相似度 | 与标准字段名相似的源字段优先 | 30% |
| 历史映射记录 | 曾经成功映射的字段组合会被记住 | 30% |
| 数据类型匹配 | 类型相同的字段优先匹配 | 25% |
| 样本数据验证 | 用样本数据验证映射正确性 | 15% |
智能映射规则
| 规则类型 | 示例 |
|---|---|
| 名称包含 | "activity" 匹配 activity |
| 名称相似 | "act_name" 匹配 activity |
| 下划线命名 | "create_time" 匹配 timestamp |
| 驼峰命名 | "createTime" 匹配 timestamp |
| 中文翻译 | "活动名称" 匹配 activity |
| 类型匹配 | 时间类型字段匹配 timestamp |
使用智能映射
- 点击「智能映射」按钮
- 系统分析源数据结构
- 显示推荐的映射关系
- 用户确认或调整
- 应用推荐配置
数据质量检查
映射前检查
执行映射前,系统会进行数据质量检查:
| 检查项 | 检查内容 | 不通过时的处理 |
|---|---|---|
| 必填字段完整性 | case_id、activity、timestamp 非空 | 提示数据清洗 |
| 时间格式有效性 | timestamp 符合支持的格式 | 尝试自动转换 |
| case_id 唯一性 | 同一案例有唯一 case_id | 提示检查数据 |
| 活动名称规范性 | 活动名称无异常字符 | 提示清洗建议 |
映射中检查
执行映射过程中,系统会检查:
| 检查项 | 检查内容 | 错误处理 |
|---|---|---|
| 数据截断 | 字符串超长 | 自动截断并记录 |
| 类型转换失败 | 无法转换的数据 | 记录为失败,保留原始值 |
| 编码问题 | 特殊字符无法处理 | 使用替代字符并记录 |
映射后报告
映射完成后,生成数据质量报告:
数据质量报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
【映射结果】
• 总记录数:10,000
• 成功映射:9,850 (98.5%)
• 映射失败:150 (1.5%)
【失败记录分析】
• case_id 为空:50 条
• timestamp 格式错误:80 条
• activity 为空:20 条
【数据分布】
• 案例数:1,250
• 平均每案例事件数:8
• 活动时间跨度:30 天
【建议】
1. 修复 50 条空 case_id 数据
2. 统一 timestamp 格式为 ISO 8601
3. 检查 20 条 activity 为空的原因
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━常见问题与解决方案
映射失败
问题:映射作业执行失败
排查步骤:
| 步骤 | 检查内容 | 解决方案 |
|---|---|---|
| 1 | 查看错误日志 | 定位具体失败原因 |
| 2 | 检查字段配置 | 确认映射关系正确 |
| 3 | 验证数据格式 | 确保数据符合要求 |
| 4 | 检查数据量 | 大数据量可能超时 |
常见错误及处理:
| 错误类型 | 原因 | 解决方案 |
|---|---|---|
| 字段不存在 | 源字段名称错误 | 检查字段名大小写 |
| 时间格式错误 | timestamp 格式不支持 | 转换时间格式 |
| 数据为空 | 必填字段为空 | 数据清洗 |
| 作业超时 | 数据量过大 | 分批处理或增加超时时间 |
数据不一致
问题:映射后数据与分析结果不匹配
排查步骤:
| 步骤 | 检查内容 | 解决方案 |
|---|---|---|
| 1 | 检查 case_id 格式 | 确认 ID 生成规则一致 |
| 2 | 检查时间戳排序 | 确保按时间正确排序 |
| 3 | 检查活动名称 | 确认名称完全一致 |
| 4 | 查看映射版本 | 确认使用正确的映射版本 |
可以修改已映射的数据吗?
答案:已映射的数据不支持直接修改。
替代方案:
| 需求 | 解决方案 |
|---|---|
| 调整映射规则 | 创建新的映射版本 |
| 修复错误数据 | 在源数据中修正后重新映射 |
| 删除错误记录 | 修正源数据后执行增量映射 |
增量映射失败
问题:增量映射执行失败
常见原因:
| 原因 | 说明 | 解决方案 |
|---|---|---|
| 未执行全量映射 | 增量映射需要先有基准 | 先执行全量映射 |
| 数据格式变化 | 新数据格式与原来不一致 | 检查并统一数据格式 |
| 时间戳问题 | 新数据时间戳早于已有数据 | 检查数据导入顺序 |
业务规则汇总
数据规则
| 规则 | 说明 |
|---|---|
| 必填字段 | case_id、activity、timestamp 必须映射 |
| 数据格式 | timestamp 必须符合支持的格式 |
| case_id 唯一性 | 同一案例共享相同 case_id |
| 增量前提 | 必须先执行全量映射 |
版本规则
| 规则 | 说明 |
|---|---|
| 版本生成 | 每次映射执行生成新版本 |
| 版本数量 | 最多保留 20 个历史版本 |
| 回滚操作 | 回滚创建新版本,不删除历史 |
限制规则
| 资源 | 限制 | 说明 |
|---|---|---|
| 单次映射数据量 | 最大 100 万条 | 超出建议分批处理 |
| 每流程映射版本 | 最多 20 个 | 超出后自动归档旧版本 |
| 并行映射作业 | 最多 1 个 | 同一流程同时只能运行一个映射 |
权限规则
| 规则 | 说明 |
|---|---|
| 租户隔离 | 只能操作所属租户的流程映射 |
| 项目权限 | 需要项目访问权限 |
| 操作权限 | 创建映射需要编辑权限 |
最佳实践
1. 映射配置建议
- 统一字段命名:在数据源头统一字段名称
- 规范活动名称:建立标准活动名称词典
- 时间格式统一:使用 ISO 8601 格式
- 定期校验:定期检查映射结果是否正确
2. 数据质量保证
- 导入前清洗:数据导入前进行质量检查
- 必填字段验证:确保必需字段无缺失
- 格式标准化:统一时间格式和编码
- 建立数据规范:制定数据接入标准
3. 版本管理建议
- 重要节点备份:在重要版本处创建备份
- 版本命名规范:使用有意义的版本命名
- 定期清理:清理不需要的历史版本
- 文档记录:记录每个版本的变更内容
4. 增量映射建议
- 固定时间执行:建议在每天数据导入后执行
- 监控增量大小:增量过大时考虑全量重做
- 保留历史记录:保留增量执行记录便于追溯