处理器
TIP
在阅读本节之前,请确保你已理解任务流的工作原理。
处理器是任务流的基本构成单元。你可在任务流中创建处理器,并将它们连接在一起,用以编排你的数据处理逻辑。
处理器状态
比起任务流状态,各个处理器的状态能提供给你更多信息。同时,处理器的状态,反映了任务流的整体状态。
状态 | 简述 |
---|---|
初始态 | 此状态为处理器的默认状态。新建处理器后,该处理器将处于此状态。 |
等待运行 | 任务流还未运行到此处理器时,处理器将处于此状态。 |
运行中 | 上游所依赖的处理器运行完成后,处理器进入“运行中”状态。 |
已取消 | 在任务流被取消运行或其他处理器运行异常时,未被运行到的处理器将被置为“已取消”状态。 |
失败 | 处理器所对应的数据处理任务失败时,处理器将被置为“失败”状态。处理器的失败将会导致整个任务流的失败。 |
已完成 | 表示当前处理器已正常运行结束。 |
配置面板
不同类型的处理器拥有不同的配置规则,在画布上点击处理器的“编辑”按钮,便可对其进行配置。你可在后续章节中查看特定处理器的配置流程。
输出面板
处理器配置完成后,在画布上点击处理器的“输出”按钮,可对其输出结构进行管理。
生成表导入输出表
处理器生成表的结构由配置自动生成,输出表代表传往下游处理器的表结构。
你可以在生成表中选中一些列,并将其导入至输出表中。
在某些情况下, DataSpring 将自动将生成表的内容导入至输出表。
设置主键
通过点击输出表中列的主键按钮,你可以设置主键或取消主键。
流处理模式下,主键的正确设置至关重要。
溯源
通过点击输出表中列的溯源按钮,你可对该列执行溯源操作。
通过执行溯源操作,你可明晰该列在整条任务流中的生命周期。
若该列溯源失败,你也可以获知该列于何处丢失信息。
异常事件检查
对于处理器,DataSpring 拥有多项检查机制。
Warn 级别的异常不影响任务流的执行,但需引起你的注意。
Error 级别的异常将导致处理器无法预览数据,任务流无法执行。
常见的异常事件包括但不限于:
事件 | 级别 | 简介 |
---|---|---|
处理器未配置 | Error | |
部分输出列未指定输出 | Error | |
输出表的表结构为空 | Error | |
输入表没有链接 | Error | |
输出表没有链接 | Warn | |
输入表没有设置主键 | Error | 所有处理器都需要配置主键。 如果抽取器所抽取的表结构没有主键,则系统将自动指定 flink_uuid 作为主键。 |
有部分处理器列溯源失败 | Error | 某列无法溯源而上找到其诞生点。 |
有部分列名不允许 | Error | 比如,当 DataFocus Loader 的输出列名中包含了 DataFocus 系统的保留关键词,则会触发此错误。 你可在 DataFocus 加载器的输出面板中修改列名。 |
输出列和生成列总数不一致 | Error |
事件检查器示例如下图:
你可点击处理器的名称快速定位处理器在任务流中的位置。
预览数据
处理器配置正确后,你可双击处理器预览数据,用以验证你的数据处理逻辑是否正确。
首次预览时,你需要 Dump 数据,待 Dump 任务执行完毕后,便可预览数据。
若处理器的表结构发生变化,则也需手动执行一次 Dump 任务才可获取最新预览数据。
预览数据的条数为 100。
在预览数据面板,通过左右拖动表头中的某列,可以切换列的顺序。也可点击表头中的某列,基于此列对预览数据进行排序。