Skip to content

处理器

TIP

在阅读本节之前,请确保你已理解任务流的工作原理。

处理器是任务流的基本构成单元。你可在任务流中创建处理器,并将它们连接在一起,用以编排你的数据处理逻辑。

处理器状态

比起任务流状态,各个处理器的状态能提供给你更多信息。同时,处理器的状态,反映了任务流的整体状态。

状态简述
初始态此状态为处理器的默认状态。新建处理器后,该处理器将处于此状态。
等待运行任务流还未运行到此处理器时,处理器将处于此状态。
运行中上游所依赖的处理器运行完成后,处理器进入“运行中”状态。
已取消在任务流被取消运行或其他处理器运行异常时,未被运行到的处理器将被置为“已取消”状态。
失败处理器所对应的数据处理任务失败时,处理器将被置为“失败”状态。处理器的失败将会导致整个任务流的失败。
已完成表示当前处理器已正常运行结束。

配置面板

不同类型的处理器拥有不同的配置规则,在画布上点击处理器的“编辑”按钮,便可对其进行配置。你可在后续章节中查看特定处理器的配置流程。

输出面板

处理器配置完成后,在画布上点击处理器的“输出”按钮,可对其输出结构进行管理。

生成表导入输出表

处理器生成表的结构由配置自动生成,输出表代表传往下游处理器的表结构。
你可以在生成表中选中一些列,并将其导入至输出表中。

在某些情况下, DataSpring 将自动将生成表的内容导入至输出表。

设置主键

通过点击输出表中列的主键按钮,你可以设置主键或取消主键。

流处理模式下,主键的正确设置至关重要。

溯源

通过点击输出表中列的溯源按钮,你可对该列执行溯源操作。

通过执行溯源操作,你可明晰该列在整条任务流中的生命周期。
若该列溯源失败,你也可以获知该列于何处丢失信息。


异常事件检查

对于处理器,DataSpring 拥有多项检查机制。

Warn 级别的异常不影响任务流的执行,但需引起你的注意。
Error 级别的异常将导致处理器无法预览数据,任务流无法执行。

常见的异常事件包括但不限于:

事件              级别简介
处理器未配置Error
部分输出列未指定输出Error
输出表的表结构为空Error
输入表没有链接Error
输出表没有链接Warn
输入表没有设置主键Error所有处理器都需要配置主键。
如果抽取器所抽取的表结构没有主键,则系统将自动指定 flink_uuid 作为主键。
有部分处理器列溯源失败Error某列无法溯源而上找到其诞生点。
有部分列名不允许Error比如,当 DataFocus Loader 的输出列名中包含了 DataFocus 系统的保留关键词,则会触发此错误。
你可在 DataFocus 加载器的输出面板中修改列名。
输出列和生成列总数不一致Error

事件检查器示例如下图:

你可点击处理器的名称快速定位处理器在任务流中的位置。

预览数据

处理器配置正确后,你可双击处理器预览数据,用以验证你的数据处理逻辑是否正确。

首次预览时,你需要 Dump 数据,待 Dump 任务执行完毕后,便可预览数据。
若处理器的表结构发生变化,则也需手动执行一次 Dump 任务才可获取最新预览数据。
预览数据的条数为 100。

在预览数据面板,通过左右拖动表头中的某列,可以切换列的顺序。也可点击表头中的某列,基于此列对预览数据进行排序。