CSV 端口
Version 26.1.9526
Version 26.1.9526
CSV 端口
CSV 端口可以将以逗号分隔值的 CSV 文件转换为 XML, 也可以将 XML 转换为 CSV 文件。
核心功能
- 支持 CSV/XML 的双向转换,具有可配置的分隔符和编码格式
- 具有标头检测和自定义列映射能力
- 支持各种字符编码及特殊字符处理
概述
XML 是知行之桥用于处理工作流中数据的主要格式。因此,将 CSV 文件转换为 XML 是作为工作流中进一步处理的过渡步骤,或者在操作 XML 之后将 XML 转换为 CSV 文件也很有用。这两个操作都可以通过 CSV 端口来完成。
更多关于 CSV 转换为 XML 的信息,请参考 CSV 转 XML 部分;将 XML 转换为 CSV 的详细信息,请参考 XML 转 CSV 部分。
端口设置
本节包含所有可配置的端口属性。
设置
配置
与端口 ID 和描述相关的设置。
- 端口 Id 端口的静态、唯一标识符。
- 端口类型 显示端口类型及其用途的描述。
- 端口描述 一个可选字段,用于提供端口及其在流中的角色的自由格式描述。
Connector Settings
与端口核心操作相关的设置。
- 存在列标题 CSV 文件是否包含一行标题,为文件中的值提供名称或上下文。
- 记录名称 转换为 XML 时表示 CSV 文件中的一行的元素名称。 可以使用以下宏:
%ConnectorID%、%FilenameNoExt%、%RegexFilename:% 和 %Header:%。
有关更多详细信息,请参阅将 CSV 转换为 XML。
其它设置
先前类别中未包含的设置。
- 本地文件名格式 用于为端口输出的消息分配文件名的方案。 可以在文件名中动态使用宏来包含标识符和时间戳等信息。 有关详细信息,请参阅宏。
- 延迟处理 放置在输入文件夹中的文件的处理延迟的时间量(以秒为单位)。 这是一个遗留设置。 最佳实践是使用 File 端口 来管理本地文件系统,而不是此设置。
- 行分隔符 用于表示行结束的字符序列。默认情况下,这由系统决定,但可以使用此设置覆盖系统行为。使用
CR或\r表示回车符,使用LF或\n表示换行符。
自动化页面 (Automation Tab)
自动化设置
与端口自动处理文件相关的设置。
- 发送 (Send) 到达端口的消息是否自动进行处理。
性能
与端口资源分配相关的设置。
- 最大工作线程数 此端口上处理文件时从线程池中消耗的最大工作线程数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。
- 最大文件数 分配给端口的每个线程发送的最大文件数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。
高级页面 (Advanced Tab)
消息
- 保存至 Sent 文件夹 选中此选项可将端口处理的文件复制到端口的已发送文件夹中。
- 已发送文件夹方案 指示端口根据选定的时间间隔对已发送文件夹中的消息进行分组。 例如,Weekly 选项指示端口每周创建一个新的子文件夹,并将该周的所有消息存储在该文件夹中。 空白设置告诉端口将所有消息直接保存在“已发送”文件夹中。 对于处理许多消息的端口,使用子文件夹有助于保持消息的组织性并提高性能。
日志
- 日志级别 端口生成的日志的详细程度。 当端口请求支持时,请将其设置为 调试。
- 日志子文件夹方案:指示端口根据所选的时间间隔对日志(Logs)文件夹中的文件进行分组。每周(Weekly)选项(默认设置)指示端口每周创建一个新子文件夹,并将该周的所有日志存储在其中。如果此设置留空,则端口将所有日志直接保存在日志文件夹中。对于处理大量事务的端口,使用子文件夹有助于保持日志井然有序并提高性能。
- 保留消息副本 选中此项可使已处理文件的日志条目包含文件本身的副本。 如果禁用此功能,端口可能无法从 输入 或 输出 选项卡下载文件的副本。
其他设置
- 延迟处理 放置在输入文件夹中的文件的处理延迟的时间量(以秒为单位)。 这是一个遗留设置。 最佳实践是使用 File 端口 来管理本地文件系统,而不是此设置。
特殊设置
特殊设置 适用于特定用例。
- 其他设置 允许在以分号分隔的列表中配置隐藏的端口设置,例如
setting1=value1;setting2=value2。 正常的端口用例和功能不需要使用这些设置。
通知选项卡
与配置通知相关的设置。
在执行服务级别协议 (SLA) 之前,需要设置电子邮件通知以接收通知。默认情况下,知行之桥使用 通知 选项卡上的全局设置。要为此端口使用其他设置,请启用覆盖全局设置。
默认情况下,错误通知处于启用状态,这意味着每当出现错误时都会发送电子邮件。要关闭错误通知,请取消选中启用复选框。
输入主题(必填),然后(可选)输入以逗号分隔的收件人电子邮件列表。
SLA 选项卡
与配置服务级别协议 (SLA) 相关的设置。
SLA 允许配置预期流程中端口发送或接收的数据量,并设置预期达到该数据量的时间范围。当 SLA 未达到时,知行之桥会发送电子邮件警告用户,并将 SLA 标记为_存在风险_,这意味着如果 SLA 未能尽快达到,则会被标记为_已违反_。这让用户有机会介入并确定 SLA 未达到的原因,并采取适当的措施。如果在风险时间段结束时仍未达到 SLA,则会将 SLA 标记为_已违反_,并再次通知用户。
要定义 SLA,请启用预期数据量,然后点击设置选项卡。

- 如果端口具有单独的发送和接收操作,请使用单选按钮指定 SLA 适用的方向。
- 在窗口的预计至少部分中:
- 设置预计处理的最小事务数量(交易量)
- 使用每个字段指定时间范围
- 指示 SLA 生效的时间。如果选择开始于,请填写日期和时间字段。
- 勾选希望 SLA 生效的星期几对应的复选框。如有必要,请使用下拉菜单选择每天。
- 在窗口的将状态设置为“有风险”部分中,指定应将 SLA 标记为有风险的时间。
- 默认情况下,只有在违反 SLA 的情况下才会发送通知。要更改此设置,请勾选发送“有风险”通知。
以下示例显示了为端口配置的 SLA,该端口预计在周一至周五每天接收 1000 个文件。如果尚未收到 1000 个文件,则会在时间段结束前 1 小时发送风险通知。

注意:如果有必要,可以关闭 SLA 通知。这在维护窗口期间非常有用。点击导航栏上的设置,然后跳转到通知 > 通用通知。点击平板和铅笔图标进行编辑,并取消勾选 SLA 通知设置。
CSV 转 XML
当 CSV 文件转换为 XML,得到的 XML 将包含以下结构:
<Items>
<Record>
<field_0></field_0>
<field_1></field_1>
<field_2></field_2>
</Record>
</Items>
原始文件中的每一行(记录)都成为根元素 Items 的子元素。 所有记录元素的名称由端口设置中设置的记录名称选项确定。 每个记录元素都有与输入文件每行中的值相对应的子元素。
某些 CSV 文件包含一行消息头信息,为文件中的值提供上下文。 当启用 存在列标题 设置时,将解析此标题行,并将解析后的标题用作值元素(记录元素的子元素)的元素名称。 否则,值元素将被赋予通用名称,例如 field_0、field_1 等。
XML 转 CSV
要将 XML 转换为 CSV 文件,输入 XML 必须具有“平面”结构。 这意味着,忽略 Items 根元素,XML 结构的深度为 2。 例如:
<Items>
<film>
<title>Citizen Kane</title>
<year>1941</year>
<runtime>119</runtime>
</film>
<film>
<title>Sharknado</title>
<year>2013</year>
<runtime>86</runtime>
</film>
</Items>
XML 解释如下:
- 根元素的子元素在结果文件中被视为记录(行)
- 每个记录元素的子元素被视为每行中的值
如果启用 存在列标题 选项,则会将标题行插入到生成的 CSV 文件中,其中包含每个值元素的名称,以提供值的上下文。 在上面的示例中,此标题行将由 title、year 和 runtime 组成。
打印视图
在端口的页面(Transactions)上查看 CSV 文档时,可以以打印预览格式或原始数据格式进行查看。默认情况下,文档以预览格式显示,如下图所示:

预览格式以易于阅读的布局显示数据。使用右上角的原始视图(Raw View)开关可以查看未格式化的文档。
CSV 转换:使用 XML Map 端口
许多数据转换工作流将 CSV 端口与 XML Map 端口结合使用。
通常,数据以 CSV 格式进入工作流,并以其它某种格式(例如,数据库插入、EDI 文件或插入 CRM 或 ERP 数据源),反之亦然。知行之桥使用一种简化的方法来满足这些数据转换的要求:
- 将输入格式建模为 XML
- 将输出格式建模为 XML
- 使用 XML Map 端口在输入 XML 和输出 XML 之间进行映射
因此,CSV 端口常与工作流中的 XML Map 端口相邻:
- 当 CSV 文件是流程的_输入_ 时,CSV 端口将 CSV 文件转换为 XML,然后将该 XML 传递到 XML Map 端口 被改造
- 当 CSV 文件是流的输出时,CSV 端口从 XML Map 端口接收 XML 并将其转换为 CSV 文件
CSV 端口包含上传测试文件 功能,可简化映射表示 CSV 文件的 XML 的过程。
上传测试文件
XML Map 端口需要用于映射输入/源和映射输出/目标的示例 XML 结构。 通过 上传测试文件 功能,可以轻松使用 CSV 端口生成源或目标 XML 模板。
- 在端口的 输入 选项卡中,单击 更多 下拉菜单,然后单击 上传测试文件。
- 导航到磁盘上要建模为 XML 的文件,选择它,然后单击 确定。
- 将 CSV 端口连接到流程中的 XML Map 端口。此连接可以双向进行:入站到 XML Map 端口,或从 XML Map 端口出站。
XML Map 端口会自动检测测试文件的结构。根据放置 CSV 端口的位置,文件将显示在 XML Map 端口的 源文件 或 目标文件 下拉菜单中。
注意:此测试文件的结构应代表未来的文件。 换句话说,由 CSV 端口(然后是 XML Map 端口)处理的所有 CSV 文件应具有与测试文件相同的列。 可能需要设置多个 CSV 端口和多个 XML Map 端口来处理不同的 CSV 结构。
宏
在文件命名策略中使用宏可以提高组织效率和对数据的上下文理解。 通过将宏合并到文件名中,可以动态地包含相关信息,例如标识符、时间戳和消息头信息,从而为每个文件提供有价值的上下文。 这有助于确保文件名反映对组织重要的详细信息。
知行之桥 支持这些宏,它们都使用以下语法:%Macro%。
| 宏 | 描述 |
|---|---|
| ConnectorID | 替换为端口的 ConnectorID。 |
| Ext | 替换为端口当前正在处理的文件的文件扩展名。 |
| Filename | 替换为端口当前正在处理的文件的文件名(包括扩展名)。 |
| FilenameNoExt | 替换为端口当前正在处理的文件的文件名(不带扩展名)。 |
| MessageId | 计算端口输出的消息的 MessageId。 |
| RegexFilename:pattern | 将正则表达式模式应用于端口当前正在处理的文件的文件名。 |
| Header:headername | 替换为端口正在处理的当前消息的目标消息头 (headername) 的值。 |
| LongDate | 以常规格式计算系统的当前日期时间(例如,2024 年 1 月 24 日星期三)。 |
| ShortDate | 以 yyyy-MM-dd 格式计算系统的当前日期时间(例如 2024-01-24)。 |
| DateFormat:format | 以指定格式(format)计算系统的当前日期时间。 有关可用的日期时间格式,请参阅示例日期格式 |
| Vault:vaultitem | 计算指定保管库项目的值。 |
示例
某些宏(例如 %Ext% 和 %ShortDate%)不需要参数,但其他宏则需要。 所有带有参数的宏都使用以下语法:%Macro:argument%
以下是带有参数的宏的一些示例:
- %Header:headername%:其中
headername是消息上消息头的名称。 - %Header:mycustomheader% 解析为输入消息上设置的
mycustomheader消息头的值。 - %Header:ponum% 解析为输入消息上设置的
ponum消息头的值。 - %RegexFilename:pattern%:其中“pattern”是正则表达式模式。 例如,
%RegexFilename:^([\w][A-Za-z]+)%匹配并解析为文件名中的第一个单词,并且不区分大小写(test_file.xml解析为test) 。 - %Vault:vaultitem%:其中
vaultitem是 vault 中项目的名称。 例如,%Vault:companyname%解析为存储在保管库中的companyname项的值。 - %DateFormat:format%:其中
format是可接受的日期格式(有关详细信息,请参阅示例日期格式)。 例如,%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%解析为文件上的日期和时间戳。
还可以创建更复杂的宏,如以下示例所示:
- 将多个宏组合在一个文件名中:
%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%%EXT% - 包括宏之外的文本:
MyFile_%DateFormat:yyyy-MM-dd-HH-mm-ss-fff% - 在宏中包含文本:
%DateFormat:'DateProcessed-'yyyy-MM-dd_'TimeProcessed-'HH-mm-ss%
CSV 运算器
除了知行之桥提供的 运算器 之外,端口还可以提供将功能扩展到 ArcScript 的运算器。
这些端口运算器的调用方式与任何其他 ArcScript 运算器一样,但有两个细节除外:
- 必须通过
connector.rsc接口调用它们。 - 它们必须包含身份验证令牌。
例如,使用这两个规则调用端口运算器可能如下所示:
<arc:set attr="in.myInput" value="myvalue" />
<arc:call op="connector.rsc/opName" authtoken="admin:1j9P8v8b9K0x6g5R5t7k" in="in" out="out">
<!-- 处理此处运算器的输出 -->
</arc:call>
下面列出了 CSV 端口功能的特定操作。
csvListRecords
循环遍历指定 CSV 文件或字符串中的每个记录。有关更多详细信息,请参阅函数。
必需参数
- file: CSV 文件的路径。
可选参数
- data: 如果 CSV 的数据是以字符串形式存在,而不是存储在 CSV 文件中,请使用此参数代替 file。
- columns: 指定输出中要包含的列,用逗号分隔(如果未指定,将包含所有列)。
- requireheader: 默认情况下,数据的第一行被解释为列标题;设置为 false 时,将使用通用列名(如 c1, c2, c3)。
输出
运算器 csvListRecords 将执行多次: 对输入的 CSV 文件/数据中找到的每个记录/行都执行一次。在运算器中,可以使用 csv 访问各个 CSV 的值。该格式将列名作为参数,并输出该列中当前记录的值。
例如,假设 CSV 输入数据中包含订单购买的一组产品,并且商品名称保存在 “ItemName” 列中。以下脚本生成包含每个 <Item> 值的 XML:
<ItemList>
<arc:call op="csvListRecords?file=myFile.csv">
<Item>[csv('ItemName')]</Item>
</arc:call>
</ItemList>