CSV 端口

Version 26.1.9526


CSV 端口


CSV 端口可以将以逗号分隔值的 CSV 文件转换为 XML, 也可以将 XML 转换为 CSV 文件。

核心功能

  • 支持 CSV/XML 的双向转换,具有可配置的分隔符和编码格式
  • 具有标头检测和自定义列映射能力
  • 支持各种字符编码及特殊字符处理

概述

XML 是知行之桥用于处理工作流中数据的主要格式。因此,将 CSV 文件转换为 XML 是作为工作流中进一步处理的过渡步骤,或者在操作 XML 之后将 XML 转换为 CSV 文件也很有用。这两个操作都可以通过 CSV 端口来完成。

更多关于 CSV 转换为 XML 的信息,请参考 CSV 转 XML 部分;将 XML 转换为 CSV 的详细信息,请参考 XML 转 CSV 部分。

端口设置

本节包含所有可配置的端口属性。

设置

配置

与端口 ID 和描述相关的设置。

  • 端口 Id 端口的静态、唯一标识符。
  • 端口类型 显示端口类型及其用途的描述。
  • 端口描述 一个可选字段,用于提供端口及其在流中的角色的自由格式描述。

Connector Settings

与端口核心操作相关的设置。

  • 存在列标题 CSV 文件是否包含一行标题,为文件中的值提供名称或上下文。
  • 记录名称 转换为 XML 时表示 CSV 文件中的一行的元素名称。 可以使用以下宏:
    %ConnectorID%、%FilenameNoExt%、%RegexFilename:% 和 %Header:%。
    有关更多详细信息,请参阅将 CSV 转换为 XML

其它设置

先前类别中未包含的设置。

  • 本地文件名格式 用于为端口输出的消息分配文件名的方案。 可以在文件名中动态使用宏来包含标识符和时间戳等信息。 有关详细信息,请参阅
  • 延迟处理 放置在输入文件夹中的文件的处理延迟的时间量(以秒为单位)。 这是一个遗留设置。 最佳实践是使用 File 端口 来管理本地文件系统,而不是此设置。
  • 行分隔符 用于表示行结束的字符序列。默认情况下,这由系统决定,但可以使用此设置覆盖系统行为。使用 CR\r 表示回车符,使用 LF\n 表示换行符。

自动化页面 (Automation Tab)

自动化设置

与端口自动处理文件相关的设置。

  • 发送 (Send) 到达端口的消息是否自动进行处理。

性能

与端口资源分配相关的设置。

  • 最大工作线程数 此端口上处理文件时从线程池中消耗的最大工作线程数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。
  • 最大文件数 分配给端口的每个线程发送的最大文件数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。

高级页面 (Advanced Tab)

消息

  • 保存至 Sent 文件夹 选中此选项可将端口处理的文件复制到端口的已发送文件夹中。
  • 已发送文件夹方案 指示端口根据选定的时间间隔对已发送文件夹中的消息进行分组。 例如,Weekly 选项指示端口每周创建一个新的子文件夹,并将该周的所有消息存储在该文件夹中。 空白设置告诉端口将所有消息直接保存在“已发送”文件夹中。 对于处理许多消息的端口,使用子文件夹有助于保持消息的组织性并提高性能。

日志

  • 日志级别 端口生成的日志的详细程度。 当端口请求支持时,请将其设置为 调试
  • 日志子文件夹方案:指示端口根据所选的时间间隔对日志(Logs)文件夹中的文件进行分组。每周(Weekly)选项(默认设置)指示端口每周创建一个新子文件夹,并将该周的所有日志存储在其中。如果此设置留空,则端口将所有日志直接保存在日志文件夹中。对于处理大量事务的端口,使用子文件夹有助于保持日志井然有序并提高性能。
  • 保留消息副本 选中此项可使已处理文件的日志条目包含文件本身的副本。 如果禁用此功能,端口可能无法从 输入输出 选项卡下载文件的副本。

其他设置

  • 延迟处理 放置在输入文件夹中的文件的处理延迟的时间量(以秒为单位)。 这是一个遗留设置。 最佳实践是使用 File 端口 来管理本地文件系统,而不是此设置。

特殊设置

特殊设置 适用于特定用例。

  • 其他设置 允许在以分号分隔的列表中配置隐藏的端口设置,例如setting1=value1;setting2=value2。 正常的端口用例和功能不需要使用这些设置。

通知选项卡

与配置通知相关的设置。

在执行服务级别协议 (SLA) 之前,需要设置电子邮件通知以接收通知。默认情况下,知行之桥使用 通知 选项卡上的全局设置。要为此端口使用其他设置,请启用覆盖全局设置

默认情况下,错误通知处于启用状态,这意味着每当出现错误时都会发送电子邮件。要关闭错误通知,请取消选中启用复选框。

输入主题(必填),然后(可选)输入以逗号分隔的收件人电子邮件列表。

SLA 选项卡

与配置服务级别协议 (SLA) 相关的设置。

SLA 允许配置预期流程中端口发送或接收的数据量,并设置预期达到该数据量的时间范围。当 SLA 未达到时,知行之桥会发送电子邮件警告用户,并将 SLA 标记为_存在风险_,这意味着如果 SLA 未能尽快达到,则会被标记为_已违反_。这让用户有机会介入并确定 SLA 未达到的原因,并采取适当的措施。如果在风险时间段结束时仍未达到 SLA,则会将 SLA 标记为_已违反_,并再次通知用户。

要定义 SLA,请启用预期数据量,然后点击设置选项卡。

  • 如果端口具有单独的发送和接收操作,请使用单选按钮指定 SLA 适用的方向。
  • 在窗口的预计至少部分中:
    • 设置预计处理的最小事务数量(交易量)
    • 使用每个字段指定时间范围
    • 指示 SLA 生效的时间。如果选择开始于,请填写日期和时间字段。
    • 勾选希望 SLA 生效的星期几对应的复选框。如有必要,请使用下拉菜单选择每天
  • 在窗口的将状态设置为“有风险”部分中,指定应将 SLA 标记为有风险的时间。
    • 默认情况下,只有在违反 SLA 的情况下才会发送通知。要更改此设置,请勾选发送“有风险”通知

以下示例显示了为端口配置的 SLA,该端口预计在周一至周五每天接收 1000 个文件。如果尚未收到 1000 个文件,则会在时间段结束前 1 小时发送风险通知。

注意:如果有必要,可以关闭 SLA 通知。这在维护窗口期间非常有用。点击导航栏上的设置,然后跳转到通知 > 通用通知。点击平板和铅笔图标进行编辑,并取消勾选 SLA 通知设置。

CSV 转 XML

当 CSV 文件转换为 XML,得到的 XML 将包含以下结构:

<Items>
  <Record>
    <field_0></field_0>
    <field_1></field_1>
    <field_2></field_2>
  </Record>
</Items> 

原始文件中的每一行(记录)都成为根元素 Items 的子元素。 所有记录元素的名称由端口设置中设置的记录名称选项确定。 每个记录元素都有与输入文件每行中的值相对应的子元素。

某些 CSV 文件包含一行消息头信息,为文件中的值提供上下文。 当启用 存在列标题 设置时,将解析此标题行,并将解析后的标题用作值元素(记录元素的子元素)的元素名称。 否则,值元素将被赋予通用名称,例如 field_0field_1 等。

XML 转 CSV

要将 XML 转换为 CSV 文件,输入 XML 必须具有“平面”结构。 这意味着,忽略 Items 根元素,XML 结构的深度为 2。 例如:

<Items>
  <film>
    <title>Citizen Kane</title>
    <year>1941</year>
    <runtime>119</runtime>
  </film>
  <film>
    <title>Sharknado</title>
    <year>2013</year>
    <runtime>86</runtime>
  </film>
</Items>

XML 解释如下:

  • 根元素的子元素在结果文件中被视为记录(行)
  • 每个记录元素的子元素被视为每行中的值

如果启用 存在列标题 选项,则会将标题行插入到生成的 CSV 文件中,其中包含每个值元素的名称,以提供值的上下文。 在上面的示例中,此标题行将由 titleyearruntime 组成。

打印视图

在端口的页面(Transactions)上查看 CSV 文档时,可以以打印预览格式或原始数据格式进行查看。默认情况下,文档以预览格式显示,如下图所示:

预览格式以易于阅读的布局显示数据。使用右上角的原始视图(Raw View)开关可以查看未格式化的文档。

CSV 转换:使用 XML Map 端口

许多数据转换工作流将 CSV 端口与 XML Map 端口结合使用。

通常,数据以 CSV 格式进入工作流,并以其它某种格式(例如,数据库插入、EDI 文件或插入 CRM 或 ERP 数据源),反之亦然。知行之桥使用一种简化的方法来满足这些数据转换的要求:

  • 将输入格式建模为 XML
  • 将输出格式建模为 XML
  • 使用 XML Map 端口在输入 XML 和输出 XML 之间进行映射

因此,CSV 端口常与工作流中的 XML Map 端口相邻:

  • 当 CSV 文件是流程的_输入_ 时,CSV 端口将 CSV 文件转换为 XML,然后将该 XML 传递到 XML Map 端口 被改造
  • 当 CSV 文件是流的输出时,CSV 端口从 XML Map 端口接收 XML 并将其转换为 CSV 文件

CSV 端口包含上传测试文件 功能,可简化映射表示 CSV 文件的 XML 的过程。

上传测试文件

XML Map 端口需要用于映射输入/源和映射输出/目标的示例 XML 结构。 通过 上传测试文件 功能,可以轻松使用 CSV 端口生成源或目标 XML 模板。

  1. 在端口的 输入 选项卡中,单击 更多 下拉菜单,然后单击 上传测试文件
  2. 导航到磁盘上要建模为 XML 的文件,选择它,然后单击 确定
  3. 将 CSV 端口连接到流程中的 XML Map 端口。此连接可以双向进行:入站到 XML Map 端口,或从 XML Map 端口出站。

XML Map 端口会自动检测测试文件的结构。根据放置 CSV 端口的位置,文件将显示在 XML Map 端口的 源文件目标文件 下拉菜单中。

注意:此测试文件的结构应代表未来的文件。 换句话说,由 CSV 端口(然后是 XML Map 端口)处理的所有 CSV 文件应具有与测试文件相同的列。 可能需要设置多个 CSV 端口和多个 XML Map 端口来处理不同的 CSV 结构。

在文件命名策略中使用宏可以提高组织效率和对数据的上下文理解。 通过将宏合并到文件名中,可以动态地包含相关信息,例如标识符、时间戳和消息头信息,从而为每个文件提供有价值的上下文。 这有助于确保文件名反映对组织重要的详细信息。

知行之桥 支持这些宏,它们都使用以下语法:%Macro%

描述
ConnectorID 替换为端口的 ConnectorID。
Ext 替换为端口当前正在处理的文件的文件扩展名。
Filename 替换为端口当前正在处理的文件的文件名(包括扩展名)。
FilenameNoExt 替换为端口当前正在处理的文件的文件名(不带扩展名)。
MessageId 计算端口输出的消息的 MessageId。
RegexFilename:pattern 将正则表达式模式应用于端口当前正在处理的文件的文件名。
Header:headername 替换为端口正在处理的当前消息的目标消息头 (headername) 的值。
LongDate 以常规格式计算系统的当前日期时间(例如,2024 年 1 月 24 日星期三)。
ShortDate 以 yyyy-MM-dd 格式计算系统的当前日期时间(例如 2024-01-24)。
DateFormat:format 以指定格式(format)计算系统的当前日期时间。 有关可用的日期时间格式,请参阅示例日期格式
Vault:vaultitem 计算指定保管库项目的值。

示例

某些宏(例如 %Ext% 和 %ShortDate%)不需要参数,但其他宏则需要。 所有带有参数的宏都使用以下语法:%Macro:argument%

以下是带有参数的宏的一些示例:

  • %Header:headername%:其中 headername 是消息上消息头的名称。
  • %Header:mycustomheader% 解析为输入消息上设置的 mycustomheader 消息头的值。
  • %Header:ponum% 解析为输入消息上设置的 ponum 消息头的值。
  • %RegexFilename:pattern%:其中“pattern”是正则表达式模式。 例如,%RegexFilename:^([\w][A-Za-z]+)% 匹配并解析为文件名中的第一个单词,并且不区分大小写(test_file.xml解析为test) 。
  • %Vault:vaultitem%:其中 vaultitemvault 中项目的名称。 例如,%Vault:companyname%解析为存储在保管库中的companyname项的值。
  • %DateFormat:format%:其中 format 是可接受的日期格式(有关详细信息,请参阅示例日期格式)。 例如,%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%解析为文件上的日期和时间戳。

还可以创建更复杂的宏,如以下示例所示:

  • 将多个宏组合在一个文件名中:%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%%EXT%
  • 包括宏之外的文本:MyFile_%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%
  • 在宏中包含文本: %DateFormat:'DateProcessed-'yyyy-MM-dd_'TimeProcessed-'HH-mm-ss%

CSV 运算器

除了知行之桥提供的 运算器 之外,端口还可以提供将功能扩展到 ArcScript 的运算器。

这些端口运算器的调用方式与任何其他 ArcScript 运算器一样,但有两个细节除外:

  1. 必须通过 connector.rsc 接口调用它们。
  2. 它们必须包含身份验证令牌。

例如,使用这两个规则调用端口运算器可能如下所示:

<arc:set attr="in.myInput" value="myvalue" />
<arc:call op="connector.rsc/opName" authtoken="admin:1j9P8v8b9K0x6g5R5t7k" in="in" out="out">
  <!-- 处理此处运算器的输出 -->
</arc:call>

下面列出了 CSV 端口功能的特定操作。

csvListRecords

循环遍历指定 CSV 文件或字符串中的每个记录。有关更多详细信息,请参阅函数

必需参数

  • file: CSV 文件的路径。

可选参数

  • data: 如果 CSV 的数据是以字符串形式存在,而不是存储在 CSV 文件中,请使用此参数代替 file
  • columns: 指定输出中要包含的列,用逗号分隔(如果未指定,将包含所有列)。
  • requireheader: 默认情况下,数据的第一行被解释为列标题;设置为 false 时,将使用通用列名(如 c1, c2, c3)。

输出

运算器 csvListRecords 将执行多次: 对输入的 CSV 文件/数据中找到的每个记录/行都执行一次。在运算器中,可以使用 csv 访问各个 CSV 的值。该格式将列名作为参数,并输出该列中当前记录的值。

例如,假设 CSV 输入数据中包含订单购买的一组产品,并且商品名称保存在 “ItemName” 列中。以下脚本生成包含每个 <Item> 值的 XML:

<ItemList>
  <arc:call op="csvListRecords?file=myFile.csv">
    <Item>[csv('ItemName')]</Item>
  </arc:call>
</ItemList>