CSV 端口

Version 26.1.9596

CSV 端口

CSV 端口可以将以逗号分隔值的 CSV 文件转换为 XML，也可以将 XML 转换为 CSV 文件。

核心功能

支持 CSV/XML 的双向转换，具有可配置的分隔符和编码格式
具有标头检测和自定义列映射能力
支持各种字符编码及特殊字符处理

概述

XML 是知行之桥用于处理工作流中数据的主要格式。因此，将 CSV 文件转换为 XML 是作为工作流中进一步处理的过渡步骤，或者在操作 XML 之后将 XML 转换为 CSV 文件也很有用。这两个操作都可以通过 CSV 端口来完成。

更多关于 CSV 转换为 XML 的信息，请参考 CSV 转 XML 部分；将 XML 转换为 CSV 的详细信息，请参考 XML 转 CSV 部分。

端口设置

本节包含所有可配置的端口属性。

设置

配置

与端口 ID 和描述相关的设置。

端口 Id 端口的静态、唯一标识符。
端口类型 显示端口类型及其用途的描述。
端口描述 一个可选字段，用于提供端口及其在流中的角色的自由格式描述。

Connector Settings

与端口核心操作相关的设置。

存在列标题 CSV 文件是否包含一行标题，为文件中的值提供名称或上下文。
记录名称 转换为 XML 时表示 CSV 文件中的一行的元素名称。可以使用以下宏：
%ConnectorID%、%FilenameNoExt%、%RegexFilename:% 和 %Header:%。
有关更多详细信息，请参阅将 CSV 转换为 XML。

其它设置

先前类别中未包含的设置。

本地文件名格式 用于为端口输出的消息分配文件名的方案。可以在文件名中动态使用宏来包含标识符和时间戳等信息。有关详细信息，请参阅宏。
延迟处理 放置在输入文件夹中的文件的处理延迟的时间量（以秒为单位）。这是一个遗留设置。最佳实践是使用 File 端口来管理本地文件系统，而不是此设置。
行分隔符 用于表示行结束的字符序列。默认情况下，这由系统决定，但可以使用此设置覆盖系统行为。使用 CR 或 \r 表示回车符，使用 LF 或 \n 表示换行符。

自动化页面 (Automation Tab)

自动化设置

与端口自动处理文件相关的设置。

发送 (Send) 到达端口的消息是否自动进行处理。

性能

与端口资源分配相关的设置。

最大工作线程数 此端口上处理文件时从线程池中消耗的最大工作线程数。如果设置，则会覆盖高级设置页面的性能设置部分的默认设置。
最大文件数 分配给端口的每个线程发送的最大文件数。如果设置，则会覆盖高级设置页面的性能设置部分的默认设置。

高级页面 (Advanced Tab)

消息

保存至 Sent 文件夹 选中此选项可将端口处理的文件复制到端口的已发送文件夹中。
已发送文件夹方案 指示端口根据选定的时间间隔对已发送文件夹中的消息进行分组。例如，Weekly 选项指示端口每周创建一个新的子文件夹，并将该周的所有消息存储在该文件夹中。空白设置告诉端口将所有消息直接保存在“已发送”文件夹中。对于处理许多消息的端口，使用子文件夹有助于保持消息的组织性并提高性能。

日志

日志级别 端口生成的日志的详细程度。当端口请求支持时，请将其设置为调试。
日志子文件夹方案：指示端口根据所选的时间间隔对日志（Logs）文件夹中的文件进行分组。每周（Weekly）选项（默认设置）指示端口每周创建一个新子文件夹，并将该周的所有日志存储在其中。如果此设置留空，则端口将所有日志直接保存在日志文件夹中。对于处理大量事务的端口，使用子文件夹有助于保持日志井然有序并提高性能。
保留消息副本 选中此项可使已处理文件的日志条目包含文件本身的副本。如果禁用此功能，端口可能无法从输入或输出选项卡下载文件的副本。

其他设置

延迟处理 放置在输入文件夹中的文件的处理延迟的时间量（以秒为单位）。这是一个遗留设置。最佳实践是使用 File 端口来管理本地文件系统，而不是此设置。

特殊设置

特殊设置 适用于特定用例。

其他设置 允许在以分号分隔的列表中配置隐藏的端口设置，例如setting1=value1;setting2=value2。正常的端口用例和功能不需要使用这些设置。

通知选项卡

与配置通知相关的设置。

在执行服务级别协议 (SLA) 之前，需要设置电子邮件通知以接收通知。默认情况下，知行之桥使用通知选项卡上的全局设置。要为此端口使用其他设置，请启用覆盖全局设置。

默认情况下，错误通知处于启用状态，这意味着每当出现错误时都会发送电子邮件。要关闭错误通知，请取消选中启用复选框。

输入主题（必填），然后（可选）输入以逗号分隔的收件人电子邮件列表。

SLA 选项卡

与配置服务级别协议 (SLA) 相关的设置。

SLA 允许配置预期流程中端口发送或接收的数据量，并设置预期达到该数据量的时间范围。当 SLA 未达到时，知行之桥会发送电子邮件警告用户，并将 SLA 标记为_存在风险_，这意味着如果 SLA 未能尽快达到，则会被标记为_已违反_。这让用户有机会介入并确定 SLA 未达到的原因，并采取适当的措施。如果在风险时间段结束时仍未达到 SLA，则会将 SLA 标记为_已违反_，并再次通知用户。

要定义 SLA，请启用预期数据量，然后点击设置选项卡。

如果端口具有单独的发送和接收操作，请使用单选按钮指定 SLA 适用的方向。
在窗口的预计至少部分中：
- 设置预计处理的最小事务数量（交易量）
- 使用每个字段指定时间范围
- 指示 SLA 生效的时间。如果选择开始于，请填写日期和时间字段。
- 勾选希望 SLA 生效的星期几对应的复选框。如有必要，请使用下拉菜单选择每天。
在窗口的将状态设置为“有风险”部分中，指定应将 SLA 标记为有风险的时间。
- 默认情况下，只有在违反 SLA 的情况下才会发送通知。要更改此设置，请勾选发送“有风险”通知。

以下示例显示了为端口配置的 SLA，该端口预计在周一至周五每天接收 1000 个文件。如果尚未收到 1000 个文件，则会在时间段结束前 1 小时发送风险通知。

注意：如果有必要，可以关闭 SLA 通知。这在维护窗口期间非常有用。点击导航栏上的设置，然后跳转到通知 > 通用通知。点击平板和铅笔图标进行编辑，并取消勾选 SLA 通知设置。

CSV 转 XML

当 CSV 文件转换为 XML，得到的 XML 将包含以下结构:

<Items>
  <Record>
    <field_0></field_0>
    <field_1></field_1>
    <field_2></field_2>
  </Record>
</Items> 

原始文件中的每一行（记录）都成为根元素 Items 的子元素。所有记录元素的名称由端口设置中设置的记录名称选项确定。每个记录元素都有与输入文件每行中的值相对应的子元素。

某些 CSV 文件包含一行消息头信息，为文件中的值提供上下文。当启用 存在列标题 设置时，将解析此标题行，并将解析后的标题用作值元素（记录元素的子元素）的元素名称。否则，值元素将被赋予通用名称，例如 field_0、field_1 等。

XML 转 CSV

要将 XML 转换为 CSV 文件，输入 XML 必须具有“平面”结构。这意味着，忽略 Items 根元素，XML 结构的深度为 2。例如：

<Items>
  <film>
    <title>Citizen Kane</title>
    <year>1941</year>
    <runtime>119</runtime>
  </film>
  <film>
    <title>Sharknado</title>
    <year>2013</year>
    <runtime>86</runtime>
  </film>
</Items>

XML 解释如下：

根元素的子元素在结果文件中被视为记录（行）
每个记录元素的子元素被视为每行中的值

如果启用 存在列标题 选项，则会将标题行插入到生成的 CSV 文件中，其中包含每个值元素的名称，以提供值的上下文。在上面的示例中，此标题行将由 title、year 和 runtime 组成。

打印视图

在端口的页面（Transactions）上查看 CSV 文档时，可以以打印预览格式或原始数据格式进行查看。默认情况下，文档以预览格式显示，如下图所示：

预览格式以易于阅读的布局显示数据。使用右上角的原始视图（Raw View）开关可以查看未格式化的文档。

CSV 转换：使用 XML Map 端口

许多数据转换工作流将 CSV 端口与 XML Map 端口结合使用。

通常，数据以 CSV 格式进入工作流，并以其它某种格式（例如，数据库插入、EDI 文件或插入 CRM 或 ERP 数据源），反之亦然。知行之桥使用一种简化的方法来满足这些数据转换的要求：

将输入格式建模为 XML
将输出格式建模为 XML
使用 XML Map 端口在输入 XML 和输出 XML 之间进行映射

因此，CSV 端口常与工作流中的 XML Map 端口相邻：

当 CSV 文件是流程的_输入_ 时，CSV 端口将 CSV 文件转换为 XML，然后将该 XML 传递到 XML Map 端口被改造
当 CSV 文件是流的输出时，CSV 端口从 XML Map 端口接收 XML 并将其转换为 CSV 文件

CSV 端口包含上传测试文件功能，可简化映射表示 CSV 文件的 XML 的过程。

上传测试文件

XML Map 端口需要用于映射输入/源和映射输出/目标的示例 XML 结构。通过 上传测试文件 功能，可以轻松使用 CSV 端口生成源或目标 XML 模板。

在端口的输入选项卡中，单击更多下拉菜单，然后单击 上传测试文件。
导航到磁盘上要建模为 XML 的文件，选择它，然后单击确定。
将 CSV 端口连接到流程中的 XML Map 端口。此连接可以双向进行：入站到 XML Map 端口，或从 XML Map 端口出站。

XML Map 端口会自动检测测试文件的结构。根据放置 CSV 端口的位置，文件将显示在 XML Map 端口的 源文件 或 目标文件 下拉菜单中。

注意：此测试文件的结构应代表未来的文件。换句话说，由 CSV 端口（然后是 XML Map 端口）处理的所有 CSV 文件应具有与测试文件相同的列。可能需要设置多个 CSV 端口和多个 XML Map 端口来处理不同的 CSV 结构。

宏

在文件命名策略中使用宏可以提高组织效率和对数据的上下文理解。通过将宏合并到文件名中，可以动态地包含相关信息，例如标识符、时间戳和消息头信息，从而为每个文件提供有价值的上下文。这有助于确保文件名反映对组织重要的详细信息。

知行之桥支持这些宏，它们都使用以下语法：%Macro%。

宏	描述
ConnectorID	替换为端口的 ConnectorID。
Ext	替换为端口当前正在处理的文件的文件扩展名。
Filename	替换为端口当前正在处理的文件的文件名（包括扩展名）。
FilenameNoExt	替换为端口当前正在处理的文件的文件名（不带扩展名）。
MessageId	计算端口输出的消息的 MessageId。
RegexFilename:pattern	将正则表达式模式应用于端口当前正在处理的文件的文件名。
Header:headername	替换为端口正在处理的当前消息的目标消息头 (`headername`) 的值。
LongDate	以常规格式计算系统的当前日期时间（例如，2024 年 1 月 24 日星期三）。
ShortDate	以 yyyy-MM-dd 格式计算系统的当前日期时间（例如 2024-01-24）。
DateFormat:format	以指定格式（`format`）计算系统的当前日期时间。有关可用的日期时间格式，请参阅示例日期格式
Vault:vaultitem	计算指定保管库项目的值。

示例

某些宏（例如 %Ext% 和 %ShortDate%）不需要参数，但其他宏则需要。所有带有参数的宏都使用以下语法：%Macro:argument%

以下是带有参数的宏的一些示例：

%Header:headername%：其中 headername 是消息上消息头的名称。
%Header:mycustomheader% 解析为输入消息上设置的 mycustomheader 消息头的值。
%Header:ponum% 解析为输入消息上设置的 ponum 消息头的值。
%RegexFilename:pattern%：其中“pattern”是正则表达式模式。例如，%RegexFilename:^([\w][A-Za-z]+)% 匹配并解析为文件名中的第一个单词，并且不区分大小写（test_file.xml解析为test）。
%Vault:vaultitem%：其中 vaultitem 是 vault 中项目的名称。例如，%Vault:companyname%解析为存储在保管库中的companyname项的值。
%DateFormat:format%：其中 format 是可接受的日期格式（有关详细信息，请参阅示例日期格式）。例如，%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%解析为文件上的日期和时间戳。

还可以创建更复杂的宏，如以下示例所示：

将多个宏组合在一个文件名中：%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%%EXT%
包括宏之外的文本：MyFile_%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%
在宏中包含文本： %DateFormat:'DateProcessed-'yyyy-MM-dd_'TimeProcessed-'HH-mm-ss%

CSV 运算器

除了知行之桥提供的运算器之外，端口还可以提供将功能扩展到 ArcScript 的运算器。

这些端口运算器的调用方式与任何其他 ArcScript 运算器一样，但有两个细节除外：

必须通过 connector.rsc 接口调用它们。
它们必须包含身份验证令牌。

例如，使用这两个规则调用端口运算器可能如下所示：

<arc:set attr="in.myInput" value="myvalue" />
<arc:call op="connector.rsc/opName" authtoken="admin:1j9P8v8b9K0x6g5R5t7k" in="in" out="out">
  <!-- 处理此处运算器的输出 -->
</arc:call>

下面列出了 CSV 端口功能的特定操作。

csvListRecords

循环遍历指定 CSV 文件或字符串中的每个记录。有关更多详细信息，请参阅函数。

必需参数

file: CSV 文件的路径。

可选参数

data: 如果 CSV 的数据是以字符串形式存在，而不是存储在 CSV 文件中，请使用此参数代替 file。
columns: 指定输出中要包含的列，用逗号分隔（如果未指定，将包含所有列）。
requireheader: 默认情况下，数据的第一行被解释为列标题；设置为 false 时，将使用通用列名(如 c1, c2, c3)。

输出

运算器 csvListRecords 将执行多次：对输入的 CSV 文件／数据中找到的每个记录／行都执行一次。在运算器中，可以使用 csv 访问各个 CSV 的值。该格式将列名作为参数，并输出该列中当前记录的值。

例如，假设 CSV 输入数据中包含订单购买的一组产品，并且商品名称保存在 “ItemName” 列中。以下脚本生成包含每个 <Item> 值的 XML：

<ItemList>
  <arc:call op="csvListRecords?file=myFile.csv">
    <Item>[csv('ItemName')]</Item>
  </arc:call>
</ItemList>