CSV Map 端口

Version 26.2.9636

CSV Map 端口

CSV Map 端口使用 ArcScript 将平面 XML 文件转换为 CSV、TSV 和 PSV 文件格式。平面 XML 文件是指除根元素之外深度不超过两层的文件。

核心功能

使用 ArcScript 模板将扁平 XML 文件转换为 CSV、TSV 和 PSV 格式
提供用于简单映射的可视化设计器（支持字段自动匹配），并为复杂转换提供代码视图
支持通过 XPath 导航从嵌套 XML 结构中提取值，并具备动态模板生成功能

概览

CSV Map 端口有两种操作模式，可视化设计器和以脚本为中心的脚本。设计器支持在文档类型之间可视化地建立简单的关系。更复杂的翻译需要脚本，脚本利用强大的 ArcScript 脚本语言在 XML 和平面文件结构之间创建映射模板。

首先，在“设置”选项卡中上传一个示例源文件和目标文件。如果两个示例文件的结构都允许设计器驱动的映射，则可视化设计器将填充源和目标字段。该应用程序还将尝试用尽可能多的目标结构填充脚本窗口。

端口配置

本节包含所有可配置的端口属性。

映射选项卡

上传文件以启动源字段和目标字段的设计驱动映射。

点击 上传文件，然后选择您的源文件和目标文件。

源文件 代表输入文档的 XML 结构。端口处理的任何文件都应具有匹配的 XML 结构。要支持设计驱动映射，此文件必须是简单的 XML、CSV、PSV 或 TSV 结构。
目标文件 代表输出文档的结构。要使用设计驱动映射，此文件必须是简单的 XML、CSV、PSV 或 TSV 结构。

映射

定义输入和输出文件之间的映射关系。设计器视图可以映射简单的 XML、CSV、TSV 和 PSV 结构，而脚本视图可以映射更复杂的 XML 结构。有关更多详细信息，请参见使用设计器和使用脚本。

设置选项卡

端口配置

与端口核心操作有关的设置。

端口 Id 端口的静态、唯一标识符。
端口类型 显示端口类型及其用途的描述。
端口描述 一个可选字段，用于提供端口及其在流中的角色的自由格式描述。

高级设置

延迟处理 放置在输入文件夹中的文件的处理延迟的时间量（以秒为单位）。这是一个遗留设置。最佳实践是使用 File 端口来管理本地文件系统，而不是此设置。
本地文件名格式 用于为端口输出的消息分配文件名的方案。可以在文件名中动态使用宏来包含标识符和时间戳等信息。有关详细信息，请参阅宏。

消息

保存至 Sent 文件夹 选中此选项可将端口处理的文件复制到端口的已发送文件夹中。
已发送文件夹方案 指示端口根据选定的时间间隔对已发送文件夹中的消息进行分组。例如，Weekly 选项指示端口每周创建一个新的子文件夹，并将该周的所有消息存储在该文件夹中。空白设置告诉端口将所有消息直接保存在“已发送”文件夹中。对于处理许多消息的端口，使用子文件夹有助于保持消息的组织性并提高性能。

日志

日志级别 端口生成的日志的详细程度。当端口请求支持时，请将其设置为调试。
日志子文件夹方案：指示端口根据所选的时间间隔对日志（Logs）文件夹中的文件进行分组。每周（Weekly）选项（默认设置）指示端口每周创建一个新子文件夹，并将该周的所有日志存储在其中。如果此设置留空，则端口将所有日志直接保存在日志文件夹中。对于处理大量事务的端口，使用子文件夹有助于保持日志井然有序并提高性能。
保留消息副本 选中此项可使已处理文件的日志条目包含文件本身的副本。如果禁用此功能，端口可能无法从交易选项卡下载文件的副本。

特殊设置

特殊设置 适用于特定用例。

其他设置 允许在以分号分隔的列表中配置隐藏的端口设置，例如setting1=value1;setting2=value2。正常的端口用例和功能不需要使用这些设置。

自动化选项卡

自动化

与端口自动处理文件相关的设置。

发送到达端口的消息是否会被自动处理。

性能

与端口资源分配相关的设置。

最大工作线程数 此端口上处理文件时从线程池中消耗的最大工作线程数。如果设置，则会覆盖高级设置页面的性能设置部分的默认设置。
最大文件数 分配给端口的每个线程发送的最大文件数。如果设置，则会覆盖高级设置页面的性能设置部分的默认设置。

通知选项卡

与配置通知相关的设置。

在执行服务级别协议 (SLA) 之前，需要设置电子邮件通知以接收通知。默认情况下，知行之桥使用通知选项卡上的全局设置。要为此端口使用其他设置，请启用覆盖全局设置。

默认情况下，错误通知处于启用状态，这意味着每当出现错误时都会发送电子邮件。要关闭错误通知，请取消选中启用复选框。

输入主题（必填），然后（可选）输入以逗号分隔的收件人电子邮件列表。

SLA 选项卡

与配置服务级别协议 (SLA) 相关的设置。

SLA 允许配置预期流程中端口发送或接收的数据量，并设置预期达到该数据量的时间范围。当 SLA 未达到时，知行之桥会发送电子邮件警告用户，并将 SLA 标记为_存在风险_，这意味着如果 SLA 未能尽快达到，则会被标记为_已违反_。这让用户有机会介入并确定 SLA 未达到的原因，并采取适当的措施。如果在风险时间段结束时仍未达到 SLA，则会将 SLA 标记为_已违反_，并再次通知用户。

要定义 SLA，请启用预期数据量，然后点击设置选项卡。

如果端口具有单独的发送和接收操作，请使用单选按钮指定 SLA 适用的方向。
在窗口的预计至少部分中：
- 设置预计处理的最小事务数量（交易量）
- 使用每个字段指定时间范围
- 指示 SLA 生效的时间。如果选择开始于，请填写日期和时间字段。
- 勾选希望 SLA 生效的星期几对应的复选框。如有必要，请使用下拉菜单选择每天。
在窗口的将状态设置为“有风险”部分中，指定应将 SLA 标记为有风险的时间。
- 默认情况下，只有在违反 SLA 的情况下才会发送通知。要更改此设置，请勾选发送“有风险”通知。

以下示例显示了为端口配置的 SLA，该端口预计在周一至周五每天接收 1000 个文件。如果尚未收到 1000 个文件，则会在时间段结束前 1 小时发送风险通知。

注意：如果有必要，可以关闭 SLA 通知。这在维护窗口期间非常有用。点击导航栏上的设置，然后跳转到通知 > 通用通知。点击平板和铅笔图标进行编辑，并取消勾选 SLA 通知设置。

使用设计器

可视化设计器仅适用于结构简单的 XML、CSV、TSV 和 PSV 文件。下面是一个简单的 XML 文档作为源文件的例子：

<actor table="actor">
  <actor_id key="true">124455</actor_id>
  <first_name>Bob</first_name>
  <last_name>Smith</last_name>
</actor>

此示例源文件可以与以下 CSV 文档配对作为目标文件：

id,first name,last name,time
124455,Bob,Smith,2017-07-18T17:38:53-04:00

当这些文件被配置为源文件和目标文件时，设计器将在源列中显示源文件中每一行的行（actor_id, first_name,和 last_name）。对于源中的每个字段，使用下拉菜单选择适当的目标列。应用程序将根据列名自动尝试匹配源字段和目标字段。在上面的示例中，actor_id 行将自动与 id 列匹配。

映射设计器

使用脚本视图

脚本视图提供了使用 ArcScript 手动生成映射模板的能力。这允许对可能的输入和输出格式进行更精细的控制。脚本视图定义了目标文件呈现后的外观，ArcScript 元素使用源文档中的值动态填充模板。ArcScript 元素都以 “rsb” 前缀开头，例如:<arc:set>。脚本视图中任何不是 ArcScript 的内容都将作为输出文件的一部分。

导航 XML 输出

ArcScript 支持导航复杂的 XML 结构，以便从源文件中解析出值。xmlDOMSearch 函数将 xpath 作为输入，并在给定的路径上加载 XML 结构。该操作针对在源文档中找到的 xpath 的每个实例进行循环；要加载整个文档并避免循环，请将 XML 源的根元素作为输入提供给 xmlDOMSearch。例如：

<arc:call op=xmlDOMSearch?xpath=/root>
  <!-- Inside this operation call the parsed XML elements can be accessed -->
</arc:call>

一旦加载了 XML 文档，xpath 格式化器支持在指定的路径从 XML 中读取值。格式化器接受绝对 XPath 以及相对于 xmlDOMSearch 加载的路径的 XPath。与所有格式化器一样，xpath 格式化器只能在方括号 [] 内使用。例如：

<arc:call op="xmlDOMSearch?xpath=/root/author">
  [xpath('name')]
</arc:call>

以下 XML 作为上述脚本的示例输入：

<root>
  <author>
    <name>Stephen King</name>
  </author>
  <author>
    <name>Kurt Vonnegut</name>
  </author>
</root>

在本例中，xmlDOMSearch 操作将循环访问 “root” 中的每个 “author” 元素。在每个 “author” 循环中，来自 “name” 元素的值在输出文件中作为内容读取。这种情况下的输出文件如下所示：

Stephen King
Kurt Vonnegut

模板输出数据

脚本视图用作输出文件的模板，而 ArcScript 将值填充到定义的模板中。举个简单的例子，如果数据应该被格式化为逗号分隔的值，那么这些逗号可以作为脚本视图的一部分被包括进来，以便为 ArcScript 函数提供结构。因此，CSV 文件可以从更复杂的 XML 结构中生成。

以下面的 XML 为例，它包含嵌套元素，不适合使用设计器方式：

<actor table="actor">
  <actor_id key="true">12445</actor_id>
  <name>
    <first_name>Viggo</first_name>
    <last_name>Mortensen</last_name>
  </name>
  <actor_id key="true">12522</actor_id>
  <name>
    <first_name>Gal</first_name>
    <last_name>Gadot</last_name>
  </name>
</actor>

通过将适当的路径传递给 ArcScript 的 xpath 格式化器，可以轻松检索嵌套元素。这些格式化器可以放在逗号内和标题名称之后，以提供所需的 CSV 结构，并且一个附加的 csvescape 格式化器确保这些值被正确引用：

id,first name,last name
<arc:call op="xmlDOMSearch?xpath=actor">
[xpath('actor_id') | csvescape],[xpath('name/first_name') | csvescape],[xpath('name/last_name') | csvescape]
</arc:call>

通过常量模板数据和 ArcScript 的结合使用，可以生成各种文本文件。

附加脚本功能

由于完整的 ArcScript 在脚本视图中可用，因此可能需要利用 ArcScript 运算器。例如，如果源文件只包含数据库中某个项的标识，但需要该项的实际名称，则 dbQuery 操作可以用来查找对应的 Id 的名称。

ArcScript 还支持映射模板中的条件逻辑。arc:if 关键字是可用于帮助在模板中执行条件逻辑的关键字之一。例如，如果源文件包含有关 QuickBooks 中客户的信息，则可能需要对未清余额的客户执行不同的业务逻辑，对已全额付款的客户执行不同的业务逻辑。这个用例的一个简单示例可能如下所示：

<arc:set item="Customer" attr="paidinfull" value="true" />
<arc:call op="xmlDOMSearch?xpath=Customer">
  <arc:if exp="[xpath('balance')] > 0">
    <arc:set item="Customer" attr="paidinfull" value="false" />
  </arc:if>
</arc:call>
id,first name,last name, paid in full
[xpath('customer_id') | csvescape],[xpath('first_name') | csvescape],[xpath('last_name') | csvescape],[Customer.paidinfull]

宏

在文件命名策略中使用宏可以提高组织效率和对数据的上下文理解。通过将宏合并到文件名中，可以动态地包含相关信息，例如标识符、时间戳和消息头信息，从而为每个文件提供有价值的上下文。这有助于确保文件名反映对组织重要的详细信息。

知行之桥支持这些宏，它们都使用以下语法：%Macro%。

宏	描述
ConnectorID	替换为端口的 ConnectorID。
Ext	替换为端口当前正在处理的文件的文件扩展名。
Filename	替换为端口当前正在处理的文件的文件名（包括扩展名）。
FilenameNoExt	替换为端口当前正在处理的文件的文件名（不带扩展名）。
MessageId	计算端口输出的消息的 MessageId。
RegexFilename:pattern	将正则表达式模式应用于端口当前正在处理的文件的文件名。
Header:headername	替换为端口正在处理的当前消息的目标消息头 (`headername`) 的值。
LongDate	以常规格式计算系统的当前日期时间（例如，2024 年 1 月 24 日星期三）。
ShortDate	以 yyyy-MM-dd 格式计算系统的当前日期时间（例如 2024-01-24）。
DateFormat:format	以指定格式（`format`）计算系统的当前日期时间。有关可用的日期时间格式，请参阅示例日期格式
Vault:vaultitem	计算指定保管库项目的值。

示例

某些宏（例如 %Ext% 和 %ShortDate%）不需要参数，但其他宏则需要。所有带有参数的宏都使用以下语法：%Macro:argument%

以下是带有参数的宏的一些示例：

%Header:headername%：其中 headername 是消息上消息头的名称。
%Header:mycustomheader% 解析为输入消息上设置的 mycustomheader 消息头的值。
%Header:ponum% 解析为输入消息上设置的 ponum 消息头的值。
%RegexFilename:pattern%：其中“pattern”是正则表达式模式。例如，%RegexFilename:^([\w][A-Za-z]+)% 匹配并解析为文件名中的第一个单词，并且不区分大小写（test_file.xml解析为test）。
%Vault:vaultitem%：其中 vaultitem 是 vault 中项目的名称。例如，%Vault:companyname%解析为存储在保管库中的companyname项的值。
%DateFormat:format%：其中 format 是可接受的日期格式（有关详细信息，请参阅示例日期格式）。例如，%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%解析为文件上的日期和时间戳。

还可以创建更复杂的宏，如以下示例所示：

将多个宏组合在一个文件名中：%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%%EXT%
包括宏之外的文本：MyFile_%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%
在宏中包含文本： %DateFormat:'DateProcessed-'yyyy-MM-dd_'TimeProcessed-'HH-mm-ss%