CSV 端口

Version 26.2.9636


CSV 端口


CSV 端口可以将以逗号分隔值的 CSV 文件转换为 XML, 也可以将 XML 转换为 CSV 文件。

核心功能

  • 支持 CSV/XML 的双向转换,具有可配置的分隔符和编码格式
  • 具有标头检测和自定义列映射能力
  • 支持各种字符编码及特殊字符处理

概述

XML 是知行之桥用于处理工作流中数据的主要格式。因此,将 CSV 文件转换为 XML 是作为工作流中进一步处理的过渡步骤,或者在操作 XML 之后将 XML 转换为 CSV 文件也很有用。这两个操作都可以通过 CSV 端口来完成。

更多关于 CSV 转换为 XML 的信息,请参考 CSV 转 XML 部分;将 XML 转换为 CSV 的详细信息,请参考 XML 转 CSV 部分。

端口设置

本节包含所有可配置的端口属性。

设置

配置

与端口 ID 和描述相关的设置。

  • 端口 Id 端口的静态、唯一标识符。
  • 端口类型 显示端口类型及其用途的描述。
  • 端口描述 一个可选字段,用于提供端口及其在流中的角色的自由格式描述。

Connector Settings

与端口核心操作相关的设置。

  • 存在列标题 CSV 文件是否包含一行标题,为文件中的值提供名称或上下文。
  • 记录名称 转换为 XML 时表示 CSV 文件中的一行的元素名称。 可以使用以下宏:
    %ConnectorID%、%FilenameNoExt%、%RegexFilename:% 和 %Header:%。
    有关更多详细信息,请参阅将 CSV 转换为 XML

其它设置

先前类别中未包含的设置。

  • 本地文件名格式 用于为端口输出的消息分配文件名的方案。 可以在文件名中动态使用宏来包含标识符和时间戳等信息。 有关详细信息,请参阅
  • 行分隔符 用于表示行结束的字符序列。默认情况下,这由系统决定,但可以使用此设置覆盖系统行为。使用 CR\r 表示回车符,使用 LF\n 表示换行符。

示例文件选项卡 (Sample Files Tab)

上传示例文件可以方便地在任何连接的 CSV Map 或 XML Map 端口中进行映射。

使用 示例文件 选项卡生成用于 CSV MapXML Map 端口的源或目标 XML 模板。点击 添加示例文件

  1. 如果您已有反映数据预期格式和结构的示例文件,请选择 文件上传 并浏览到您的文件。或者,选择 手动创建 直接在应用程序中创建文件。如果您选择 手动创建,请为示例文件命名。点击 下一步
  2. 如果您浏览到现有文件,查看文件 选项卡将填充其内容。如果您选择手动创建文件,请在此选项卡上输入示例数据。点击 下一步
  3. 翻译和预览 选项卡显示将示例数据转换为 XML 的预览。当您对示例满意时,点击 添加

高级页面 (Advanced Tab)

  • 延迟处理 放置在输入文件夹中的文件的处理延迟的时间量(以秒为单位)。 这是一个遗留设置。 最佳实践是使用 File 端口 来管理本地文件系统,而不是此设置。

消息

  • 保存至 Sent 文件夹 选中此选项可将端口处理的文件复制到端口的已发送文件夹中。
  • 已发送文件夹方案 指示端口根据选定的时间间隔对已发送文件夹中的消息进行分组。 例如,Weekly 选项指示端口每周创建一个新的子文件夹,并将该周的所有消息存储在该文件夹中。 空白设置告诉端口将所有消息直接保存在“已发送”文件夹中。 对于处理许多消息的端口,使用子文件夹有助于保持消息的组织性并提高性能。

日志

  • 日志级别 端口生成的日志的详细程度。 当端口请求支持时,请将其设置为 调试
  • 日志子文件夹方案:指示端口根据所选的时间间隔对日志(Logs)文件夹中的文件进行分组。每周(Weekly)选项(默认设置)指示端口每周创建一个新子文件夹,并将该周的所有日志存储在其中。如果此设置留空,则端口将所有日志直接保存在日志文件夹中。对于处理大量事务的端口,使用子文件夹有助于保持日志井然有序并提高性能。
  • 保留消息副本 选中此项可使已处理文件的日志条目包含文件本身的副本。 如果禁用此功能,端口可能无法从 交易 选项卡下载文件的副本。

特殊设置

特殊设置 适用于特定用例。

  • 其他设置 允许在以分号分隔的列表中配置隐藏的端口设置,例如setting1=value1;setting2=value2。 正常的端口用例和功能不需要使用这些设置。

自动化页面 (Automation Tab)

自动化设置

与端口自动处理文件相关的设置。

  • 发送 (Send) 到达端口的消息是否自动进行处理。

性能

与端口资源分配相关的设置。

  • 最大工作线程数 此端口上处理文件时从线程池中消耗的最大工作线程数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。
  • 最大文件数 分配给端口的每个线程发送的最大文件数。如果设置,则会覆盖 高级设置 页面的 性能设置 部分的默认设置。

通知选项卡

与配置通知相关的设置。

在执行服务级别协议 (SLA) 之前,需要设置电子邮件通知以接收通知。默认情况下,知行之桥使用 通知 选项卡上的全局设置。要为此端口使用其他设置,请启用覆盖全局设置

默认情况下,错误通知处于启用状态,这意味着每当出现错误时都会发送电子邮件。要关闭错误通知,请取消选中启用复选框。

输入主题(必填),然后(可选)输入以逗号分隔的收件人电子邮件列表。

SLA 选项卡

与配置服务级别协议 (SLA) 相关的设置。

SLA 允许配置预期流程中端口发送或接收的数据量,并设置预期达到该数据量的时间范围。当 SLA 未达到时,知行之桥会发送电子邮件警告用户,并将 SLA 标记为_存在风险_,这意味着如果 SLA 未能尽快达到,则会被标记为_已违反_。这让用户有机会介入并确定 SLA 未达到的原因,并采取适当的措施。如果在风险时间段结束时仍未达到 SLA,则会将 SLA 标记为_已违反_,并再次通知用户。

要定义 SLA,请启用预期数据量,然后点击设置选项卡。

  • 如果端口具有单独的发送和接收操作,请使用单选按钮指定 SLA 适用的方向。
  • 在窗口的预计至少部分中:
    • 设置预计处理的最小事务数量(交易量)
    • 使用每个字段指定时间范围
    • 指示 SLA 生效的时间。如果选择开始于,请填写日期和时间字段。
    • 勾选希望 SLA 生效的星期几对应的复选框。如有必要,请使用下拉菜单选择每天
  • 在窗口的将状态设置为“有风险”部分中,指定应将 SLA 标记为有风险的时间。
    • 默认情况下,只有在违反 SLA 的情况下才会发送通知。要更改此设置,请勾选发送“有风险”通知

以下示例显示了为端口配置的 SLA,该端口预计在周一至周五每天接收 1000 个文件。如果尚未收到 1000 个文件,则会在时间段结束前 1 小时发送风险通知。

注意:如果有必要,可以关闭 SLA 通知。这在维护窗口期间非常有用。点击导航栏上的设置,然后跳转到通知 > 通用通知。点击平板和铅笔图标进行编辑,并取消勾选 SLA 通知设置。

CSV 转 XML

当 CSV 文件转换为 XML,得到的 XML 将包含以下结构:

<Items>
  <Record>
    <field_0></field_0>
    <field_1></field_1>
    <field_2></field_2>
  </Record>
</Items> 

原始文件中的每一行(记录)都成为根元素 Items 的子元素。 所有记录元素的名称由端口设置中设置的记录名称选项确定。 每个记录元素都有与输入文件每行中的值相对应的子元素。

某些 CSV 文件包含一行消息头信息,为文件中的值提供上下文。 当启用 存在列标题 设置时,将解析此标题行,并将解析后的标题用作值元素(记录元素的子元素)的元素名称。 否则,值元素将被赋予通用名称,例如 field_0field_1 等。

XML 转 CSV

要将 XML 转换为 CSV 文件,输入 XML 必须具有“平面”结构。 这意味着,忽略 Items 根元素,XML 结构的深度为 2。 例如:

<Items>
  <film>
    <title>Citizen Kane</title>
    <year>1941</year>
    <runtime>119</runtime>
  </film>
  <film>
    <title>Sharknado</title>
    <year>2013</year>
    <runtime>86</runtime>
  </film>
</Items>

XML 解释如下:

  • 根元素的子元素在结果文件中被视为记录(行)
  • 每个记录元素的子元素被视为每行中的值

如果启用 存在列标题 选项,则会将标题行插入到生成的 CSV 文件中,其中包含每个值元素的名称,以提供值的上下文。 在上面的示例中,此标题行将由 titleyearruntime 组成。

打印视图

在端口的页面(Transactions)上查看 CSV 文档时,可以以打印预览格式或原始数据格式进行查看。默认情况下,文档以预览格式显示,如下图所示:

预览格式以易于阅读的布局显示数据。使用右上角的原始视图(Raw View)开关可以查看未格式化的文档。

CSV 转换:使用 XML Map 端口

许多数据转换工作流将 CSV 端口与 XML Map 端口结合使用。

通常,数据以 CSV 格式进入工作流,并以其它某种格式(例如,数据库插入、EDI 文件或插入 CRM 或 ERP 数据源),反之亦然。知行之桥使用一种简化的方法来满足这些数据转换的要求:

  • 将输入格式建模为 XML
  • 将输出格式建模为 XML
  • 使用 XML Map 端口在输入 XML 和输出 XML 之间进行映射

因此,CSV 端口常与工作流中的 XML Map 端口相邻:

  • 当 CSV 文件是流程的_输入_ 时,CSV 端口将 CSV 文件转换为 XML,然后将该 XML 传递到 XML Map 端口 被改造
  • 当 CSV 文件是流的输出时,CSV 端口从 XML Map 端口接收 XML 并将其转换为 CSV 文件

XML Map 端口需要用于映射输入/源和映射输出/目标的示例 XML 结构。 可以使用示例文件选项卡上传示例文件。然后,将 CSV 端口连接到流程中的 XML Map 端口。此连接可以双向进行:入站到 XML Map 端口,或从 XML Map 端口出站。

XML Map 端口会自动检测测试文件的结构。根据放置 CSV 端口的位置,文件将显示在 XML Map 端口的 源文件目标文件 下拉菜单中。

注意:此测试文件的结构应代表未来的文件。 换句话说,由 CSV 端口(然后是 XML Map 端口)处理的所有 CSV 文件应具有与测试文件相同的列。 可能需要设置多个 CSV 端口和多个 XML Map 端口来处理不同的 CSV 结构。

在文件命名策略中使用宏可以提高组织效率和对数据的上下文理解。 通过将宏合并到文件名中,可以动态地包含相关信息,例如标识符、时间戳和消息头信息,从而为每个文件提供有价值的上下文。 这有助于确保文件名反映对组织重要的详细信息。

知行之桥 支持这些宏,它们都使用以下语法:%Macro%

描述
ConnectorID 替换为端口的 ConnectorID。
Ext 替换为端口当前正在处理的文件的文件扩展名。
Filename 替换为端口当前正在处理的文件的文件名(包括扩展名)。
FilenameNoExt 替换为端口当前正在处理的文件的文件名(不带扩展名)。
MessageId 计算端口输出的消息的 MessageId。
RegexFilename:pattern 将正则表达式模式应用于端口当前正在处理的文件的文件名。
Header:headername 替换为端口正在处理的当前消息的目标消息头 (headername) 的值。
LongDate 以常规格式计算系统的当前日期时间(例如,2024 年 1 月 24 日星期三)。
ShortDate 以 yyyy-MM-dd 格式计算系统的当前日期时间(例如 2024-01-24)。
DateFormat:format 以指定格式(format)计算系统的当前日期时间。 有关可用的日期时间格式,请参阅示例日期格式
Vault:vaultitem 计算指定保管库项目的值。

示例

某些宏(例如 %Ext% 和 %ShortDate%)不需要参数,但其他宏则需要。 所有带有参数的宏都使用以下语法:%Macro:argument%

以下是带有参数的宏的一些示例:

  • %Header:headername%:其中 headername 是消息上消息头的名称。
  • %Header:mycustomheader% 解析为输入消息上设置的 mycustomheader 消息头的值。
  • %Header:ponum% 解析为输入消息上设置的 ponum 消息头的值。
  • %RegexFilename:pattern%:其中“pattern”是正则表达式模式。 例如,%RegexFilename:^([\w][A-Za-z]+)% 匹配并解析为文件名中的第一个单词,并且不区分大小写(test_file.xml解析为test) 。
  • %Vault:vaultitem%:其中 vaultitemvault 中项目的名称。 例如,%Vault:companyname%解析为存储在保管库中的companyname项的值。
  • %DateFormat:format%:其中 format 是可接受的日期格式(有关详细信息,请参阅示例日期格式)。 例如,%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%解析为文件上的日期和时间戳。

还可以创建更复杂的宏,如以下示例所示:

  • 将多个宏组合在一个文件名中:%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%%EXT%
  • 包括宏之外的文本:MyFile_%DateFormat:yyyy-MM-dd-HH-mm-ss-fff%
  • 在宏中包含文本: %DateFormat:'DateProcessed-'yyyy-MM-dd_'TimeProcessed-'HH-mm-ss%

CSV 运算器

除了知行之桥提供的 运算器 之外,端口还可以提供将功能扩展到 ArcScript 的运算器。

这些端口运算器的调用方式与任何其他 ArcScript 运算器一样,但有两个细节除外:

  1. 必须通过 connector.rsc 接口调用它们。
  2. 它们必须包含身份验证令牌。

例如,使用这两个规则调用端口运算器可能如下所示:

<arc:set attr="in.myInput" value="myvalue" />
<arc:call op="connector.rsc/opName" authtoken="admin:1j9P8v8b9K0x6g5R5t7k" in="in" out="out">
  <!-- 处理此处运算器的输出 -->
</arc:call>

下面列出了 CSV 端口功能的特定操作。

csvListRecords

循环遍历指定 CSV 文件或字符串中的每个记录。有关更多详细信息,请参阅函数

必需参数

  • file: CSV 文件的路径。

可选参数

  • data: 如果 CSV 的数据是以字符串形式存在,而不是存储在 CSV 文件中,请使用此参数代替 file
  • columns: 指定输出中要包含的列,用逗号分隔(如果未指定,将包含所有列)。
  • requireheader: 默认情况下,数据的第一行被解释为列标题;设置为 false 时,将使用通用列名(如 c1, c2, c3)。

输出

运算器 csvListRecords 将执行多次: 对输入的 CSV 文件/数据中找到的每个记录/行都执行一次。在运算器中,可以使用 csv 访问各个 CSV 的值。该格式将列名作为参数,并输出该列中当前记录的值。

例如,假设 CSV 输入数据中包含订单购买的一组产品,并且商品名称保存在 “ItemName” 列中。以下脚本生成包含每个 <Item> 值的 XML:

<ItemList>
  <arc:call op="csvListRecords?file=myFile.csv">
    <Item>[csv('ItemName')]</Item>
  </arc:call>
</ItemList>