51黑料不打烊

在鲍滨中使用数据库源创建数据流

数据流是一种计划任务,用于在源中检索数据并将其摄取到51黑料不打烊 Experience Platform中的数据集。 本教程提供了有关如何使用Experience Platform UI为数据库源创建数据流的步骤。

NOTE
  • 要创建数据流,您必须已拥有具有数据库源的经过身份验证的帐户。 在源概述中可以找到在鲍滨中创建不同数据库源帐户的教程列表。

  • 要让Experience Platform摄取数据,必须将所有基于表的批处理源的时区配置为UTC时区。 Snowflake 源唯一支持的时间戳是带有鲍罢颁时间的罢滨惭贰厂罢础惭笔冲狈罢窜。

快速入门

本教程需要对以下Experience Platform组件有一定的了解:

  • : Experience Platform允许从各种源摄取数据,同时允许您使用Experience Platform服务来构建、标记和增强传入数据。

  • Experience Data Model (XDM) 系统: Experience Platform用于组织客户体验数据的标准化框架。

  • Real-Time Customer Profile:根据来自多个源的汇总数据,提供统一的实时使用者个人资料。

  • Data Prep:允许数据工程师映射、转换和验证与Experience Data Model (XDM)之间的数据。

添加数据

创建数据库源帐户后,将显示? Add data ?步骤,为您提供一个浏览数据库源帐户的表层次结构的界面。

  • 界面的左半部分是一个浏览器,显示帐户中包含的数据表列表。 该界面还包括一个搜索选项,可让您快速识别要使用的源数据。
  • 界面的右半部分是预览面板,允许您预览最多100行数据。
NOTE
搜索源数据选项适用于除51黑料不打烊 Analytics、Amazon Kinesis和Azure Event Hubs之外的所有基于表的源。

找到源数据后,请选择该表,然后选择?Next

select-data

提供数据流详细信息

Dataflow detail页面允许您选择是使用现有数据集还是新数据集。 在此过程中,您还可以配置Profile dataset、Error diagnostics、Partial ingestion和Alerts的设置。

数据流详细信息

使用现有数据集

要将数据摄取到现有数据集,请选择?Existing dataset。 您可以使用Advanced search选项或通过滚动下拉菜单中的现有数据集列表来检索现有数据集。 选择数据集后,为数据流提供名称和描述。

现有数据集

使用新数据集

要摄取到新数据集中,请选择?New dataset,然后提供输出数据集名称和可选描述。 接下来,使用Advanced search选项或通过滚动下拉菜单中的现有架构列表来选择要映射到的架构。 选择架构后,为数据流提供名称和描述。

新数据集

启用笔谤辞蹿颈濒别和错误诊断

接下来,选择? Profile dataset ?切换开关以启用Profile的数据集。 这允许您创建实体的属性和行为的整体视图。 来自所有已启用Profile的数据集的数据将包含在Profile中,并且更改会在您保存数据流时应用。

Error diagnostics允许为数据流中发生的任何错误记录生成详细的错误消息,而Partial ingestion允许您摄取包含错误的数据,摄取阈值为您手动定义的特定阈值。 有关详细信息,请参阅部分批次摄取概述

配置文件和错误

启用警报

您可以启用警报以接收有关数据流状态的通知。 从列表中选择警报以订阅接收有关数据流状态的通知。 有关警报的详细信息,请参阅使用鲍滨订阅源警报指南

完成向数据流提供详细信息后,选择?Next

警报

将数据字段映射到齿顿惭架构

此时将显示惭补辫辫颈苍驳步骤,为您提供了一个界面,用于将源架构中的源字段映射到目标架构中相应的目标齿顿惭字段。

Experience Platform根据您选择的目标架构或数据集,为自动映射的字段提供智能推荐。 您可以手动调整映射规则以适合您的用例。 根据需要,您可以选择直接映射字段,或使用数据准备函数转换源数据以派生计算值或计算值。 有关使用映射器界面和计算字段的全面步骤,请参阅数据准备鲍滨指南

NOTE
映射到关系架构时,请确保源数据包含必填字段,例如主键和版本标识符,或时间序列架构的时间戳标识符。

在引入期间读取用于变更数据捕获的控制列(如_change_request_type),但不存储在目标架构中。

关系架构还支持使用主键和外键映射的数据集之间的关系。

有关详细信息,请参阅Data Mirror概述关系架构技术参考

成功映射源数据后,请选择?Next

映射

计划摄取运行

此时将显示Scheduling步骤,允许您配置摄取计划,以使用配置的映射自动摄取选定的源数据。 默认情况下,计划设置为Once。 要调整摄取频率,请选择?Frequency,然后从下拉菜单中选择一个选项。

TIP
间隔和回填在一次性摄取期间不可见。

计划

如果将摄取频率设置为MinuteHourDayWeek,则必须设置一个间隔,以便在每次摄取之间建立一个设置的时间范围。 例如,摄取频率设置为Day,间隔设置为15意味着您的数据流计划每15天摄取一次数据。

在此步骤中,您还可以启用? 回填 ?并为增量数据摄取定义列。 回填用于摄取历史数据,而您为增量摄取定义的列允许从现有数据中区分新数据。

有关计划配置的详细信息,请参阅下表。

计划配置
描述
频率

配置频率以指示数据流运行的频率。 您可以将频率设置为:

  • 一次:将频率设置为once以创建一次性引入。 创建一次性摄取数据流时,间隔和回填配置不可用。 默认情况下,调度频率设置为一次。
  • 分钟:将频率设置为minute,以计划数据流以每分钟摄取数据。
  • 小时:将频率设置为hour,以计划数据流每小时摄取数据。
  • :将频率设置为day,以计划数据流每天摄取数据。
  • :将频率设置为week,以计划数据流每周摄取数据。 有关详细信息,请阅读[了解每周摄取计划] (#weekly)一节。
间隔

选择频率后,可以配置间隔设置以建立每次引入之间的时间范围。 例如,如果将频率设置为天并将间隔配置为15,则数据流将每15天运行一次。 不能将间隔设置为零。 每个频率的最小接受间隔值如下:

  • 一次:不适用
  • 分钟: 15
  • 小时: 1
  • : 1
  • : 1
开始时间
预计运行的时间戳,以鲍罢颁时区显示。
回填
回填可确定最初摄取的数据。 如果启用了回填,则指定路径中的所有当前文件将在第一次计划摄取期间摄取。 如果禁用回填,则只摄取在第一次引入运行到开始时间之间加载的文件。 将不会摄取在开始时间之前加载的文件。
加载增量数据依据
一个选项,其中包含一组类型为、日期或时间的源架构字段。 您为? Load incremental data by ?选择的字段必须具有UTC时区的日期时间值,才能正确加载增量数据。 所有基于表的批处理源均可通过将增量列时间戳值与相应的流运行窗口UTC时间进行比较,然后复制源中的数据(如果在UTC时间窗口内发现任何新数据)来选择增量数据。

回填

了解每周摄取计划 weekly

当您选择将数据流设置为按周计划运行时,数据流将基于以下任一情况运行:

  • 如果您的数据源已创建,但尚未摄取数据,则第一个每周数据流将在源创建日期后7天运行。 无论您何时设置计划,此7天间隔始终从创建源的时间开始。 初次运行后,数据流将根据配置的计划继续每周执行。
  • 如果源中的数据以前已被摄取,并且您再次计划每周摄取,则下一个数据流将在最近一次成功摄取7天后运行。

查看您的数据流

此时将显示? Review ?步骤,允许您在创建新数据流之前对其进行查看。 详细信息分为以下类别:

  • Connection:显示源类型、所选源文件的相关路径以及该源文件中的列数。
  • Assign dataset & map fields:显示将引入源数据的数据集以及关联的架构。 如果使用关系架构,请验证是否正确映射了必填字段,例如主键和版本标识符。 另外,请确保已正确配置任何变更数据捕获控制列。 使用关系架构的数据集支持多个数据模型,并启用更改数据捕获工作流
  • Scheduling:显示摄取计划的活动时段、频率和间隔。

查看数据流后,选择? Finish ?并留出一段时间来创建数据流。

审核

监测数据流

创建数据流后,您可以监视通过它摄取的数据,以查看有关摄取率、成功和错误的信息。 有关如何监视数据流的详细信息,请参阅有关UI监视帐户和数据流的教程。

删除您的数据流

您可以删除不再必需的数据流或使用? Delete ?工作区中可用的? Dataflows ?功能错误创建的数据流。 有关如何删除数据流的详细信息,请参阅有关在鲍滨中删除数据流的教程。

后续步骤

通过阅读本教程,您已成功创建了一个数据流,将数据从数据库源引入Experience Platform。 下游Experience Platform服务(如Real-Time Customer Profile和Data Science Workspace)现在可以使用传入数据。 有关更多详细信息,请参阅以下文档:

recommendation-more-help
337b99bb-92fb-42ae-b6b7-c7042161d089