功能工程厂蚕尝扩展
为了满足您的功能工程需求,请使用SQL Transformer扩展来简化和自动化数据预处理。 使用此扩展构建特征并使用不同的特征工程技术无缝试验,包括将其与模型相关联。 专为分布式计算而设计,您可以通过并行和可伸缩的方式在大型数据集上执行功能工程,显着减少使用Data Distiller功能工程厂蚕尝扩展进行数据预处理所需的时间。
技术概述 technique-overview
特征工程功能包括特征提取、特征转换和特征选择。 每个区域都包含特定的功能,这些功能旨在提取、转换、聚焦并改进数据预处理。
特征提取 feature-extraction
从数据中提取相关信息(尤其是文本数据),并将其转换为支持的模型可使用或转换和派生数据集的数字格式。 使用以下函数执行特征提取:
特征转换 feature-transformation
除了提取特征之外,还可以使用下列常规转换器为高级统计模型和派生数据集准备特征。 应用缩放、标准化或编码以确保您的功能具有相同的缩放比例并具有相似的分布情况。
常规转换器
以下是处理各种数据类型的工具列表,以增强您的数据预处理工作流。
数值转换器
应用这些技术有效地处理和缩放数值数据以提高模型性能。
- 二进制化器:根据阈值将连续功能转换为二进制值。
- 分段器:将连续功能映射到离散分段。
- 最小 — 最大缩放器:将功能重新缩放到指定的范围,通常为摆0,1闭。
- 最大础产蝉缩放器:将特征重新缩放到范围摆-1、1闭,而不更改稀疏度。
- 规范化器:规范化向量以具有单位规范。
- 蚕耻补苍迟颈濒别离散化:通过将连续特征转换为分类特征,将其转换为分位数。
- 标准缩放器:将特征标准化为具有单位标准差和/或平均数零。
分类转换器
使用这些转换器将分类数据转换并编码为适合机器学习模型的格式。
- 字符串索引器:将类别字符串数据转换为数字索引。
- 一个Hot Encoder:将分类数据映射到二进制矢量。
特征选择 feature-selection
接下来,重点从原始集中选择最重要特征的子集。 此过程有助于减少数据的维数,使模型更易于处理并改进整体模型性能。
实施翱笔罢滨翱狈厂子句 options-clause
定义模型时,请使用OPTIONS
子句指定算法及其参数。 首先设置type
参数以指示您所使用的算法,如K-Means
。 然后,将OPTIONS
子句中的相关参数定义为键值对以微调模型。 如果选择不自定义某些参数,系统将应用默认设置。 请参阅相关文档以了解每个参数的函数和默认值。
后续步骤
学习本文档中概述的功能工程技术后,请转至模型文档。 它引导您使用所设计功能来创建、培训和管理可信模型。 生成模型后,请转到实施高级统计模型文档。的问题。本文档作为概览,链接到不同建模技术(包括聚类、分类和回归)的深入指南。 通过阅读这些文档,您可以了解如何在SQL工作流中配置和实施各种可信模型,并优化模型以进行高级数据分析。