scikit学习库如何用于预处理Python中的数据?
预处理数据是指清除数据,删除无效数据,噪声,用相关值替换数据等。
这并不总是意味着文本数据。也可能是图像或视频处理。这是机器学习流程中的重要一步。
数据预处理基本上是指将所有数据(从各种资源或单个资源收集的数据)收集为通用格式或统一数据集(取决于数据类型)的任务。
这样做是为了使学习算法可以从该数据集中学习并以高精度给出相关结果。由于现实世界中的数据从来都不是理想的,因此数据可能会丢失单元格,错误,离群值,列中的差异等等。
有时,图像可能无法正确对齐,或者可能不清晰,或者尺寸可能很大。预处理的目的是消除这些差异和错误。数据预处理不是单个任务,而是一步一步执行的一组任务。
一步的输出将成为下一步的输入,依此类推。
让我们以将数值转换为布尔值的示例为例-
示例
import numpy as np from sklearn import preprocessing input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data) print("\从数值转换为布尔值的值 :\n", data_binarized)
输出结果
从数值转换为布尔值的值 [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
说明
所需的包已导入。
输入数据是使用Numpy库生成的。
sklearn的“预处理”类中存在的“Binarizer”功能用于将数值转换为布尔值。
布尔值基本上仅指1和0。
转换后的数据将打印在控制台上。