Python 中为 ML 项目加载 CSV 数据的各种方法
要成功构建机器学习项目,正确加载数据是最重要也是最具挑战性的任务之一。CSV是机器学习项目最常用的格式。它是一种用于存储表格数据的简单格式。
以下是Python中三种最常见的方法,您可以借助它们为机器学习项目加载CSV数据-
使用Python标准库
为了加载CSV数据文件,Python标准库为我们提供了一个内置函数,即csv模块。
例子
在这个例子中,我们将加载鸢尾花数据集的CSV数据文件-
#导入csv模块 import csv #要将数据转换为NumPy数组,请导入numpy模块: import numpy as np #提供存储在我们本地目录中的CSV数据文件的完整路径: datafile_path = r"c:/Users/ Desktop/iris.csv" #使用csv.reader()函数读取数据: with open(datafile_path,'r') as f: reader = csv.reader(f,delimiter = ',') data_headers = next(reader) data = list(reader) data = np.array(data).astype(float) #打印数据标题的名称和数据文件的前5行: print(data_headers) print(data[:5])
输出
['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] [ [5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2] ]
使用熊猫
我们可以用来加载CSV数据文件的另一种方法是函数。此函数将返回一个可立即用于绘图的pandas.DataFrame。pandas.read_csv()
例子
在这个例子中,我们将加载皮马印第安人数据集的CSV数据文件-
#从Pandas导入read_csv函数 from pandas import read_csv #提供存储在我们本地目录中的CSV数据文件的完整路径: datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv" #使用read_csv()函数提供标题名称和读取数据: headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = read_csv(datafile_path, names=headernames) #打印文件中的行数和列数以及数据文件的前5行: print(data.shape) print(data[:5])
输出
(768, 9) preg plas pres skin test mass pedi age class 0 6 148 72 35 0 33.6 0.627 50 1 1 1 85 66 29 0 26.6 0.351 31 0 2 8 183 64 0 0 23.3 0.672 32 1 3 1 89 66 23 94 28.1 0.167 21 0 4 0 137 40 35 168 43.1 2.288 33 1