Python制作数据预测集成工具(值得收藏)
大数据预测是大数据最核心的应用,是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。
在过去,人们的决策主要是依赖20%的结构化数据,而大数据预测则可以利用另外80%的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有3大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。
而今天我们就将利用python制作可视化的大数据预测部分集成工具,其中数据在这里使用一个实验中的数据。普遍性的应用则直接从文件读取即可。其中的效果图如下:
实验前的准备
首先我们使用的python版本是3.6.5所用到的模块如下:
- sklearn模块用来创建整个模型训练和保存调用以及算法的搭建框架等等。
- numpy模块用来处理数据矩阵运算。
- matplotlib模块用来可视化拟合模型效果。
- Pillow库用来加载图片至GUI界面。
- Pandas模块用来读取csv数据文件。
- Tkinter用来创建GUI窗口程序。
数据的训练和训练的GUI窗口
经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比较好的效果。
(1)首先是是数据的读取,通过设定选定文件夹函数来读取文件,加载数据的效果:
'''选择文件功能'''
defselectPath():
#选择文件path_接收文件地址
path_=tkinter.filedialog.askopenfilename()
#通过replace函数替换绝对文件地址中的/来使文件可被程序读取
#注意:\\转义后为\,所以\\\\转义后为\\
path_=path_.replace("/","\\\\")
#path设置path_的值
path.set(path_)
returnpath
#得到的DataFrame读入所有数据
data=pd.read_excel(FILENAME,header=0,usecols="A,B,C,D,E,F,G,H,I")
#DataFrame转化为array
DataArray=data.values
#读取已使用年限作为标签
Y=DataArray[:,8]
#读取其他参数作为自变量,影响因素
X=DataArray[:,0:8]
#字符串转变为整数
foriinrange(len(Y)):
Y[i]=int(Y[i].replace("年",""))
X=np.array(X)#转化为array
Y=np.array(Y)#转化为array
root=Tk()
root.geometry("+500+260")
#背景图设置
canvas=tk.Canvas(root,width=600,height=200,bd=0,highlightthickness=0)
imgpath='1.jpg'
img=Image.open(imgpath)
photo=ImageTk.PhotoImage(img)
#背景图大小设置
canvas.create_image(700,400,image=photo)
canvas.pack()
path=StringVar()
#标签名称位置
label1=tk.Label(text="目标路径:")
label1.pack()
e1=tk.Entry(textvariable=path)
e1.pack()
bn1=tk.Button(text="路径选择",command=selectPath)
bn1.pack()
bn2=tk.Button(text="模型训练",command=train)
bn2.pack()
bn3=tk.Button(text="模型预测",command=test)
bn3.pack()
#标签按钮等放在背景图上
canvas.create_window(50,50,width=150,height=30,
window=label1)
canvas.create_window(280,50,width=300,height=30,
window=e1)
canvas.create_window(510,50,width=150,height=30,
window=bn1)
canvas.create_window(50,100,width=150,height=30,
window=bn2)
canvas.create_window(510,100,width=150,height=30,
window=bn3)
root.mainloop()
效果如下可见:
(2)然后是数据的拟合和可视化模型效果:
#模型拟合
reg=LinearRegression()
reg.fit(X,Y)
#预测效果
predict=reg.predict(np.array([X[0]]))
Y_predict=reg.predict(X)
print(Y_predict)
#横坐标
x_label=[]
foriinrange(len(Y)):
x_label.append(i)
#绘图
fig,ax=plt.subplots()
#真实值分布散点图
plt.scatter(x_label,Y)
#预测值分布散点图
plt.scatter(x_label,Y_predict)
#预测值拟合直线图
plt.plot(x_label,Y_predict)
#横纵坐标
ax.set_xlabel('预测值与真实值模型拟合效果图')
ax.set_ylabel('蓝色为真实值,黄色为预测值')
#将绘制的图形显示到tkinter:创建属于root的canvas画布,并将图f置于画布上
canvas=FigureCanvasTkAgg(fig,master=root)
canvas.draw()#注意show方法已经过时了,这里改用draw
canvas.get_tk_widget().pack()
#matplotlib的导航工具栏显示上来(默认是不会显示它的)
toolbar=NavigationToolbar2Tk(canvas,root)
toolbar.update()
canvas._tkcanvas.pack()
#弹窗显示
messagebox.showinfo(title='模型情况',message="模型训练完成!")
其中的效果如下可见:
其中的效果如下可见:
模型的预测和使用
其中模型的预测主要通过两种方式进行预测,分别是:手动输入单个数据进行预测和读取文件进行预测。
其中手动输入数据进行预测需要设置更多的GUI按钮,其中代码如下:
#子窗口
LOVE=Toplevel(root)
LOVE.geometry("+100+260")
LOVE.title="模型测试"
#子窗口各标签名
label=["上升沿斜率(v/us)","下降沿斜率(v/us)","脉宽(ns)","低状态电平(mv)","低电平方差(mv2)x10-3","高状态电平(v)","高电平方差(v2)","信号质量因子"]
Label(LOVE,text="1、输入参数预测",font=("微软雅黑",20)).grid(row=0,column=0)
#标签名称,字体位置
Label(LOVE,text=label[0],font=("微软雅黑",10)).grid(row=1,column=0)
Label(LOVE,text=label[1],font=("微软雅黑",10)).grid(row=1,column=1)
Label(LOVE,text=label[2],font=("微软雅黑",10)).grid(row=1,column=2)
Label(LOVE,text=label[3],font=("微软雅黑",10)).grid(row=1,column=3)
Label(LOVE,text=label[4],font=("微软雅黑",10)).grid(row=1,column=4)
Label(LOVE,text=label[5],font=("微软雅黑",10)).grid(row=1,column=5)
Label(LOVE,text=label[6],font=("微软雅黑",10)).grid(row=1,column=6)
Label(LOVE,text=label[7],font=("微软雅黑",10)).grid(row=1,column=7)
#编辑框位置和字体
en1=tk.Entry(LOVE,font=("微软雅黑",8))
en1.grid(row=2,column=0)
en2=tk.Entry(LOVE,font=("微软雅黑",8))
en2.grid(row=2,column=1)
en3=tk.Entry(LOVE,font=("微软雅黑",8))
en3.grid(row=2,column=2)
en4=tk.Entry(LOVE,font=("微软雅黑",8))
en4.grid(row=2,column=3)
en5=tk.Entry(LOVE,font=("微软雅黑",8))
en5.grid(row=2,column=4)
en6=tk.Entry(LOVE,font=("微软雅黑",8))
en6.grid(row=2,column=5)
en7=tk.Entry(LOVE,font=("微软雅黑",8))
en7.grid(row=2,column=6)
en8=tk.Entry(LOVE,font=("微软雅黑",8))
en8.grid(row=2,column=7)
Label(LOVE,text="",font=("微软雅黑",10)).grid(row=3,column=0)
#测试输入框预测
defpp():
x=np.array([int(en1.get()),int(en2.get()),int(en3.get()),int(en4.get()),int(en5.get()),int(en6.get()),int(en7.get()),int(en8.get())])
#预测效果
predict=reg.predict(np.array([x]))
Label(LOVE,text="预测结果已使用年数为:"+str(predict[0])+"年",font=("微软雅黑",10)).grid(row=4,column=3)
print(predict)
Button(LOVE,text="预测:",font=("微软雅黑",15),command=pp).grid(row=4,column=0)
Label(LOVE,text="2、选择文件预测",font=("微软雅黑",20)).grid(row=5,column=0)
path1=StringVar()
label1=tk.Label(LOVE,text="目标路径:",font=("微软雅黑",10))
label1.grid(row=6,column=0)
e1=tk.Entry(LOVE,textvariable=path1,font=("微软雅黑",10))
e1.grid(row=6,column=2)
label=["上升沿斜率(v/us)","下降沿斜率(v/us)","脉宽(ns)","低状态电平(mv)","低电平方差(mv2)x10-3","高状态电平(v)","高电平方差(v2)",
"信号质量因子"]
n=0
foriinpredict_value:
print(str(label)+"分别为"+str(X[n])+"预测出来的结果为:"+str(i)+"年"+"\n")
f=open("预测结果.txt","a")
f.write(str(label)+"分别为"+str(X[n])+"预测出来的结果为:"+str(i)+"年"+"\n")
f.close()
f=open("result.txt","a")
f.write(str(i)+"\n")
f.close()
n+=1
messagebox.showinfo(title='模型情况',message="预测结果保存在当前文件夹下的TXT文件中!")
os.system("result.txt")
os.system("预测结果.txt")
Button(LOVE,text="预测:",font=("微软雅黑",15),command=ppt).grid(row=7,column=0)
效果如下可见:
选择文件进行读取预测和模型训练数据的读取类似,代码如下:
#选择文件预测
defselectPath1():
#选择文件path_接收文件地址
path_=tkinter.filedialog.askopenfilename()
#通过replace函数替换绝对文件地址中的/来使文件可被程序读取
#注意:\\转义后为\,所以\\\\转义后为\\
path_=path_.replace("/","\\\\")
#path设置path_的值
path1.set(path_)
returnpath
bn1=tk.Button(LOVE,text="路径选择",font=("微软雅黑",10),command=selectPath1)
bn1.grid(row=6,column=6)
defppt():
try:
os.remove("预测结果.txt")
os.remove("result.txt")
except:
pass
#文件的名字
FILENAME=path1.get()
#禁用科学计数法
pd.set_option('float_format',lambdax:'%.3f'%x)
np.set_printoptions(threshold=np.inf)
#得到的DataFrame读入所有数据
data=pd.read_excel(FILENAME,header=0,usecols="A,B,C,D,E,F,G,H")
#DataFrame转化为array
DataArray=data.values
#读取其他参数作为自变量,影响因素
X=DataArray[:,0:8]
predict_value=reg.predict(X)
print(predict_value)
效果如下:
由于读取文件进行预测的话,数据较多故直接存储在TXT中方便查看
以上就是Python制作数据预测集成工具(值得收藏)的详细内容,更多关于python数据预测的资料请关注毛票票其它相关文章!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。