keras 简单 lstm实例(基于one-hot编码)

2023-07-22 04:19:13 328

简单的LSTM问题，能够预测一句话的下一个字词是什么

固定长度的句子，一个句子有3个词。

使用one-hot编码

各种引用

importkeras
fromkeras.modelsimportSequential
fromkeras.layersimportLSTM,Dense,Dropout
importnumpyasnp

数据预处理

data='abcdefghijklmnopqrstuvwxyz'
data_set=set(data)

word_2_int={b:afora,binenumerate(data_set)}
int_2_word={a:bfora,binenumerate(data_set)}

word_len=len(data_set)
print(word_2_int)
print(int_2_word)

一些辅助函数

defwords_2_ints(words):
ints=[]
foritmpinwords:
ints.append(word_2_int[itmp])
returnints

print(words_2_ints('ab'))

defwords_2_one_hot(words,num_classes=word_len):
returnkeras.utils.to_categorical(words_2_ints(words),num_classes=num_classes)
print(words_2_one_hot('a'))
defget_one_hot_max_idx(one_hot):
idx_=0
max_=0
foriinrange(len(one_hot)):
ifmax_
构造样本
time_step=3#一个句子有3个词

defgenarate_data(batch_size=5,genarate_num=100):
#genarate_num=-1表示一直循环下去,genarate_num=1表示生成一个batch的数据，以此类推
#这里，我也不知道数据有多少，就这么循环的生成下去吧。
#入参batch_size控制一个batch有多少数据，也就是一次要yield进多少个batch_size的数据
'''
例如，一个batch有batch_size=5个样本，那么对于这个例子，需要yield进的数据为：
abc->d
bcd->e
cde->f
def->g
efg->h
然后把这些数据都转换成one-hot形式，最终数据，输入x的形式为：

[第1个batch]
[第2个batch]
...
[第genarate_num个batch]

每个batch的形式为：

[第1句话（如abc）]
[第2句话（如bcd）]
...
每一句话的形式为：

[第1个词的one-hot表示]
[第2个词的one-hot表示]
...
'''
cnt=0
batch_x=[]
batch_y=[]
sample_num=0
while(True):
foriinrange(len(data)-time_step):
batch_x.append(words_2_one_hot(data[i:i+time_step]))
batch_y.append(words_2_one_hot(data[i+time_step])[0])#这里数据加[0]，是为了符合keras的输出数据格式。因为不加[0]，表示是3维的数据。你可以自己尝试不加0，看下面的test打印出来是什么
sample_num+=1
#print('samplenumis:',sample_num)
iflen(batch_x)==batch_size:
yield(np.array(batch_x),np.array(batch_y))
batch_x=[]
batch_y=[]
ifgenarate_num!=-1:
cnt+=1

ifcnt==genarate_num:
return

fortestingenarate_data(batch_size=3,genarate_num=1):
print('--------x:')
print(test[0])
print('--------y:')
print(test[1])
搭建模型并训练
model=Sequential()

#LSTM输出维度为128
#input_shape控制输入数据的形态
#time_stemp表示一句话有多少个单词
#word_len表示一个单词用多少维度表示，这里是26维

model.add(LSTM(128,input_shape=(time_step,word_len)))
model.add(Dense(word_len,activation='softmax'))#输出用一个softmax，来分类，维度就是26，预测是哪一个字母

model.compile(loss='categorical_crossentropy',optimizer='rmsprop',metrics=['accuracy'])

model.fit_generator(generator=genarate_data(batch_size=5,genarate_num=-1),epochs=50,steps_per_epoch=10)
#steps_per_epoch的意思是，一个epoch中，执行多少个batch
#batch_size是一个batch中，有多少个样本。
#所以，batch_size*steps_per_epoch就等于一个epoch中，训练的样本数量。(这个说法不对！再观察看看吧)
#可以将epochs设置成1，或者2，然后在genarate_data中打印样本序号，观察到样本总数。
使用训练后的模型进行预测：

result=model.predict(np.array([words_2_one_hot('bcd')]))
print(one_hot_2_words(result))

可以看到，预测结果为

e

补充知识：训练集产生的onehot编码特征如何在测试集、预测集复现
数据处理中有时要用到onehot编码，如果使用pandas自带的get_dummies方法，训练集产生的onehot编码特征会跟测试集、预测集不一样，正确的方式是使用sklearn自带的OneHotEncoder。
代码
importpandasaspd
fromsklearn.preprocessingimportOneHotEncoder
ohe=OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],
'籍贯':['福州','厦门','泉州','龙岩']})
ohe.fit(data_train)#训练规则
feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上

data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],
'籍贯':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上


以上这篇keras简单lstm实例(基于one-hot编码)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

keras 简单 lstm实例(基于one-hot编码)

热门推荐

随机推荐