如何使用 Tensorflow 使用 Python 准备带有 stackoverflow 问题的数据集?
Tensorflow是Google提供的机器学习框架。它是一个与Python结合使用以实现算法、深度学习应用程序等的开源框架。它用于研究和生产目的。
可以使用以下代码行在Windows上安装“tensorflow”包-
pip install tensorflow
Tensor是TensorFlow中使用的一种数据结构。它有助于连接流程图中的边。该流程图被称为“数据流图”。张量只不过是多维数组或列表。我们正在使用GoogleColaboratory运行以下代码。GoogleColab或Colaboratory帮助在浏览器上运行Python代码,并且需要零配置和免费访问GPU(图形处理单元)。Colaboratory建立在JupyterNotebook之上。以下是代码片段-
示例
VOCAB_SIZE = 10000 print("The preprocessing of text begins") binary_vectorize_layer = TextVectorization( max_tokens=VOCAB_SIZE, output_mode='binary') MAX_SEQUENCE_LENGTH = 250 int_vectorize_layer = TextVectorization( max_tokens=VOCAB_SIZE, output_mode='int', output_sequence_length=MAX_SEQUENCE_LENGTH)
代码信用- https://www.tensorflow.org/tutorials/load_data/text
输出结果
The preprocessing of text begins
解释
使用“TextVectorization”层对数据进行标准化、标记化和矢量化。
标准化涉及预处理文本并删除标点符号和HTML元素。
标记化涉及通过拆分空格将句子拆分为单词。
矢量化涉及将标记转换为数字,以便神经网络在输入时可以理解它。
二元模型使用词袋模型来构建模型。