如何使用Tensorflow和Python将Unicode字符串表示为UTF-8编码的字符串?
可以使用'encode'方法将一组Unicode字符串表示为UTF8编码的字符串。
阅读更多:什么是TensorFlow,以及Keras如何与TensorFlow一起创建神经网络?
处理自然语言的模型处理具有不同字符集的不同语言。Unicode被认为是标准的编码系统,用于代表几乎所有语言的字符。每个字符都在0到0x10FFFF之间的唯一整数代码点的帮助下进行编码。Unicode字符串是零个或多个代码值的序列。
让我们了解如何使用Python表示Unicode字符串,以及如何使用Unicode等效项操纵它们。首先,借助于标准字符串操作的Unicode等效项,我们基于脚本检测将Unicode字符串分成令牌。
我们正在使用Google合作实验室来运行以下代码。GoogleColab或Colaboratory可以帮助通过浏览器运行Python代码,并且需要零配置和对GPU(图形处理单元)的免费访问。合作已建立在JupyterNotebook的基础上。
print("A set of Unicode strings which is represented as a UTF8-encoded string") batch_utf8 = [s.encode('UTF-8') for s in[u'hÃllo', u'What is the weather tomorrow',u'Göödnight', u'