TensorFlow 支持 Unicode 编码
文 / Laurence Moroney, Google TensorFlow 团队;Edward Loper, Google Research 团队

TensorFlow 现在可以支持 Unicode,这是一种标准编码系统,可以表示几乎所有语言的字符。处理自然语言时,了解字符的编码方式非常重要。在像英语这样的小字符集的语言中,每个字符都可以使用 ASCII 进行表示。但是这种方法对于其他语言来说并不实用,例如中文,这些语言有数千个字符。即使处理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。
定义字符及其编码的最常用标准是 Unicode,它几乎支持所有语言。对于 Unicode,每个字符使用唯一的整数 code point 表示,其值介于 0 和 0x10FFFF 之间。当按顺序放置 code point 时,将形成 Unicode 字符串。
Unicode tutorial colab 展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 时,有两种标准方式来表示 Unicode 字符串:
- 作为整数向量,其中每个位置包含单个 code point
- 作为字符串,使用字符编码将 code point 序列编码到字符串中。有许多字符编码,其中一些最常见的是 UTF-8,UTF-16 等
以下代码分别使用 code point、UTF-8 和 UTF-16 显示字符串 “语言处理” 的编码。

当然,您可能需要在各种表示方式之间进行转换,而 TensorFlow 1.13 已添加了执行此操作的函数:
- tf.strings.unicode_decode: 将字符串标量转换为 code point 的向量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
- tf.strings.unicode_encode: 将 code point 向量转换为字符串标量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
- tf.strings.unicode_transcode: 将字符串标量转换为不同的编码(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode)
因此,如果要将上述示例中的 UTF-8 解码为 code point 向量,则可以执行以下操作:

当解码包含多个字符串的 Tensor 时,字符串可能具有不同的长度。 unicode_decode 将结果作为 RaggedTensor 返回,其中内部维度的长度根据每个字符串中的字符数而变化。

要了解有关 TensorFlow 中 Unicode 支持的更多信息,请查看 Unicode tutorial colab并浏览 tf.strings 文档(https://www.tensorflow.org/tutorials/representation/unicode)。
相关文章
-
核酸检测筛查采集信息,这个平台可以查询!
-
联合国电商周分享阿里经验,非洲版“马云”们成了主角
-
50%的职业将消失,你的专业未来还“有用”么?
-
普惠化在生态中的作用 | 保险科技生态建设(十五)
-
“电子驾照”今起全国全面推广,申领指南来了,赶紧领取!
-
抖音粉丝团一天可以升几级
-
瑞幸北京裁撤80家店,今年要关掉近五分之一
-
你可能见过美丽的孔雀开屏,可你见过更美的“犀牛开屏”么?
-
搜狗超越微软成CoQA新纪录保持者,阅读理解能力可媲美人类
-
决不能错过!为推广银联云闪付功能,中国银联推出超级福利活动
-
“女性饭局”惊现乌镇互联网大会,“她力量”撑起行业半边天
-
阿里巴巴、腾讯与亚马逊相比,究竟差在哪儿?
-
新游戏手机要来了 努比亚将在CES2019携新品出席
-
【产业互联网周报】腾讯投微盟及有赞,加码智慧零售;字节跳动Lark正式上线,目标海外企服
-
终于!年度账单又来了!网友:看完emo了
-
山东21岁女大学生网上直播,被评又老又年轻,网友:听取妈声一片
-
【虎嗅晚报】李国庆就不当言论道歉;摩拜否认裁员30%:正常调整和优化
-
科学家发现真正的冥界,身处黑暗之中,冥界呆一年地上248年
-
万达百货更名苏宁易购广场苏宁加速布局新零售
-
小米年会雷军C位献舞:造型满分 节奏慢半拍
-
苹果推出“苹果边缘缓存”,帮助互联网企业向用户快速发送内容
-
贾跃亭罕见发声,FF91距离量产“只差临门一脚”!
-
增长乏力,海外购能否帮亚马逊中国打赢突围战?
-
快讯|打造信息安全生态,在线教育集团iTutorGroup上线安全应急响应中心
-
盘点2018硅谷巨头7大丑闻
-
苹果6升级后卡怎么办
-
微信的软肋,抖音的七寸
-
北高峰资本闵万里:恰恰相反,疫情会加强全球产业链的耦合|超级观点
-
那年我还是少年,中兴通讯还是一线智能手机品牌……