如何在SAS的三种编码间来去自如：wlatin1，euc-cn和utf-8 【1代码篇】

SAS编程未来

修改于 2023-03-02 21:38:10

1.3K0

修改于 2023-03-02 21:38:10

文章被收录于专栏：SASSAS

在日常工作中，常用的SAS语言环境有三个，即英文（wlatin1 western），简体中文（euc-cn），Unicode（utf-8）。这三个语言环境产生的代码文件（.sas）和数据集文件（.sas7b），也将使用相应的编码。

有时候，我们在一个语言环境下使用另一个编码的代码文件、数据集文件，会产生错误或乱码。而且，一旦保存，乱码将保存，不可逆！非常头疼。

那么，如何在不同编码间，自由转换呢？

首先，我们需要掌握两个原理：

不同编码涵盖的字符量：utf8>euc-cn>wlatin1。这表明，从utf8往下转码时。只有在字符适用时才成功。
不同编码多字节字符占据的字节数量：utf8(3 bytes)>euc-cn(2 bytes)>wlatin1(1 byte)。这表明，从wlatin1往上转码时，只有在变量长度在新编码下足够时，才成功。

我们先来转换代码文件。在下面的代码中，l3变量存在euc-cn不能识别的字符，l2变量存在wlatin1不能识别的字符，l变量的字符，三种编码均能识别。