Informatica字符集整理
理论基础
从数据通路的角度看,Informatica中数据的流向是:Source Storage
->Transformations->Target Storage。为了保证数据不至于丢失,靠后的target 的字符集需要兼容靠前的source的字符集。如下图:
整个ETL的数据流动过程都是由Integration Service(下文简称IS) Process 来完成。当Informatica与数据库交互时,因为会用到数据库的client driver,所以,运行IS Process的服务器的数据库客户端设置会影响到Informatica与数据库的数据交换。因为数据经历了如下流向:Database A Server->Database A Client->IS Process->Database B Client->Database B Server。当Informatica 从Flat File加载数据时,则需要指定文件使用的字符集。它的数据流向是:Flat File->IS Process->Database A Client->Database A Server。
IS Process可以以两种方式move数据:ASCII和UNICODE。ASCII模式下,IS Process不会做character conversion,即input的binary流是什么样子,output 什么binary流。而在UNICODE模式下,Informatica会检查source和target 的字符集是否兼容,重要的是IS Process会做character conversion,在其内部以UTF8方式传输数据。
因为Informatica的Client需要和Repository Database交互,所以它们的字符集需要和Repository Database的一致或为对方的子集。Informatica的Client包括:IS Process、PowerCenter Designer、PowerCenter Workflow Manager等。一般Informatica的Client的字符集设置是跟着运行该Client的本地OS走的,例如:运行在简体中文的Window上运行PowerCenter Designer,此时它使用的code page是“MS Windows Simplified Chinese”;而在英文系
统Window上运行IS Process,那么它使用的code page就是“MS Windows Latin 1 (ANSI)”。在Unix系统上的Client同样道理。Informatica的Client字符集设置,不影响数据在Informatica的ETL过程,只是影响它们自己和Repository Database的数据交换。
案例分析
案例I
环境:
Source:Oracle Database(UTF8)
Target:Oracle Database(UTF8)
IS Process Code Page:MS Windows Latin 1 (ANSI)
IS Movement Mode:ASCII
NLS_LANG:AMERICAN_AMERICA.WE8MSWIN1252
Mapping设置:
Source Connection Code Page=UTF8
Target Connection Code Page=UTF8
ETL结果:
中文为乱码
分析:
因为NLS_LANG设置的是WE8MSWIN1252,虽然Source Connection Code Page和Oracle Database Server都使用UTF8编码,但是在从DB Server->DB Client 时乱码已经产生,Informatica的Source Connection拿到的就是乱码了。
解决:
修改NLS_LANG为“AMERICAN_AMERICA.AL32UTF8”或者
“AMERICAN_AMERICA.ZHS16GBK”。此时,IS Movement Mode是ASCII还是Unicode 都可以。
解释:
在IS Movement Mode=ASCII情况下,Source/Target Connection Code Page设置为“UTF8”、“GBK”或者“ISO8859-1”等都可以,因为此时DB Server->DB Client和DB Client->DB Server不会发生数据丢失和乱码,同时Informatica 不会去转码。这保证DB ClientàIS ProcessàDB Client过程中binary数据流没有发生变化。
在IS Movement Mode=UNICODE情况下,就不同了,此时Source/Target Connection Code Page的设置必须与DB Client的编码保持一致,否则IS在转码的时候就会出现问题。
案例II
环境:
Source:Flat File(UTF8)
Target:Oracle Database(UTF8)
IS Process Code Page:MS Windows Latin 1 (ANSI)
IS Movement Mode:ASCII
NLS_LANG:AMERICAN_AMERICA.ZHS16GBK
Mapping设置:
Source Flat File=UTF8
Target Connection Code Page=UTF8
ETL结果:
中文为乱码
分析:
因为NLS_LANG设置的是ZHS16GBK,而IS Movement Mode=ASCII,此时IS Process 不会转码,以至于IS Process->DB Client->DB Server时,DB Client将原本UTF8的数据按照GBK编码提交DB Server,结果乱码产生。
解决:
方法一:修改NLS_LANG= AMERICAN_AMERICA.AL32UTF8。
方法二:修改IS Movement Mode=UNICODE,并保证Target Connection Code Page 的设置必须与DB Client的编码保持一致,因为此时Informatica是将IS内部的UCS-2编码转为Target Connection Code Page再提交给DB Client。
对应表
注:Source和Target的编码都为UTF8。
oracle 字符集的参数nls_lang
oracle 字符集的参数nls_lang
nls_lang
1. NLS_LANG 参数组成
NLS_LANG参数由以下部分组成:
NLS_LANG=
NLS_LANG各部分含义如下:
LANGUAGE指定:
-Oracle消息使用的语言
-日期中月份和日显示
TERRITORY指定
-货币和数字格式
-地区和计算星期及日期的习惯
CHARACTERSET:
-控制客户端应用程序使用的字符集
2. 查看NLS_LANG 的方法
Windows使用:
注册表HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\NLS_LANG查看Unix使用:
env|grep NLS_LANG
如:
/opt/oracle>env|grep NLS_LANG
NLS_LANG=AMERICAN_CHINA.ZHS16GBK
Windows客户端设置,可以在注册表中更改NLS_LANG,具体键值位于:
HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\
xx指存在多个ORACLE_HOME时系统编号。
3. 查看数据库当前字符集参数设置
SELECT * FROM v$nls_parameters;
4. 查看数据库可用字符集参数设置
SELECT * FROM v$nls_valid_values;
5. 客户端NLS_LANG 的设置方法
Windows:
# 常用中文字符集
NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK
# 常用unicode字符集
NLS_LANG=american_america.AL32UTF8
可以通过修改注册表键值永久设置
HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\NLS_LANG
Unix:
# 常用unicode字符集
export NLS_LANG=american_america.AL32UTF8
# 常用中文字符集
export NLS_LANG="Simplified Chinese_china".ZHS16GBK
可以编辑bash_profile 文件进行永久设置
vi .bash_profile
NLS_LANG="Simplified Chinese_china".ZHS16GBK export NLS_LANG
# 使bash_profile 设置生效
source .bash_profile
================================================================ =================
[Q]怎么样查看数据库字符集
[A]数据库服务器字符集select * from nls_database_parameters,其来源于props$,是表示数据库的字符集。
客户端字符集环境select * from nls_instance_parameters,其来源于v$parameter,表示客户端的字符集的设置,可能是参数文件,环境变量或者是注册表。
会话字符集环境select * from nls_session_parameters,其来源于v$nls_parameters,表示会话自己的设置,可能是会话的环境变量或者是alter session完成,如果会话没有特殊的设置,将与nls_instance_parameters一致。
客户端的字符集要求与服务器一致,才能正确显示数据库的非Ascii字符。如果多个设置存在的时候,alter session>环境变量>注册表>参数文件
字符集要求一致,但是语言设置却可以不同,语言设置建议用英文。如字符集是zhs16gbk,则nls_lang可以是American_America.zhs16gbk。