搜档网
当前位置:搜档网 › Informatica字符集整理

Informatica字符集整理

Informatica字符集整理
Informatica字符集整理

Informatica字符集整理

理论基础

从数据通路的角度看,Informatica中数据的流向是:Source Storage

->Transformations->Target Storage。为了保证数据不至于丢失,靠后的target 的字符集需要兼容靠前的source的字符集。如下图:

整个ETL的数据流动过程都是由Integration Service(下文简称IS) Process 来完成。当Informatica与数据库交互时,因为会用到数据库的client driver,所以,运行IS Process的服务器的数据库客户端设置会影响到Informatica与数据库的数据交换。因为数据经历了如下流向:Database A Server->Database A Client->IS Process->Database B Client->Database B Server。当Informatica 从Flat File加载数据时,则需要指定文件使用的字符集。它的数据流向是:Flat File->IS Process->Database A Client->Database A Server。

IS Process可以以两种方式move数据:ASCII和UNICODE。ASCII模式下,IS Process不会做character conversion,即input的binary流是什么样子,output 什么binary流。而在UNICODE模式下,Informatica会检查source和target 的字符集是否兼容,重要的是IS Process会做character conversion,在其内部以UTF8方式传输数据。

因为Informatica的Client需要和Repository Database交互,所以它们的字符集需要和Repository Database的一致或为对方的子集。Informatica的Client包括:IS Process、PowerCenter Designer、PowerCenter Workflow Manager等。一般Informatica的Client的字符集设置是跟着运行该Client的本地OS走的,例如:运行在简体中文的Window上运行PowerCenter Designer,此时它使用的code page是“MS Windows Simplified Chinese”;而在英文系

统Window上运行IS Process,那么它使用的code page就是“MS Windows Latin 1 (ANSI)”。在Unix系统上的Client同样道理。Informatica的Client字符集设置,不影响数据在Informatica的ETL过程,只是影响它们自己和Repository Database的数据交换。

案例分析

案例I

环境:

Source:Oracle Database(UTF8)

Target:Oracle Database(UTF8)

IS Process Code Page:MS Windows Latin 1 (ANSI)

IS Movement Mode:ASCII

NLS_LANG:AMERICAN_AMERICA.WE8MSWIN1252

Mapping设置:

Source Connection Code Page=UTF8

Target Connection Code Page=UTF8

ETL结果:

中文为乱码

分析:

因为NLS_LANG设置的是WE8MSWIN1252,虽然Source Connection Code Page和Oracle Database Server都使用UTF8编码,但是在从DB Server->DB Client 时乱码已经产生,Informatica的Source Connection拿到的就是乱码了。

解决:

修改NLS_LANG为“AMERICAN_AMERICA.AL32UTF8”或者

“AMERICAN_AMERICA.ZHS16GBK”。此时,IS Movement Mode是ASCII还是Unicode 都可以。

解释:

在IS Movement Mode=ASCII情况下,Source/Target Connection Code Page设置为“UTF8”、“GBK”或者“ISO8859-1”等都可以,因为此时DB Server->DB Client和DB Client->DB Server不会发生数据丢失和乱码,同时Informatica 不会去转码。这保证DB ClientàIS ProcessàDB Client过程中binary数据流没有发生变化。

在IS Movement Mode=UNICODE情况下,就不同了,此时Source/Target Connection Code Page的设置必须与DB Client的编码保持一致,否则IS在转码的时候就会出现问题。

案例II

环境:

Source:Flat File(UTF8)

Target:Oracle Database(UTF8)

IS Process Code Page:MS Windows Latin 1 (ANSI)

IS Movement Mode:ASCII

NLS_LANG:AMERICAN_AMERICA.ZHS16GBK

Mapping设置:

Source Flat File=UTF8

Target Connection Code Page=UTF8

ETL结果:

中文为乱码

分析:

因为NLS_LANG设置的是ZHS16GBK,而IS Movement Mode=ASCII,此时IS Process 不会转码,以至于IS Process->DB Client->DB Server时,DB Client将原本UTF8的数据按照GBK编码提交DB Server,结果乱码产生。

解决:

方法一:修改NLS_LANG= AMERICAN_AMERICA.AL32UTF8。

方法二:修改IS Movement Mode=UNICODE,并保证Target Connection Code Page 的设置必须与DB Client的编码保持一致,因为此时Informatica是将IS内部的UCS-2编码转为Target Connection Code Page再提交给DB Client。

对应表

注:Source和Target的编码都为UTF8。

oracle 字符集的参数nls_lang

oracle 字符集的参数nls_lang

nls_lang

1. NLS_LANG 参数组成

NLS_LANG参数由以下部分组成:

NLS_LANG=_.

NLS_LANG各部分含义如下:

LANGUAGE指定:

-Oracle消息使用的语言

-日期中月份和日显示

TERRITORY指定

-货币和数字格式

-地区和计算星期及日期的习惯

CHARACTERSET:

-控制客户端应用程序使用的字符集

2. 查看NLS_LANG 的方法

Windows使用:

注册表HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\NLS_LANG查看Unix使用:

env|grep NLS_LANG

如:

/opt/oracle>env|grep NLS_LANG

NLS_LANG=AMERICAN_CHINA.ZHS16GBK

Windows客户端设置,可以在注册表中更改NLS_LANG,具体键值位于:

HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\

xx指存在多个ORACLE_HOME时系统编号。

3. 查看数据库当前字符集参数设置

SELECT * FROM v$nls_parameters;

4. 查看数据库可用字符集参数设置

SELECT * FROM v$nls_valid_values;

5. 客户端NLS_LANG 的设置方法

Windows:

# 常用中文字符集

NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK

# 常用unicode字符集

NLS_LANG=american_america.AL32UTF8

可以通过修改注册表键值永久设置

HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\HOMExx\NLS_LANG

Unix:

# 常用unicode字符集

export NLS_LANG=american_america.AL32UTF8

# 常用中文字符集

export NLS_LANG="Simplified Chinese_china".ZHS16GBK

可以编辑bash_profile 文件进行永久设置

vi .bash_profile

NLS_LANG="Simplified Chinese_china".ZHS16GBK export NLS_LANG

# 使bash_profile 设置生效

source .bash_profile

================================================================ =================

[Q]怎么样查看数据库字符集

[A]数据库服务器字符集select * from nls_database_parameters,其来源于props$,是表示数据库的字符集。

客户端字符集环境select * from nls_instance_parameters,其来源于v$parameter,表示客户端的字符集的设置,可能是参数文件,环境变量或者是注册表。

会话字符集环境select * from nls_session_parameters,其来源于v$nls_parameters,表示会话自己的设置,可能是会话的环境变量或者是alter session完成,如果会话没有特殊的设置,将与nls_instance_parameters一致。

客户端的字符集要求与服务器一致,才能正确显示数据库的非Ascii字符。如果多个设置存在的时候,alter session>环境变量>注册表>参数文件

字符集要求一致,但是语言设置却可以不同,语言设置建议用英文。如字符集是zhs16gbk,则nls_lang可以是American_America.zhs16gbk。

相关主题