相关系数种类
(一) Pearson 积差相关(K. Pearson product-moment correlation ;r ) 1. X 变数:等距、比率变量(连续变量) 2. Y 变数:等距、比率变量(连续变量) 3. 公式:∑∑∑∑∑∑∑∑∑-
-
-=
--==
=
N
y y
N
x x
y
x xy N S NS y y x x S S C N
Z Z r i i
i i
y
x y
x xy y
x
xy
2
22
2
)()())((
4. 特性:数值稳定、标准误小。
5. 例:工作时数与收入的关系。 (二)
Spearman 等级相关(Spearman rank correlation ;r s )
1. X 变数:次序变数
2. Y 变数:次序变数
3. 公式:
(1) 未有相同等级者:)
1(612
2--
=∑N N D r s (D 为二变量对称之等级差)
(2) 有相同等级者:∑∑∑∑∑-+=
2
2
2
22
2y
x D y x r s
∑∑--=Tx N
N x 1232
∑∑--=Ty N
N y 1232
123t
t T -=∑ t :表示得到相同等第的人数。
4. 特性:适用于二个评分者评N 件作品,或同一位评分者,先后二次评N 件作品。
5. 例:两位评审对N 件学生作品之评定。 (三)
Kendall 等级相关(Kendall’s coefficient of rank correlation;τ(tau))
1. X 变数:人为次序变数
2. Y 变数:人为次序变数
3. 公式:)1(2
1
-=
N N S τ S :等第失序量数; N :被评者的人数或作品件数
4. 特性:相当简便
5. 例:两位评审对N 件学生作品之评定。 (四)
Kendall 和谐系数(the Kendall’s coefficient of concordance;W )
1. X 变数:次序变数
2. Y 变数:次序变数
3. 公式:
(1) 未有相同等级者:)(12
1
32N N K S
W -??=
;
2
2
2
)()(∑∑∑-=-
=R R N
R R S i i i
(2) 有相同等级者:∑--??=
T K N N K S
W )(12
1
32 ; 12
3t
t T -=∑ ;)3(≥K
K :评分者人数;N :被评者的人数或作品件数
4. 特性:特别适用于评分者间信度(interjudge reliability );考验多位评审者对N 件作品评定等第之一致性。
5. 例:多位评审对N 件学生作品之评定。 (五)
Kappa 一致性系数(K coefficient of agreement ;K )
1. X 变数:类别变项
2. Y 变数:类别变项
3. 公式:Kappa 一致性系数是评分者实际评定一致的次数百分比与评分者理论上评定的最大可能次数百分比的比率(林清山,1992)。公式为:
)
(1)
()(E P E P A P K --=
P (A ):K 位评分者评定一致的百分比;1
1])1(1[)(112
---=∑∑==K n K NK A P N i m
j ij
N :总人数; K :评分者人数; m :评定类别; n :细格资料
P (E ):K 位评分者理论上可能评定一致的百分比;当评分者的评定等第完全一致时,则K=1,当评分者的评定等第完全不一致时,则K=0。
∑==m
j j P E P 12
)( ; NK
C P j j =
;∑==N
i ij j n C 1
4. 特性:前述之肯得尔和谐系数,所论之评分者所评定对象是限定在可评定出等第的,亦即是可以排列出次序的。然而,在有些情况下是无法将被评定对象列出等级次序的,而仅能将其归于某一类别,此时,就必须使用Kappa 一致性系数,来表示评分者间一致性的关系。
5. 例:K 位精神科医师,将N 名病患,经诊断后归类至m 个心理疾病类别中。 (六)
二系列相关(biserial correlation ;r bis )
1. X 变数:人为二分变量(名义变量)
2. Y 变数:连续变量(等距、比率变量)
3. 公式:y
q
p S X X rbis t q p ??
-=
4. 特性:项目分析时使用;标准误大;有可能出现r bis 大于1。
5. 例:智商与学业成绩及格与否的关系。 (七)
点二系列相关(point-biserial correlation ;r pq )
1. X 变数:真正二分变量(名义变量)
2. Y 变数:连续变量
3. 公式:pq S X X r t
q
p pq -=
p X :表第一类之平均数;q X :表第一类之平均数;St :表全体分数之标准偏差;
p :表第一类人数之百分比;q :表第二类人数之百分比。
4. 特性:标准误较r bis 小。
5. 例:性别(男、女)与收入的关系。 (八)
φ相关(phi coefficient ;φ)
1. X 变数:真正二分变量(名义变量)
2. Y 变数:真正二分变量(名义变量)
3. 公式:)
)()()((D B C A D C B A AD
BC q p q p p p p y
y x
x y x xy ++++-=
-=
φ
4. 特性:与卡方考验有密切关系。
5. 例:父母对子女的管教方式(权威式、民主式)。 (九)
列联相关(contingency coefficient ;C )
1. X 变数:真正二分以上名义变量
2. Y 变数:真正二分以上名义变量
3. 公式:2
2χ
χ+=N C , C 的最大值为m m 1- ,N 为总人数 4. 特性:与卡方考验有密切关系。
5. 例:人民(老师、学生)对于实施政策的态度(同意、无意见、不同意)。 (十)
四分相关(tetrachoric correlation ;tet )
1. X 变数:人为二分名义变量(原始数据为等距变量)
2. Y 变数:人为二分名义变量(原始数据为等距变量)
3. 公式:)1180cos(AD
BC r o
tet +
=
4. 例:学业成绩(及格、不及格)与智商(高、低)的关系。
(十一) 净相关(Partial correlation ;)
1. X 变数:连续变量
2. Y 变数:连续变量
3. 公式:2
23
2
13
23131231211r r r r r r --?-=
? (显著性考验t =
3
12
312312--??N r r )
4. 特性:去除与二变量皆有关的重要影响因素,可以求得纯粹二变量间的关系。
5. 例:去掉智力的影响,求数学与国文成绩的相关。
(十二) 曲线相关或相关比(correlation ratio ;η) 1. X 变数:连续变量 2. Y 变数:连续变量 3. 公式:t
b
xy SS SS =
η 4. 特性:随着X 变量增加,Y 变量先增加,待增加至某一阶段后,反而开始下降,此二者之关系即称为曲线相关或相关比。 5. 例:工作效率与焦虑的关系。
综合以上各项相关系数的变量类型,归纳汇整如表14-1所示:
表14-1 各类相关细述之适用变数整理
一、积差相关系数之特性
(一)11+≤≤-r 。
(二)相关系数之数值与N (个数)之大小有密切关系。
1. 由公式y
x xy
S NS XY r ∑=可得知N 是决定相关系数r 值大小的重要因素之一。 2. 仅看r 值之大小,仍不能说两个变量之间有高相关或低相关(因为有可能是机率所造成),尚须再考虑样本个数(N )与显著水平(α)的大小。
(1) 一般而言,N 愈小,相关系数r 值必须愈大,方能说此二个变量间有相关存在;相反
地,N 愈大时,相关系数不需太大,吾人也可说两个变量间有相关存在。 (2) α愈小,则相关系数值必须愈大,方能说其有相关存在。如表14-2所示:
表14-2 α、N 与r 的关系表
(三)相关的程度不是与r 成正比。相关系数只是表示二变项之间关系密切与否的指标,故不能将
相关系数视为比率或等距变数。如:r 1=.80,r 2=.20,则不可说r 1之值为r 2之四倍。
(四)有关系存在,但不表示一定有因果关系。两事件同时发生,或一前一后发生,吾人仅能说两事件有相关关系,但不一定即有因果关系存在。