跳至主要内容
🤗 InvestGlass 2026 日内瓦启动早餐会 - 1 月 29 日 - #1 瑞士主权 CRM       加入我们

掌握如何计算相关系数:投资者和分析师综合指南

计算相关系数

了解不同变量之间的关系是在金融、研究和数据分析中做出明智决策的基础。无论您是在构建投资组合、开展科学研究还是分析业务指标,相关系数都是量化这些关系的有力方法。这本全面的指南将引导您了解计算和解释相关系数所需的一切知识,从基本概念到投资组合管理和风险评估中的高级应用。.

您将从本指南中学到什么?

-相关性背后的基本概念及其重要性

-如何正确解释相关系数值

-分步手动计算,附带完整的工作示例

-使用 Excel、Google Sheets 和 Python 的实用方法

-相关性在投资组合多样化中的关键作用

-皮尔逊相关性与斯皮尔曼相关性:何时使用两种相关性

-测试相关性的统计意义

-常见错误以及如何避免这些错误

-金融和投资领域的实际应用

什么是相关系数?

相关系数是一种统计量度,用于量化两个变量之间线性关系的强度和方向。皮尔逊相关系数(通常用 r 或 ρ 表示)由卡尔-皮尔逊于 19 世纪末提出,现已成为研究和金融领域使用最广泛的统计量之一。.

相关系数的核心是回答一个简单的问题:当一个变量发生变化时,另一个变量是否会以可预测的方式发生变化?答案用-1 和+1 之间的数字表示,其中符号表示方向,大小表示强度。.

相关系数表

了解不同相关值的含义对于正确解释至关重要:

相关值 (r)实力方向实用解读
+0.70 至 +1.00强大积极的变量的移动非常一致
+0.50 至 +0.69中等至强积极的明确的积极关系
+0.30 至 +0.49中度积极的明显的积极趋势
+0.10 至 +0.29积极的轻微正相关
-0.09至+0.09可忽略不计没有有意义的线性关系
-0.10至-0.29阴性轻微的负面关系
-0.30至-0.49中度阴性明显的负面倾向
-0.50至-0.69中等至强阴性明显的负面关系
-0.70至-1.00强大阴性变量反向移动非常一致

值得注意的是,这些阈值会因学科而异。在心理学和社会科学中,高于 0.5 的相关性通常被认为是强相关性,而在物理学或工程学中,低于 0.9 的相关性可能被认为是弱相关性。在解释相关值时,上下文非常重要。.

正相关与负相关

当两个变量趋于同时增加或减少时,就会出现正相关。例如,一个人的身高和体重之间通常存在正相关--身高越高的人往往体重越重。在金融领域,同一行业的股票往往呈现正相关,因为它们受到类似经济因素的影响。.

当一个变量上升而另一个变量下降时,就会出现负相关(也称为反相关)。一个典型的例子就是股票价格和债券价格之间的历史关系--当股票下跌时,投资者往往会逃往安全的债券,从而推动债券价格上涨。这种负相关正是理财顾问建议持有两种资产类别以分散投资的原因。.

零相关表示变量之间没有线性关系。这并不一定意味着变量之间没有关系--它们之间可能存在非线性关系,而皮尔逊相关系数无法检测到这种关系。.

用散点图直观显示相关性

在计算任何相关系数之前,明智的做法是使用散点图将数据可视化。这种图形表示法将每对观测值绘制成二维图形上的一个点,一个变量在 x 轴上,另一个变量在 y 轴上。.

散点图揭示了几个重要特征:

1.关系方向:从左到右呈上升趋势的点表示正相关;呈下降趋势的点表示负相关。.

2.关系强度:假想线周围的点越密集,相关性就越强。.

3.线性:皮尔逊相关性衡量的是线性关系。如果散点图显示的是曲线模式,则皮尔逊系数可能会低估真实的关系强度。.

4.异常值:与一般模式相差甚远的异常数据点会极大地影响相关性计算。.

5.同方差在理想情况下,所有 x 值的点分布应基本一致。.

皮尔逊相关系数公式

皮尔逊相关系数可以用几个等价的数学公式来计算。最直观的版本是

r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/√[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]。

在哪里?

-r = 皮尔逊相关系数

-xᵢ = 单个 x 值

-yᵢ = 个体 y 值

-x̄ = x 值的平均值

-ȳ = y 值的平均值

-Σ= 求和符号

另一种计算公式通常更易于手工计算,它是

r = [n(Σxy) - (Σx)(Σy)] / √{[n(Σx²) - (Σx)²][n(Σy²) - (Σy)²]}。

在哪里?

-n = 数据对的数量

-Σxy = 成对数值的乘积之和

-Σx和Σy分别 = x值和y值之和

-Σx² 和 Σy² = 平方值之和

逐步手工计算:完整的工作实例

让我们通过一个完整的例子来演示计算过程。假设我们要分析一家小型企业六个月内每月广告支出与销售收入之间的相关性。.

数据

月份广告支出(千英镑)销售收入(千英镑)
一月份10100
二月份12120
三月份890
四月15150
五月份11115
六月14140

步骤 1:计算平均数

首先,我们计算每个变量的平均值:

x 的平均值(广告):x̄ = (10 + 12 + 8 + 15 + 11 + 14) / 6 = 70 / 6 = 11.67

y 的平均值(销售额):ȳ = (100 + 120 + 90 + 150 + 115 + 140) / 6 = 715 / 6 = 119.17

步骤 2:计算与平均值的偏差

对于每个数据点,我们计算它偏离各自平均值的程度:

月份xy(xᵢ - x̄)(yᵢ - ȳ)
一月份10100-1.67-19.17
二月份121200.330.83
三月份890-3.67-29.17
四月151503.3330.83
五月份11115-0.67-4.17
六月141402.3320.83

步骤 3:计算乘积和平方差

月份(xᵢ - x̄)(yᵢ - ȳ)(xᵢ - x̄)²(yᵢ - ȳ)²
一月份32.012.79367.49
二月份0.270.110.69
三月份107.0513.47850.89
四月102.6611.09950.49
五月份2.790.4517.39
六月48.535.43433.89
总和293.3333.332620.83

步骤 4:应用公式

现在我们可以计算相关系数了:

r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/√[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]。

r = 293.33 / √(33.33 × 2620.83)

r = 293.33 / √87,361.10

r = 293.33 / 295.57

r = 0.992

口译

0.992 的相关系数表明,广告支出与销售收入之间存在极强的正相关性。这表明,广告支出的增加与销售收入的增加有着非常一致的联系。但是,请记住,相关性并不意味着因果关系--我们不能仅从这一分析中得出结论,认为广告会导致销售额的增加。.

在 Excel 和 Google Sheets 中计算相关性

虽然理解手工计算对建立直觉很有价值,但在实际操作中,您需要使用软件进行相关性分析。Excel 和 Google Sheets 使这一工作变得异常简单。.

使用 CORREL 函数

最直接的方法是 CORREL 函数:

纯文本

=correl(a2:a7, b2:b7)

其中 A2:A7 包含 x 值,B2:B7 包含 y 值。这将直接返回皮尔逊相关系数。.

使用数据分析工具包(Excel)

要进行更全面的分析,Excel 的数据分析工具包可提供更多选项:

1.转到数据 > 数据分析

2.选择相关性

3.输入数据范围

4.选择输出选项

这种方法在同时分析多个变量之间的相关性时特别有用,因为它能生成一个完整的相关矩阵。.

创建相关矩阵

在处理多个变量时,相关矩阵会在一张表中显示所有成对的相关性。这对于需要了解众多资产之间关系的投资组合分析来说非常宝贵。.

用 Python 计算相关性

Python 通过 NumPy、Pandas 和 SciPy 等库提供了强大的相关性分析工具。下面介绍如何以编程方式计算相关性:

使用 NumPy 的基本相关性

Python

import numpy as np # 样本数据 advertising = np.array([10, 12, 8, 15, 11, 14]) sales = np.array([100, 120, 90, 150, 115, 140]) # 计算皮尔逊相关性 correlation = np.corrcoef(advertising, sales)[0, 1] print(f ”Pearson correlation: {correlation:.4f}”)

使用 Pandas 的相关矩阵

Python

import pandas as pd # Create DataFrame data = pd.DataFrame({ ‘Advertising’: [10, 12, 8, 15, 11, 14], ‘Sales’:[100,120,90,150,115,140],‘网站访问量’:[500, 600, 450, 750, 575, 700] }) # 生成相关矩阵 correlation_matrix = data.corr() print(correlation_matrix)

使用 SciPy 进行统计意义分析

Python

from scipy import stats # 用 P 值计算相关性 correlation, p_value = stats.pearsonr(advertising, sales) print(f ”Correlation: {correlation:.4f}”) print(f ”P-value: {p_value:.6f}”)

金融中的相关性:投资组合多样化与风险管理

了解相关性对于投资专业人士和任何管理投资组合的人来说都是绝对必要的。这一概念是哈里-马科维茨(Harry Markowitz)于 1952 年提出的现代投资组合理论(MPT)的核心,它彻底改变了我们对投资风险和收益的看法。.

多样化优势

投资组合理论的基本观点是,将相关性低或负相关的资产组合在一起,可以降低投资组合的整体风险,而不一定牺牲收益。这就是多样化的数学基础。.

考虑两种资产:

-资产 A:预期收益 10%,标准差 15%

-资产 B:预期收益 10%,标准差 15%

如果这些资产的相关性为 +1.0(完全正相关),将它们组合在一起不会带来任何分散风险的好处--投资组合的风险等于单个风险的加权平均值。.

但是,如果相关性为 0.0(无相关性),50/50 投资组合的标准偏差约为 10.6%,明显低于任何一种单项资产。.

如果相关性为-1.0(完全负相关),理论上可以用两种风险资产构建一个无风险投资组合。.

典型资产类别相关性

了解资产类别之间的历史相关性有助于构建投资组合:

资产对典型相关性影响
美国大盘股/美国小盘股+0.85 至 +0.95多样化效益有限
美国股票/国际发达股票+0.70 至 +0.85适度的多样化效益
股票/政府债券-0.20至+0.30良好的多样化效益
股票 / 黄金-0.10至+0.20良好的多样化效益
股票/房地产+0.50 至 +0.70一定的多样化优势

InvestGlass 提供先进的投资组合分析工具,使投资专业人员能够实时计算和监控资产之间的相关性。该工具 InvestGlass 投资组合管理系统 (PMS) 使您能够可视化相关性矩阵,跟踪相关性随时间的变化,并根据相关性分析优化投资组合配置。这在市场紧张时尤为重要,因为此时相关性往往会增加,有可能破坏分散投资策略。.

危机期间的相关性分解

投资者需要考虑的一个重要因素是,相关性并不是长期稳定的。在市场危机期间,风险资产之间的相关性往往会急剧上升,而这恰恰是最需要分散投资的时候。这种现象有时被称为 “相关性崩溃 ”或 “传染”,在 2008 年金融危机和 2020 年 COVID-19 市场崩盘期间表现得十分明显。.

"(《世界人权宣言》) InvestGlass 自动化工具 可配置为监控相关性变化,并在相关性超过预定阈值时提醒投资组合经理,从而实现主动风险管理。.

皮尔逊与斯皮尔曼相关性:选择正确的方法

皮尔逊相关系数是最常用的测量方法,但它并不总是合适的。斯皮尔曼秩相关系数提供了一种在某些情况下更稳健的替代方法。.

对照表

特征皮尔逊相关性斯皮尔曼相关性
测量内容线性关系单调关系
数据要求连续、正态分布顺序或连续
对异常值的敏感性
假设线性、正态、同方差仅单调性
计算基础实际值等级
何时使用正常数据的线性关系非线性单调关系、序数数据或出现离群值时

何时使用斯皮尔曼相关性

选择斯皮尔曼相关性时:

1.您的数据是序数数据:例如,1-5 级的调查回答

2.关系是单调的,但不是线性的:变量一起持续增加或减少,但不是以恒定的速率增加或减少

3.存在异常值:斯皮尔曼法对极端值更稳健

4.违反了正态性假设:当数据明显非正态分布时

计算斯皮尔曼相关性

Spearman 相关性的计算方法是:首先将数值转换为等级,然后对等级应用 Pearson 公式。在 Python 中:

Python

from scipy import stats # 计算斯皮尔曼相关性 spearman_corr, p_value = stats.spearmanr(x_data, y_data)

检验统计意义

仅凭相关系数并不能说明这种关系在统计学上是否有意义,也就是说,这种关系是否可能反映了群体中的真实关系,而不是样本中的随机机会。.

假设检验

为了检验显著性,我们通常会提出假设:

-零假设 (H₀):人群中不存在相关性 (ρ = 0)

-另一种假设 (H₁):人群中存在相关性 (ρ ≠ 0)

相关性 t 检验

检验统计量的计算公式为

t = r × √[(n-2) / (1-r²)]

这遵循自由度为 (n-2) 的 t 分布。如果计算出的 t 值超过所选显著性水平的临界值(通常为 0.05),则拒绝零假设,并得出相关性具有统计意义的结论。.

P 值和置信区间

现代统计软件会直接报告 p 值。小于 0.05 的 p 值通常被认为具有统计学意义,这意味着如果不存在真正的相关性,那么观察到这种相关性的概率小于 5%。.

置信区间给出了真实人口相关性的可信值范围,从而提供了更多的洞察力。95% 置信区间不包含零,表示在 0.05 水平上具有统计学意义。.

样本量考虑因素

统计意义在很大程度上取决于样本量。在样本量非常大的情况下,即使是微小的相关性也可能具有统计意义,但实际上却毫无意义。相反,如果样本较小,即使是中等相关性也可能达不到统计意义。一定要同时考虑统计意义和实际意义。.

报告相关结果

在介绍相关研究结果时,应遵循既定惯例,以确保清晰和完整。.

APA 报告风格

美国心理学会(APA)的格式被广泛使用:

“广告支出与销售收入之间存在很强的正相关性,r(4) = .99,p < .001”。”

括号中的数字是自由度(n-2),后面是相关系数和 p 值。.

报告的最佳做法

1. 报告相关系数,精确到小数点后两位数

2.包含 p 值或指明显著性水平

3.说明样本量或自由度

4.用通俗易懂的语言描述方向和力度

5.尽可能包含置信区间

6.承认局限性,如潜在的混杂变量

常见错误和如何避免这些错误

错误 1:根据相关性假设因果关系

这可能是最常见也是最危险的错误。两个变量之间的相关性并不意味着一个变量导致另一个变量。可能有

-反向因果关系:Y可能导致X,而不是相反

-基础变量:第三个变量可能同时导致 X 和 Y

-巧合:这种关系可能是虚假的

始终考虑其他解释,并在可能的情况下使用实验设计来确定因果关系。.

错误 2:忽视非线性关系

皮尔逊相关性只能检测线性关系。完美的二次关系(如抛物线)可能产生接近零的相关性。一定要先用散点图将数据可视化。.

错误 3:忽视异常值

一个离群值可能会大大提高或降低相关系数。通过目测识别异常值,并考虑它们是否代表错误、异常但有效的观察结果或不同的群体。.

错误 4:限制范围

如果您根据有限的数据范围计算相关性,您可能会低估真实的相关性。例如,如果你只研究成绩优秀的学生,你可能会发现学习时间和成绩之间的相关性很小,但这并不意味着这种关系在更广泛的人群中不存在。.

错误 5:生态谬误

根据综合数据(如国家平均值)计算的相关性可能不适用于个人。国家财富与预期寿命之间的相关性并不一定意味着富裕的个人在任何特定国家都更长寿。.

错误 6:假设长期稳定

相关性会随着时间的推移而变化,尤其是在金融市场。历史相关性可能无法预测未来的关系,尤其是在市场紧张时。.

高级应用和注意事项

滚动相关性

滚动相关性不是计算整个数据集的单一相关性,而是计算移动窗口的相关性。这揭示了相关关系如何随时间演变--这对动态投资组合管理至关重要。.

局部相关性

局部相关测量两个变量之间的关系,同时控制一个或多个其他变量。这有助于分离出相关变量之间的独特关系。.

相关矩阵和热图

在分析多个变量时,相关矩阵以网格格式显示所有成对相关性。热图添加了彩色编码,使模式更加清晰可见。InvestGlass 提供直观的可视化工具,可轻松识别相关资产群和潜在的多样化机会。.

自相关性

自相关测量变量在不同滞后期与自身的相关性。这在时间序列分析中非常重要,可以显示数据的可预测性或持久性。.

金融之外的实际应用

虽然我们主要侧重于金融应用,但相关性分析在许多领域都很有价值:

医疗保健与医学研究

-风险因素与疾病结果的关系

-分析生物标记物之间的关系

-评估治疗效果

市场营销与商业

-了解以下方面之间的关系 市场营销 支出和成果

-分析客户行为模式

-确定客户满意度的驱动因素

环境科学

-研究气候变量之间的关系

-分析污染和健康结果

-了解生态系统动态

社会科学

-研究社会经济因素之间的关系

-研究教育成果

-分析调查数据

利用技术进行相关性分析

InvestGlass 等现代平台改变了专业人士进行相关性分析的方式。与手动计算相关性或与电子表格搏斗相比,投资专业人士现在可以访问实时相关性数据、自动监控和复杂的可视化工具。.

"(《世界人权宣言》) InvestGlass CRM 与投资组合管理工具无缝集成,使财富经理能够有效地向客户传达基于相关性的见解。该系统 数字入职 这些能力可确保正确把握客户的风险状况,从而根据相关性分析构建适当的投资组合。.

对于希望实现投资流程自动化的公司,InvestGlass 可提供全面的解决方案,将相关性分析纳入系统投资策略。您可以 预约演示 了解这些工具如何能改进您的投资流程。.

结论

相关系数是每个投资者、分析师和研究人员都应深入了解的基本统计工具。从基本解释到投资组合管理中的高级应用,相关性分析为了解变量之间的关系提供了宝贵的见解。.

本指南的主要启示

1.相关性范围为-1 至 +1,表示线性关系的强度和方向

2.在计算相关性之前,始终将数据可视化,以检查线性和异常值

3.选择适当的方法:皮尔逊法适用于正常数据的线性关系;斯皮尔曼法适用于单调关系或违反假设的情况

4.测试统计意义,但也要考虑实际意义

5.记住相关性并不意味着因果关系

6.相关性随时间变化,尤其是在市场紧张时

7.使用 InvestGlass 等现代工具简化相关性分析和投资组合管理

无论您是在构建多元化投资组合、开展研究还是分析商业数据,掌握相关性分析都将提高您的分析能力和决策水平。无论您是使用计算器、Excel、Python 还是 InvestGlass 等复杂的平台,其原理都是一样的--理解基本概念才能有效地应用这些工具。.

从今天开始,将相关性分析融入您的工作中,您就能更深入地了解推动您所在领域取得成果的各种关系。.

常见问题 (FAQ)

1.什么是相关系数,为什么它很重要?

相关系数是一种统计量度,用于量化两个变量之间线性关系的强度和方向。它的范围从-1 到+1,其中+1 表示完全正相关,-1 表示完全负相关,0 表示没有线性关系。它之所以重要,是因为它能帮助我们了解变量之间是如何相互影响的,这对于投资组合多样化、风险管理、科学研究和商业分析都至关重要。.

2.如何解释 0.7 的相关系数?

相关系数为 0.7 表示两个变量之间存在很强的正相关关系。这意味着当一个变量增加时,另一个变量也会增加,而且这种模式相当一致。实际上,一个变量中大约 49%(0.7² = 0.49)的变异可以用它与另一个变量的关系来解释。.

3.皮尔逊相关和斯皮尔曼相关有什么区别?

皮尔逊相关测量连续变量之间的线性关系,假设数据呈正态分布。斯皮尔曼相关测量单调关系(持续增加或减少,但不一定是以恒定的速率增加或减少),适用于序数数据或违反正态假设的情况。由于斯皮尔曼使用的是等级而不是实际值,因此它对异常值也更稳健。.

4.相关性能证明因果关系吗?

不,相关性不能证明因果关系。两个变量之间的相关性只能说明它们有一起移动的趋势,并不能说明原因。这种关系可能是一个变量引起另一个变量,也可能是两个变量都由第三个变量引起,还可能是反向因果关系,或者纯属巧合。确定因果关系需要对照实验或复杂的因果推论方法。.

5.相关性如何帮助投资组合多样化?

相关性是投资组合多样化的基础。通过组合相关性低或负相关的资产,投资者可以降低投资组合的整体风险,而不一定牺牲收益。当一种资产下跌时,无相关性或负相关的资产可能保持稳定或上涨,从而缓冲投资组合的整体表现。这就是现代投资组合理论的数学基础。.

6.可靠的相关分析需要多大的样本量?

虽然没有绝对的最小值,但样本越多,估算结果越可靠。一般来说,基本分析建议至少使用 30 个数据点,当然越多越好。如果样本极少(少于 10 个),即使存在很强的相关性,在统计意义上也可能不显著。在评估结果时,既要考虑统计意义,也要考虑置信区间宽度。.

7.如何在 Excel 中计算相关性?

最简单的方法是使用 CORREL 函数:=CORREL(range1, range2)。例如,=CORREL(A2:A100, B2:B100)计算 A 列和 B 列数据之间的相关性。如果要进行包括多个变量在内的更全面的分析,请使用 Excel 的数据分析工具包生成相关性矩阵。.

8.使用相关分析时应避免哪些常见错误?

最常见的错误包括:假定相关性意味着因果关系;忽视非线性关系;忽视可能导致结果偏差的异常值;限制数据范围;将个体层面的结论应用于综合数据(生态谬误);以及假定相关性随时间保持稳定。始终将数据可视化,检查假设并仔细解释结果。.

9.InvestGlass 如何帮助进行投资相关性分析?

InvestGlass 提供全面的投资组合管理工具,包括实时相关性分析、相关性矩阵和可视化功能。该平台允许投资专业人士监控相关性随时间的变化,设置相关性阈值突破警报,并根据相关性数据优化投资组合配置。自动化工具还可以根据相关性变化实施系统性再平衡策略。.

10.为什么在市场危机期间相关性会发生变化?

在市场危机期间,风险资产之间的相关性通常会增加--这种现象被称为 “相关性崩溃 ”或 “传染”。出现这种情况的原因是,在压力时期,投资者往往会不加区分地抛售风险资产,导致价格齐头并进,而不顾基本面的差异。这对分散投资策略来说尤其棘手,因为低相关性提供的保护可能会在最需要的时候消失。这就是为什么成熟的投资者会监控相关性动态,并对其投资组合进行压力测试。.

本文由 InvestGlass 内容团队与定量金融专家合作撰写。有关 InvestGlass 如何满足您的投资分析和投资组合管理需求的更多信息,请访问 联系我们的团队.

免责声明:本文仅供教育和信息参考之用,不应被视为投资建议。过去的相关性并不保证未来的关系。在做出投资决定之前,请务必咨询合格的金融专业人士。.

相关系数, 数据科学, 统计分析