了解不同变量之间的关系是在金融、研究和数据分析中做出明智决策的基础。无论您是在构建投资组合、开展科学研究还是分析业务指标,相关系数都是量化这些关系的有力方法。这本全面的指南将引导您了解计算和解释相关系数所需的一切知识,从基本概念到投资组合管理和风险评估中的高级应用。.
您将从本指南中学到什么?
-相关性背后的基本概念及其重要性
-如何正确解释相关系数值
-分步手动计算,附带完整的工作示例
-使用 Excel、Google Sheets 和 Python 的实用方法
-相关性在投资组合多样化中的关键作用
-皮尔逊相关性与斯皮尔曼相关性:何时使用两种相关性
-测试相关性的统计意义
-常见错误以及如何避免这些错误
-金融和投资领域的实际应用
什么是相关系数?
相关系数是一种统计量度,用于量化两个变量之间线性关系的强度和方向。皮尔逊相关系数(通常用 r 或 ρ 表示)由卡尔-皮尔逊于 19 世纪末提出,现已成为研究和金融领域使用最广泛的统计量之一。.
相关系数的核心是回答一个简单的问题:当一个变量发生变化时,另一个变量是否会以可预测的方式发生变化?答案用-1 和+1 之间的数字表示,其中符号表示方向,大小表示强度。.
相关系数表
了解不同相关值的含义对于正确解释至关重要:
| 相关值 (r) | 实力 | 方向 | 实用解读 |
| +0.70 至 +1.00 | 强大 | 积极的 | 变量的移动非常一致 |
| +0.50 至 +0.69 | 中等至强 | 积极的 | 明确的积极关系 |
| +0.30 至 +0.49 | 中度 | 积极的 | 明显的积极趋势 |
| +0.10 至 +0.29 | 弱 | 积极的 | 轻微正相关 |
| -0.09至+0.09 | 可忽略不计 | 无 | 没有有意义的线性关系 |
| -0.10至-0.29 | 弱 | 阴性 | 轻微的负面关系 |
| -0.30至-0.49 | 中度 | 阴性 | 明显的负面倾向 |
| -0.50至-0.69 | 中等至强 | 阴性 | 明显的负面关系 |
| -0.70至-1.00 | 强大 | 阴性 | 变量反向移动非常一致 |
值得注意的是,这些阈值会因学科而异。在心理学和社会科学中,高于 0.5 的相关性通常被认为是强相关性,而在物理学或工程学中,低于 0.9 的相关性可能被认为是弱相关性。在解释相关值时,上下文非常重要。.
正相关与负相关
A positive correlation occurs when both variables tend to increase or decrease together. For example, there is typically a positive correlation between a person’s height and weight taller individuals tend to weigh more. In finance, stocks within the same sector often exhibit positive correlations because they’re affected by similar economic factors.
A negative correlation (also called inverse correlation) occurs when one variable increases whilst the other decreases. A classic example is the historical relationship between stock prices and bond prices when stocks fall, investors often flee to the safety of bonds, driving bond prices up. This negative correlation is precisely why financial advisers recommend holding both asset classes for diversification.
Zero correlation indicates no linear relationship between variables. This doesn’t necessarily mean the variables are unrelated they might have a non-linear relationship that the Pearson correlation coefficient cannot detect.
用散点图直观显示相关性
在计算任何相关系数之前,明智的做法是使用散点图将数据可视化。这种图形表示法将每对观测值绘制成二维图形上的一个点,一个变量在 x 轴上,另一个变量在 y 轴上。.
散点图揭示了几个重要特征:
1.关系方向:从左到右呈上升趋势的点表示正相关;呈下降趋势的点表示负相关。.
2.关系强度:假想线周围的点越密集,相关性就越强。.
3.线性:皮尔逊相关性衡量的是线性关系。如果散点图显示的是曲线模式,则皮尔逊系数可能会低估真实的关系强度。.
4.异常值:与一般模式相差甚远的异常数据点会极大地影响相关性计算。.
5.同方差在理想情况下,所有 x 值的点分布应基本一致。.
皮尔逊相关系数公式
皮尔逊相关系数可以用几个等价的数学公式来计算。最直观的版本是
r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/√[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]。
在哪里?
-r = 皮尔逊相关系数
-xᵢ = 单个 x 值
-yᵢ = 个体 y 值
-x̄ = x 值的平均值
-ȳ = y 值的平均值
-Σ= 求和符号
另一种计算公式通常更易于手工计算,它是
r = [n(Σxy) - (Σx)(Σy)] / √{[n(Σx²) - (Σx)²][n(Σy²) - (Σy)²]}。
在哪里?
-n = 数据对的数量
-Σxy = 成对数值的乘积之和
-Σx和Σy分别 = x值和y值之和
-Σx² 和 Σy² = 平方值之和
逐步手工计算:完整的工作实例
让我们通过一个完整的例子来演示计算过程。假设我们要分析一家小型企业六个月内每月广告支出与销售收入之间的相关性。.
数据
| 月份 | 广告支出(千英镑) | 销售收入(千英镑) |
| 一月份 | 10 | 100 |
| 二月份 | 12 | 120 |
| 三月份 | 8 | 90 |
| 四月 | 15 | 150 |
| 五月份 | 11 | 115 |
| 六月 | 14 | 140 |
步骤 1:计算平均数
首先,我们计算每个变量的平均值:
x 的平均值(广告):x̄ = (10 + 12 + 8 + 15 + 11 + 14) / 6 = 70 / 6 = 11.67
y 的平均值(销售额):ȳ = (100 + 120 + 90 + 150 + 115 + 140) / 6 = 715 / 6 = 119.17
步骤 2:计算与平均值的偏差
对于每个数据点,我们计算它偏离各自平均值的程度:
| 月份 | x | y | (xᵢ - x̄) | (yᵢ - ȳ) |
| 一月份 | 10 | 100 | -1.67 | -19.17 |
| 二月份 | 12 | 120 | 0.33 | 0.83 |
| 三月份 | 8 | 90 | -3.67 | -29.17 |
| 四月 | 15 | 150 | 3.33 | 30.83 |
| 五月份 | 11 | 115 | -0.67 | -4.17 |
| 六月 | 14 | 140 | 2.33 | 20.83 |
步骤 3:计算乘积和平方差
| 月份 | (xᵢ - x̄)(yᵢ - ȳ) | (xᵢ - x̄)² | (yᵢ - ȳ)² |
| 一月份 | 32.01 | 2.79 | 367.49 |
| 二月份 | 0.27 | 0.11 | 0.69 |
| 三月份 | 107.05 | 13.47 | 850.89 |
| 四月 | 102.66 | 11.09 | 950.49 |
| 五月份 | 2.79 | 0.45 | 17.39 |
| 六月 | 48.53 | 5.43 | 433.89 |
| 总和 | 293.33 | 33.33 | 2620.83 |
步骤 4:应用公式
现在我们可以计算相关系数了:
r = Σ[(xᵢ-x̄)(yᵢ-ȳ)]/√[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]。
r = 293.33 / √(33.33 × 2620.83)
r = 293.33 / √87,361.10
r = 293.33 / 295.57
r = 0.992
口译
The correlation coefficient of 0.992 indicates an extremely strong positive correlation between advertising spend and sales revenue. This suggests that increases in advertising spending are very consistently associated with increases in sales revenue. However, remember that correlation does not imply causation we cannot conclude from this analysis alone that advertising causes increased sales.
在 Excel 和 Google Sheets 中计算相关性
虽然理解手工计算对建立直觉很有价值,但在实际操作中,您需要使用软件进行相关性分析。Excel 和 Google Sheets 使这一工作变得异常简单。.
使用 CORREL 函数
最直接的方法是 CORREL 函数:
纯文本
=correl(a2:a7, b2:b7)
其中 A2:A7 包含 x 值,B2:B7 包含 y 值。这将直接返回皮尔逊相关系数。.
使用数据分析工具包(Excel)
要进行更全面的分析,Excel 的数据分析工具包可提供更多选项:
1.转到数据 > 数据分析
2.选择相关性
3.输入数据范围
4.选择输出选项
这种方法在同时分析多个变量之间的相关性时特别有用,因为它能生成一个完整的相关矩阵。.
创建相关矩阵
在处理多个变量时,相关矩阵会在一张表中显示所有成对的相关性。这对于需要了解众多资产之间关系的投资组合分析来说非常宝贵。.
用 Python 计算相关性
Python 通过 NumPy、Pandas 和 SciPy 等库提供了强大的相关性分析工具。下面介绍如何以编程方式计算相关性:
使用 NumPy 的基本相关性
Python
import numpy as np # 样本数据 advertising = np.array([10, 12, 8, 15, 11, 14]) sales = np.array([100, 120, 90, 150, 115, 140]) # 计算皮尔逊相关性 correlation = np.corrcoef(advertising, sales)[0, 1] print(f ”Pearson correlation: {correlation:.4f}”)
使用 Pandas 的相关矩阵
Python
import pandas as pd # Create DataFrame data = pd.DataFrame({ ‘Advertising’: [10, 12, 8, 15, 11, 14], ‘Sales’:[100,120,90,150,115,140],‘网站访问量’:[500, 600, 450, 750, 575, 700] }) # 生成相关矩阵 correlation_matrix = data.corr() print(correlation_matrix)
使用 SciPy 进行统计意义分析
Python
from scipy import stats # 用 P 值计算相关性 correlation, p_value = stats.pearsonr(advertising, sales) print(f ”Correlation: {correlation:.4f}”) print(f ”P-value: {p_value:.6f}”)
金融中的相关性:投资组合多样化与风险管理
了解相关性对于投资专业人士和任何管理投资组合的人来说都是绝对必要的。这一概念是哈里-马科维茨(Harry Markowitz)于 1952 年提出的现代投资组合理论(MPT)的核心,它彻底改变了我们对投资风险和收益的看法。.
多样化优势
投资组合理论的基本观点是,将相关性低或负相关的资产组合在一起,可以降低投资组合的整体风险,而不一定牺牲收益。这就是多样化的数学基础。.
考虑两种资产:
-资产 A:预期收益 10%,标准差 15%
-资产 B:预期收益 10%,标准差 15%
If these assets have a correlation of +1.0 (perfect positive correlation), combining them provides no diversification benefit the portfolio’s risk equals the weighted average of individual risks.
However, if the correlation is 0.0 (no correlation), a 50/50 portfolio has a standard deviation of approximately 10.6% significantly lower than either individual asset.
如果相关性为-1.0(完全负相关),理论上可以用两种风险资产构建一个无风险投资组合。.
典型资产类别相关性
了解资产类别之间的历史相关性有助于构建投资组合:
| 资产对 | 典型相关性 | 影响 |
| 美国大盘股/美国小盘股 | +0.85 至 +0.95 | 多样化效益有限 |
| 美国股票/国际发达股票 | +0.70 至 +0.85 | 适度的多样化效益 |
| 股票/政府债券 | -0.20至+0.30 | 良好的多样化效益 |
| 股票 / 黄金 | -0.10至+0.20 | 良好的多样化效益 |
| 股票/房地产 | +0.50 至 +0.70 | 一定的多样化优势 |
InvestGlass 提供先进的投资组合分析工具,使投资专业人员能够实时计算和监控资产之间的相关性。该工具 InvestGlass 投资组合管理系统 (PMS) 使您能够可视化相关性矩阵,跟踪相关性随时间的变化,并根据相关性分析优化投资组合配置。这在市场紧张时尤为重要,因为此时相关性往往会增加,有可能破坏分散投资策略。.
危机期间的相关性分解
One critical consideration for investors is that correlations are not stable over time. During market crises, correlations between risky assets often increase dramatically precisely when diversification is most needed. This phenomenon, sometimes called “correlation breakdown” or “contagion,” was starkly evident during the 2008 financial crisis and the 2020 COVID-19 market crash.
"(《世界人权宣言》) InvestGlass 自动化工具 可配置为监控相关性变化,并在相关性超过预定阈值时提醒投资组合经理,从而实现主动风险管理。.
皮尔逊与斯皮尔曼相关性:选择正确的方法
皮尔逊相关系数是最常用的测量方法,但它并不总是合适的。斯皮尔曼秩相关系数提供了一种在某些情况下更稳健的替代方法。.
对照表
| 特征 | 皮尔逊相关性 | 斯皮尔曼相关性 |
| 测量内容 | 线性关系 | 单调关系 |
| 数据要求 | 连续、正态分布 | 顺序或连续 |
| 对异常值的敏感性 | 高 | 低 |
| 假设 | 线性、正态、同方差 | 仅单调性 |
| 计算基础 | 实际值 | 等级 |
| 何时使用 | 正常数据的线性关系 | 非线性单调关系、序数数据或出现离群值时 |
何时使用斯皮尔曼相关性
选择斯皮尔曼相关性时:
1.您的数据是序数数据:例如,1-5 级的调查回答
2.关系是单调的,但不是线性的:变量一起持续增加或减少,但不是以恒定的速率增加或减少
3.存在异常值:斯皮尔曼法对极端值更稳健
4.违反了正态性假设:当数据明显非正态分布时
计算斯皮尔曼相关性
Spearman 相关性的计算方法是:首先将数值转换为等级,然后对等级应用 Pearson 公式。在 Python 中:
Python
from scipy import stats # 计算斯皮尔曼相关性 spearman_corr, p_value = stats.spearmanr(x_data, y_data)
检验统计意义
A correlation coefficient alone doesn’t tell you whether the relationship is statistically significant that is, whether it’s likely to reflect a true relationship in the population rather than random chance in your sample.
假设检验
为了检验显著性,我们通常会提出假设:
-零假设 (H₀):人群中不存在相关性 (ρ = 0)
-另一种假设 (H₁):人群中存在相关性 (ρ ≠ 0)
相关性 t 检验
检验统计量的计算公式为
t = r × √[(n-2) / (1-r²)]
这遵循自由度为 (n-2) 的 t 分布。如果计算出的 t 值超过所选显著性水平的临界值(通常为 0.05),则拒绝零假设,并得出相关性具有统计意义的结论。.
P 值和置信区间
现代统计软件会直接报告 p 值。小于 0.05 的 p 值通常被认为具有统计学意义,这意味着如果不存在真正的相关性,那么观察到这种相关性的概率小于 5%。.
置信区间给出了真实人口相关性的可信值范围,从而提供了更多的洞察力。95% 置信区间不包含零,表示在 0.05 水平上具有统计学意义。.
样本量考虑因素
统计意义在很大程度上取决于样本量。在样本量非常大的情况下,即使是微小的相关性也可能具有统计意义,但实际上却毫无意义。相反,如果样本较小,即使是中等相关性也可能达不到统计意义。一定要同时考虑统计意义和实际意义。.
报告相关结果
在介绍相关研究结果时,应遵循既定惯例,以确保清晰和完整。.
APA 报告风格
美国心理学会(APA)的格式被广泛使用:
“广告支出与销售收入之间存在很强的正相关性,r(4) = .99,p < .001”。”
括号中的数字是自由度(n-2),后面是相关系数和 p 值。.
报告的最佳做法
1. 报告相关系数,精确到小数点后两位数
2.包含 p 值或指明显著性水平
3.说明样本量或自由度
4.用通俗易懂的语言描述方向和力度
5.尽可能包含置信区间
6.承认局限性,如潜在的混杂变量
常见错误和如何避免这些错误
错误 1:根据相关性假设因果关系
这可能是最常见也是最危险的错误。两个变量之间的相关性并不意味着一个变量导致另一个变量。可能有
-反向因果关系:Y可能导致X,而不是相反
-基础变量:第三个变量可能同时导致 X 和 Y
-巧合:这种关系可能是虚假的
始终考虑其他解释,并在可能的情况下使用实验设计来确定因果关系。.
错误 2:忽视非线性关系
皮尔逊相关性只能检测线性关系。完美的二次关系(如抛物线)可能产生接近零的相关性。一定要先用散点图将数据可视化。.
错误 3:忽视异常值
一个离群值可能会大大提高或降低相关系数。通过目测识别异常值,并考虑它们是否代表错误、异常但有效的观察结果或不同的群体。.
错误 4:限制范围
If you calculate correlation on a restricted range of data, you may underestimate the true correlation. For example, if you only study high-performing students, you might find little correlation between study time and grades but this doesn’t mean the relationship doesn’t exist in the broader population.
错误 5:生态谬误
根据综合数据(如国家平均值)计算的相关性可能不适用于个人。国家财富与预期寿命之间的相关性并不一定意味着富裕的个人在任何特定国家都更长寿。.
错误 6:假设长期稳定
相关性会随着时间的推移而变化,尤其是在金融市场。历史相关性可能无法预测未来的关系,尤其是在市场紧张时。.
高级应用和注意事项
滚动相关性
Rather than calculating a single correlation over an entire dataset, rolling correlations calculate the correlation over a moving window. This reveals how relationships evolve over time crucial for dynamic portfolio management.
局部相关性
局部相关测量两个变量之间的关系,同时控制一个或多个其他变量。这有助于分离出相关变量之间的独特关系。.
相关矩阵和热图
在分析多个变量时,相关矩阵以网格格式显示所有成对相关性。热图添加了彩色编码,使模式更加清晰可见。InvestGlass 提供直观的可视化工具,可轻松识别相关资产群和潜在的多样化机会。.
自相关性
自相关测量变量在不同滞后期与自身的相关性。这在时间序列分析中非常重要,可以显示数据的可预测性或持久性。.
金融之外的实际应用
虽然我们主要侧重于金融应用,但相关性分析在许多领域都很有价值:
医疗保健与医学研究
-风险因素与疾病结果的关系
-分析生物标记物之间的关系
-评估治疗效果
市场营销与商业
-了解以下方面之间的关系 市场营销 支出和成果
-分析客户行为模式
-确定客户满意度的驱动因素
环境科学
-研究气候变量之间的关系
-分析污染和健康结果
-了解生态系统动态
社会科学
-研究社会经济因素之间的关系
-研究教育成果
-分析调查数据
利用技术进行相关性分析
InvestGlass 等现代平台改变了专业人士进行相关性分析的方式。与手动计算相关性或与电子表格搏斗相比,投资专业人士现在可以访问实时相关性数据、自动监控和复杂的可视化工具。.
"(《世界人权宣言》) InvestGlass CRM 与投资组合管理工具无缝集成,使财富经理能够有效地向客户传达基于相关性的见解。该系统 数字入职 这些能力可确保正确把握客户的风险状况,从而根据相关性分析构建适当的投资组合。.
对于希望实现投资流程自动化的公司,InvestGlass 可提供全面的解决方案,将相关性分析纳入系统投资策略。您可以 预约演示 了解这些工具如何能改进您的投资流程。.
结论
相关系数是每个投资者、分析师和研究人员都应深入了解的基本统计工具。从基本解释到投资组合管理中的高级应用,相关性分析为了解变量之间的关系提供了宝贵的见解。.
本指南的主要启示
1.相关性范围为-1 至 +1,表示线性关系的强度和方向
2.在计算相关性之前,始终将数据可视化,以检查线性和异常值
3.选择适当的方法:皮尔逊法适用于正常数据的线性关系;斯皮尔曼法适用于单调关系或违反假设的情况
4.测试统计意义,但也要考虑实际意义
5.记住相关性并不意味着因果关系
6.相关性随时间变化,尤其是在市场紧张时
7.使用 InvestGlass 等现代工具简化相关性分析和投资组合管理
Whether you’re building a diversified investment portfolio, conducting research, or analysing business data, mastering correlation analysis will enhance your analytical capabilities and decision-making. The principles remain the same whether you’re using a calculator, Excel, Python, or sophisticated platforms like InvestGlass understanding the underlying concepts is what enables you to apply these tools effectively.
从今天开始,将相关性分析融入您的工作中,您就能更深入地了解推动您所在领域取得成果的各种关系。.
常见问题 (FAQ)
1.什么是相关系数,为什么它很重要?
相关系数是一种统计量度,用于量化两个变量之间线性关系的强度和方向。它的范围从-1 到+1,其中+1 表示完全正相关,-1 表示完全负相关,0 表示没有线性关系。它之所以重要,是因为它能帮助我们了解变量之间是如何相互影响的,这对于投资组合多样化、风险管理、科学研究和商业分析都至关重要。.
2.如何解释 0.7 的相关系数?
相关系数为 0.7 表示两个变量之间存在很强的正相关关系。这意味着当一个变量增加时,另一个变量也会增加,而且这种模式相当一致。实际上,一个变量中大约 49%(0.7² = 0.49)的变异可以用它与另一个变量的关系来解释。.
3.皮尔逊相关和斯皮尔曼相关有什么区别?
皮尔逊相关测量连续变量之间的线性关系,假设数据呈正态分布。斯皮尔曼相关测量单调关系(持续增加或减少,但不一定是以恒定的速率增加或减少),适用于序数数据或违反正态假设的情况。由于斯皮尔曼使用的是等级而不是实际值,因此它对异常值也更稳健。.
4.相关性能证明因果关系吗?
No, correlation cannot prove causation. A correlation between two variables only indicates that they tend to move together it doesn’t tell us why. The relationship could be due to one variable causing the other, both being caused by a third variable, reverse causation, or pure coincidence. Establishing causation requires controlled experiments or sophisticated causal inference methods.
5.相关性如何帮助投资组合多样化?
相关性是投资组合多样化的基础。通过组合相关性低或负相关的资产,投资者可以降低投资组合的整体风险,而不一定牺牲收益。当一种资产下跌时,无相关性或负相关的资产可能保持稳定或上涨,从而缓冲投资组合的整体表现。这就是现代投资组合理论的数学基础。.
6.可靠的相关分析需要多大的样本量?
虽然没有绝对的最小值,但样本越多,估算结果越可靠。一般来说,基本分析建议至少使用 30 个数据点,当然越多越好。如果样本极少(少于 10 个),即使存在很强的相关性,在统计意义上也可能不显著。在评估结果时,既要考虑统计意义,也要考虑置信区间宽度。.
7.如何在 Excel 中计算相关性?
最简单的方法是使用 CORREL 函数:=CORREL(range1, range2)。例如,=CORREL(A2:A100, B2:B100)计算 A 列和 B 列数据之间的相关性。如果要进行包括多个变量在内的更全面的分析,请使用 Excel 的数据分析工具包生成相关性矩阵。.
8.使用相关分析时应避免哪些常见错误?
最常见的错误包括:假定相关性意味着因果关系;忽视非线性关系;忽视可能导致结果偏差的异常值;限制数据范围;将个体层面的结论应用于综合数据(生态谬误);以及假定相关性随时间保持稳定。始终将数据可视化,检查假设并仔细解释结果。.
9.InvestGlass 如何帮助进行投资相关性分析?
InvestGlass 提供全面的投资组合管理工具,包括实时相关性分析、相关性矩阵和可视化功能。该平台允许投资专业人士监控相关性随时间的变化,设置相关性阈值突破警报,并根据相关性数据优化投资组合配置。自动化工具还可以根据相关性变化实施系统性再平衡策略。.
10.为什么在市场危机期间相关性会发生变化?
During market crises, correlations between risky assets typically increase a phenomenon called “correlation breakdown” or “contagion.” This occurs because during stress periods, investors tend to sell risky assets indiscriminately, causing prices to move together regardless of fundamental differences. This is particularly problematic for diversification strategies, as the protection provided by low correlations may disappear precisely when it’s most needed. This is why sophisticated investors monitor correlation dynamics and stress-test their portfolios.
本文由 InvestGlass 内容团队与定量金融专家合作撰写。有关 InvestGlass 如何满足您的投资分析和投资组合管理需求的更多信息,请访问 联系我们的团队.
免责声明:本文仅供教育和信息参考之用,不应被视为投资建议。过去的相关性并不保证未来的关系。在做出投资决定之前,请务必咨询合格的金融专业人士。.




