多元回归:系数、显著性与共线性
Multiple Regression · 1:02
回归题先看经济含义,再看统计显著性,最后检查模型假设。高 R 平方、低 t 值时要想到多重共线性。

CFA-Wizard-Buddy· Level II · v2.11.0多元回归、时间序列、机器学习、大数据等量化分析方法。
当前讲解:M1 · 1.01 Introduction · 概览
使用浏览器本地朗读做快速复习;ElevenLabs 难点音频已改为静态嵌入,不再现场生成。
已预生成中文讲解,适合坐着复习、通勤或不方便看屏幕时快速过一遍核心逻辑。
多元回归:系数、显著性与共线性
Multiple Regression · 1:02
回归题先看经济含义,再看统计显著性,最后检查模型假设。高 R 平方、低 t 值时要想到多重共线性。
先回忆再翻答案;系统会按“会了 / 模糊 / 不会”安排本地复习日期,答错题自动进入错题重练。
Multiple Regression · 回忆调整后 R² 的核心形式:它如何惩罚无效自变量?
Multiple Regression · 调整后 R² 为什么可能下降?
Regression Diagnostics · 异方差主要影响回归中的什么?
调整后 R² 为什么可能下降?
提示:想想“模型复杂度惩罚”。
异方差主要影响回归中的什么?
向模型加入一个几乎没有解释力的变量,最可能导致:
先遮住答案,在脑中写出公式,再翻开核对;系统会把模糊和不会的公式自动放回复习队列。
回忆调整后 R² 的核心形式:它如何惩罚无效自变量?
提示:普通 R² 不会因加变量下降,但调整后 R² 会看自由度。
学习进度
已完成 0 / 73 个小节;当前定位:M1 · 1.01 Introduction · 概览
Multiple linear regression 使用两个或以上自变量来解释因变量的变异,比单变量回归更能刻画金融变量间的复杂关系;若使用不当,则会产生伪相关与糟糕预测。
Yᵢ = b₀ + b₁X₁ᵢ + b₂X₂ᵢ + … + bₖXₖᵢ + εᵢ , i = 1, 2, …, n把多元回归想成一张‘解释地图’
先区分你要解释的目标 Y、可能的解释变量 X、以及模型解释不了的噪音 ε。
Y:要解释的结果
例如股票超额收益、债券指数收益、违约概率。
X:候选解释因素
例如利率、信用利差、市场因子、规模因子。
b:每个因素的边际方向
在其他 X 不变时,单独看某个 X 对 Y 的影响。
ε:模型没解释的部分
可能来自遗漏变量、随机噪音、测量误差或非线性。
先问:Y 是什么?X 是什么?b 在解释什么?ε 代表什么?这样公式就不再只是符号。
在多元回归里,b₂ 最准确的解释是什么?
金融世界中单因子往往不足以解释变量。多元回归常用于:
回归流程(Regression Process):
回归不是按钮,而是一条决策链
定义问题
解释关系?检验理论?还是做预测?目标不同,模型评价标准不同。
指定变量
选择 Y、X、dummy、交互项,并避免明显遗漏核心变量。
估计与诊断
看系数、t-stat、F-test,也要检查假设是否被破坏。
应用与复核
预测要看 out-of-sample,解释要关注经济意义与稳定性。
考试常考:先判断问题类型,再判断该用传统回归还是 logistic regression。
如果因变量是‘公司是否会被并购’这类 0/1 变量,更合适的模型是什么?
偏回归系数 bⱼ 表示在其他自变量不变的前提下,Xⱼ 每变化一个单位 Y 的变化量。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
RET = 0.0023 − 5.0585·BY − 2.1901·CSRETRF = 1.5324 + 0.5892·MKTRF − 0.8719·SMB − 0.0560·HML系数解读三步法
先看符号
正号表示 X 上升时 Y 倾向上升;负号表示反向。
再看单位
X 的单位是 1、1% 还是 0.01,会改变口头解释。
最后加控制条件
必须补一句:holding other independent variables constant。
CFA 题目常把单位和百分比混在一起,先确认 X 的计量单位再计算。
RET = 0.0023 − 5.0585·BY − 2.1901·CS 中,BY 系数为 −5.0585 表示什么?
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
| 假设 | 含义 |
|---|---|
| 1. Linearity 线性 | 因变量与自变量呈线性关系。 |
| 2. Homoskedasticity 同方差 | 残差方差在所有观测值中相同。 |
| 3. Independence of errors | 观测值相互独立,残差不相关。 |
| 4. Normality 正态性 | 残差服从正态分布。 |
| 5. Independence of X | (a) 自变量不是随机变量;(b) 自变量之间不存在精确线性关系(避免完全多重共线性)。 |
若自变量存在精确线性关系,模型无法估计;近似线性关系(显著的两两相关)会导致系数解释困难。
假设与诊断图的一一对应
线性
看 scatterplot matrix;若明显弯曲,线性形式可能不够。
同方差
看 residuals vs predicted;漏斗形常提示异方差。
独立
残差若有系统模式,可能有自相关或遗漏变量。
正态
看 Q-Q plot;尾部偏离说明 fat-tail。
X 不重复
看自变量相关性;完全线性关系会让模型无法估计。
不要死背图名:先问它在检查哪条假设,再判断图上出现了什么异常。
哪一种情况最可能违反 homoskedasticity?
原来这里只写“开发中”,现在先用考试视角把四类图的读图逻辑放出来,帮助你看到图就知道在检查哪条假设。
Pairs Plot
先看 Y 与每个 X 是否近似直线,再看 X 之间是否高度相关。
Residuals vs Ŷ
如果残差像漏斗一样扩散,通常提示异方差;如果有弯曲,可能漏了非线性。
Residuals vs X
检查某个自变量区间是否系统性高估/低估,也能发现极端点影响。
Normal Q-Q
点贴近斜线表示残差近似正态;尾部明显偏离表示 fat tails。
Normal Q-Q Plot 主要用来检查什么?
Partial regression coefficient 的考试关键词是什么?
本模块讨论如何用 ANOVA、Adjusted R²、AIC/BIC 判断模型拟合优度;如何对一个或多个系数做 t 检验与联合 F 检验;以及如何用多元回归进行预测与区间估计。
Module 2 的主线是什么?
R² = SSR / SST。多元回归中加入变量后 R² 只增不减,故不再适合作为评估指标,原因:
Adjusted R² = 1 − [(n − 1) / (n − k − 1)] × (1 − R²)R² = 0.6155,Adjusted R² = 0.5718,F = 14.0853 (p<0.0000)。
| Source | df | SS | MS |
|---|---|---|---|
| Regression | 5 | 90.6234 | 18.1247 |
| Residual | 44 | 56.6182 | 1.2868 |
| Total | 49 | 147.2416 | — |
验证:R² = 90.6234 / 147.2416 = 0.6155。
AIC = n · ln(SSE / n) + 2(k + 1) , 预测优先BIC = n · ln(SSE / n) + ln(n) · (k + 1) , 拟合优先BIC 对参数惩罚更大(ln n > 2),偏好更精简模型。两者绝对值无意义,仅比较相对值。
| Model | R² | Adj R² | AIC | BIC |
|---|---|---|---|---|
| F1 | 0.541 | 0.531 | 19.079 | 22.903 |
| F1, F2 | 0.541 | 0.521 | 21.078 | 26.814 |
| F1, F2, F3 | 0.562 | 0.533 | 20.743 | 28.393 |
| F1, F2, F3, F4 | 0.615 | 0.580 | 16.331 | 25.891 |
| All 5 | 0.615 | 0.572 | 18.215 | 29.687 |
预测目的 → 选 F1–F4(AIC 最低);最简拟合 → 选仅 F1(BIC 最低)。
考试遇到模型选择,先问目的:预测偏 AIC,精简偏 BIC。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
为什么多元回归不能只看 R²?
单系数检验:H₀: bⱼ = Bⱼ,t = (b̂ⱼ − Bⱼ)/SE(b̂ⱼ),df = n − k − 1。默认软件给出对 0 的 t 与 P-value。
Nested models 的联合 F 检验
F = [(SSE_R − SSE_U) / q] / [SSE_U / (n − k − 1)]Restricted (F1, F2, F3):SSE = 64.5176,df = 46。
Unrestricted (F1–F5):SSE = 56.6182,df = 44。
F = [(64.5176 − 56.6182) / 2] / (56.6182 / 44) = 3.9497 / 1.2868 ≈ 3.069临界值 F(2, 44, 1%) = 5.120 → 不能拒绝 H₀。F4、F5 联合不显著,倾向精简模型。
General linear F-test(整体显著性)
F = MSR / MSE,df = (k, n − k − 1)以 Exhibit 1 为例:F = 18.1247 / 1.2868 = 14.0853,临界 F(5, 44, 5%) ≈ 2.427 → 拒绝 H₀,模型整体显著。
| 统计量 | 判定方向 |
|---|---|
| Adjusted R² | 越高越好 |
| AIC | 越低越好(偏预测) |
| BIC | 越低越好(偏拟合 / 精简) |
| 单系数 t | |t| > 临界值 |
| 联合 F | F > 临界值 |
F-test 问的是一组变量合起来有没有用,不是单个 t 值。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
Nested F-test 的原假设通常是什么?
Ŷf = b̂₀ + b̂₁X₁f + b̂₂X₂f + … + b̂ₖXₖf预测必须包含所有自变量(即使不显著)及截距,因为系数估计已用到变量间相关性。
Ŷ = −2.1876 + 1.5992·F1 + 0.1923·F2 − 0.7126·F3 + 3.3376·F4 − 2.6832·F5| 项目 | 假设值 | 系数 | 乘积 |
|---|---|---|---|
| Intercept | 1.000 | −2.1876 | −2.1876 |
| F1 | 0.110 | 1.5992 | 0.1759 |
| F2 | 0.040 | 0.1923 | 0.0077 |
| F3 | 0.080 | −0.7126 | −0.0570 |
| F4 | −0.010 | 3.3376 | −0.0334 |
| F5 | 0.001 | −2.6832 | −0.0027 |
| Ŷf | −2.0971% | ||
标准误 = 1.1466;95% 区间 [−4.4098, 0.2119],比样本内回归标准误更宽,反映 model error + sampling error。
ROA = 4.7022 + 1.2302·CAPEX − 0.0371·ADV + 0.1029·R&D
CAPEX=5, ADV=4, R&D=3:
ROA = 4.7022 + 1.2302·5 − 0.0371·4 + 0.1029·3 = 11.0135%已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
预测区间为什么通常比回归标准误更宽?
AIC/BIC 的共同判定方向是?
本模块讨论模型设定原则与常见设定误差,以及三大回归假设违反:异方差、序列相关、多重共线性的成因、后果、检验与修正方法。
模型设定检查的核心目的是什么?
| 原则 | 说明 |
|---|---|
| 经济逻辑支撑 | 变量选择应有经济学依据。 |
| 简约 (Parsimonious) | 每个变量必须发挥实质作用。 |
| 样本外表现良好 | 避免过拟合,仅解释训练样本。 |
| 函数形式恰当 | 若存在非线性关系,应纳入非线性项。 |
| 满足回归假设 | 检测到异方差/序列相关/多重共线性应修正。 |
Parsimonious 模型强调什么?
| 类型 | 说明 | 后果 |
|---|---|---|
| 遗漏变量 | 遗漏重要自变量 | 异方差 / 序列相关 |
| 变量形式不当 | 忽略非线性关系 | 异方差 |
| 尺度不当 | 未做必要变量转换 | 异方差 / 多重共线性 |
| 数据不当合并 | 合并不应合并的样本 | 异方差 / 序列相关 |
遗漏变量 (Omitted Variable Bias)
真实模型 Y = b₀ + b₁X₁ + b₂X₂ + ε,若仅估 Y = b₀ + b₁X₁ + ε:
变量形式不当
忽略非线性关系。若关系为指数 / 比例增长,可对变量取自然对数线性化。
变量尺度不当
跨公司比较应使用 common-size(同比报表 / 比率)数据。
数据不当合并
样本若跨结构性突变(监管变化 / 波动率体制切换),散点会呈分簇。建议使用最贴近预测期条件的子样本估计。
看到残差有系统模式,先怀疑函数形式或遗漏变量。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
遗漏变量何时会导致斜率有偏且不一致?
异方差:残差方差跨观测不恒定。成因含模型误设、极端自变量值等。
Breusch–Pagan 检验
BP = n × R²_step2 ~ χ²(k)H₀:无条件异方差。P<α → 拒绝 → 存在条件异方差。
OLS:MKTRF SE=0.0601 (t=20.64),SMB SE=0.1042 (t=10.51),HML 不显著。
BP = 13.40,P=0.00038 → 1% 拒绝 H₀,存在条件异方差。
White / Robust SE 修正后:MKTRF SE 0.060 → 0.091;SMB SE 0.104 → 0.111。系数不变,仅 SE 被修正,t 减小,P 增大。
注:市场有效假说下,金融数据不应长期存在异方差;若出现(如波动率聚集),意味着可被开发的 alpha 机会。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
条件异方差最直接破坏什么?
| 自变量含因变量滞后项? | 系数估计 | SE 估计 |
|---|---|---|
| 否 | 一致(OK) | 有偏 |
| 是 | 不一致 | 有偏 |
正序列相关最常见:残差符号在相邻期持续。后果:MSE 低估真实方差 → F 膨胀;SE 低估 → t 膨胀 → 更多 Type I。
Breusch–Godfrey 检验
相较 DW 仅检验一阶,BG 可检测任意阶 p,更稳健。
OLS:CONS 系数 0.8696 (SE 0.027, t=31.99, P=0)。
BG F=23.61,P=0.023 → 存在序列相关。
Newey–West / HAC robust SE:CONS SE 0.027 → 0.036,t 31.99 → 24.31。系数不变,SE 增大;同时兼修正异方差。
robust SE 别名:HAC、Newey–West、serial-correlation consistent SE。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列残差存在正序列相关时,常见后果是?
自变量间高度(近似)线性相关。系数仍一致,但不精确:SE 膨胀、t 减小、检验功效低。
经典征兆
R² 高、F 显著,但各 t 都不显著。
VIF
VIF_j = 1 / (1 − R²_j),R²_j 来自 X_j 对其余 k−1 个变量的回归仅 SGX+SVX:两者均显著,SE≈0.196。
加入 SPX 后:SE 暴增(SGX 6.17, SVX 5.50, SPX 11.66),t 全部不显著;R² 几乎不变 → 典型多重共线性。
| 变量 | 含 SPX 的 VIF | 不含 SPX 的 VIF |
|---|---|---|
| SGX | 3,863.85 | 3.97 |
| SVX | 3,083.22 | 3.97 |
| SPX | 12,904.81 | — |
修正方法
| 假设 | 违反 | 问题 | 检测 | 修正 |
|---|---|---|---|---|
| 同方差 | 异方差 | SE 有偏 | 残差图 / BP | 改模型 / robust SE |
| 观测独立 | 序列相关 | 系数不一致 + SE 有偏 | BG | 改模型 / HAC SE |
| 自变量独立 | 多重共线性 | SE 膨胀 | VIF | 改模型 / 增样本 |
解释单个因子时要修,纯预测时可视情况保留。
多重共线性的典型征兆是?
VIF 大于多少通常被视为严重多重共线性?
本模块讨论三大扩展:(1) 影响分析检测异常 / 高杠杆点;(2) 用哑变量纳入定性自变量;(3) 用 Logistic 回归处理二元定性因变量。
Module 4 三个扩展主题包括什么?
High-leverage point:X 极端;Outlier:Y 极端。两者并非必然有害,只有当其偏离回归线时才会"扭转"斜率与拟合统计量。
Leverage h_ii
Studentized Deleted Residual t_i*
t_i* = e_(i) / s_(e_(i)) ;自由度 n − k − 2Panel A 全样本:PROD 系数 0.77 (P=0.02 显著);ONLINE 不显著。
阈值 3(k+1)/n = 3×3/15 = 0.60。仅 Obs 7(leverage=0.80)超阈值 → 潜在影响。
Panel C 删除 Obs 7 后:PROD P 升至 0.05,仍在 5% 临界 → 结论稳健。
| 测度 | 影响来源 | 判定 |
|---|---|---|
| Leverage h_ii | X 极端 | h_ii > 3(k+1)/n |
| Studentized residual | Y 极端 | |t*| > t_crit (n−k−2) |
补救:核查数据录入;winsorize;若数据有效则可能提示遗漏变量或假设违反。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
High-leverage point 主要指什么极端?
哑变量取值 0/1,用于分类(行业、是否监管、事件前后等)。n 个类别 → n−1 个哑变量,未被赋值的为基准组,否则会与截距完全共线。
截距哑变量(Intercept Dummy)
Y = b₀ + d₀·D + b₁X + ε斜率哑变量(Slope Dummy / Interaction)
Y = b₀ + b₁X + d₁·D·X + ε截距 + 斜率组合
Y = b₀ + d₀·D + b₁X + d₁·D·X + ε三类:Blend / Growth / Value(基准)。EXP、CASH、AGE、SIZE 加 BLEND、GROWTH 两个截距哑变量。
BLEND 0.66,GROWTH 2.50(vs Value 基准),均显著。
加入 AGE_BLEND、AGE_GROWTH 斜率哑变量后:AGE_GROWTH 0.020 (P=0.01) 显著 → 成长基金每多一年额外 0.020% 收益,合计 AGE 斜率 = 0.065+0.020 = 0.085%。
先找基准组,再解释相对基准的差异。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
n 个类别通常需要几个哑变量?
二元因变量(破产/否、回购/否)。若用 OLS 估计线性概率模型 Y = b₀ + ΣbⱼXⱼ + ε,预测概率可能 <0 或 >1 且假设线性关系不现实。
Logit 变换
ln[P / (1 − P)] = b₀ + b₁X₁ + … + bₖXₖP = 1 / (1 + e^−(b₀+ΣbⱼXⱼ))拟合优度
边际效应
非线性:X 一单位变化对 P(Y=1) 的影响取决于其它变量取值。常用"均值法"——以均值代入,再让目标变量增 1 单位重算 P。
Likelihood Ratio (LR) 检验
LR = −2 × (LL_restricted − LL_unrestricted) ~ χ²(q)q = 受约束个数;类似 OLS 的联合 F 检验,H₀:受约束系数全为 0。
系数:Intercept −0.4738,CASH −0.9118 (P=0.43),DE −0.3186 (P=0.017),NPM 0.9407 (P=0.024)。
截距解释:所有 X=0 时 log odds=−0.4738 → odds=0.6226 → P=38.37%。
均值处 P:代入均值 (CASH 0.083, DE 0.9182, NPM −0.0535) → P≈29.06%。
边际效应(+1%):CASH −0.19%,NPM +0.20%,DE −0.07%。
LR 检验:LR = −2(−312.68 − (−304.20)) = 16.96 > χ²(3, 5%)=7.815 → 拒绝 H₀,非约束模型更优 (P=0.0007)。
应用:机器学习二分类(情感分析、信用违约、欺诈检测等)。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
Logistic 回归为什么不用普通 OLS 直接预测 0/1?
Logistic regression 通常用什么方法估计?
本部分覆盖 5.01–5.06:时间序列建模面临的挑战、线性与对数线性趋势模型、趋势模型残差检验、AR(p) 与协方差平稳性、以及用残差自相关诊断 AR 模型设定。
时间序列:同一变量在不同时间点的观测序列(如月度 CPI、季度销售)。两大用途:解释过去与预测未来。
应用线性回归到时间序列的常见难题
时间序列建模最先要警惕什么?
yₜ = b₀ + b₁·t + εₜ,t = 1, 2, …, T样本 1995/01–2019/06,n=294,df=292,5% 临界 t≈1.97。
| 系数 | 估计 | SE | t |
|---|---|---|---|
| 截距 | 2.7845 | 0.3732 | 7.46 ✓ |
| t(趋势) | −0.0037 | 0.0022 | −1.68 ✗ |
R²=0.0099,DW=1.2145。预测:t=306(2020/06)ŷ = 2.7845 − 0.0037×306 = 1.6523%。
趋势斜率不显著;线性趋势对多数经济序列拟合有限——斜率与截距随时间改变。
时间序列建模最先要警惕什么?
若序列呈 指数增长(恒定增长率、连续复利),取自然对数后呈线性:
yₜ = e^(b₀ + b₁t) ⇒ ln yₜ = b₀ + b₁t + εₜn=74(2001Q2–2019Q3)。截距 6.7617 (t=206.8),趋势 0.0295 (t=36.9),R²=0.95,DW=0.26。
预测 2019Q4 (t=75): ln ŷ = 6.7617 + 0.0295×75 = 8.9742 → ŷ = e^8.9742 ≈ $7,896.7M。
每季度增长率 = e^0.0295 − 1 ≈ 2.994%。
线性趋势模型同样数据下预测仅 6,152.87M,明显低估——可视化显示残差长期同号 → 线性趋势不适用。
线性 vs 对数线性的选择:若序列以恒定金额增长 → 线性;若以恒定比率增长 → 对数线性。
时间序列建模最先要警惕什么?
趋势模型本质是单变量 OLS,需检验残差是否自相关——用 Durbin–Watson 统计量(此处自变量为 t 而非滞后 y,DW 仍适用)。
时间序列观测必须按时序排列;打乱顺序会破坏估计性质。
时间序列建模最先要警惕什么?
自回归 AR(p)
xₜ = b₀ + b₁xₜ₋₁ + b₂xₜ₋₂ + … + b_p xₜ₋p + εₜAR(1):xₜ = b₀ + b₁xₜ₋₁ + εₜ,仅用上一期值预测当期。
协方差平稳(Covariance Stationary)三要件
若序列非平稳仍套用 AR,估计将有偏且假设检验无效(伪回归)。
如何判别(直观)
非平稳序列直接回归,容易得到伪关系。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列建模最先要警惕什么?
AR 模型中自变量为滞后 y,DW 失效。改用残差自相关的 t 检验。
三步法
n=65(2003Q1–2019Q1),df=63,5% 临界 t≈2.0。
| 系数 | 估计 | SE | t |
|---|---|---|---|
| 截距 | 0.1513 | 0.0480 | 3.15 ✓ |
| GMₜ₋₁ | 0.7462 | 0.0809 | 9.22 ✓ |
残差自相关标准误 = 1/√65 ≈ 0.1240。
| 滞后 | ρ̂ | t |
|---|---|---|
| 1 | 0.1308 | 1.05 |
| 2 | −0.2086 | −1.68 |
| 3 | 0.0382 | 0.31 |
| 4 | 0.0608 | 0.49 |
所有 |t| < 2 → 残差无显著自相关 → AR(1) 设定合理。
预测:GMₜ₊₁ = 0.1513 + 0.7462·GMₜ。GMₜ=0.55 → 0.5617;GMₜ=0.65 → 0.6363。
时间序列建模最先要警惕什么?
覆盖 5.07–5.11:均值回复与多期预测、模型预测精度比较 (RMSE)、系数不稳定性、随机游走与一阶差分、单位根 Dickey–Fuller 检验。
均值回复水平 (Mean-Reverting Level)
AR(1):x* = b₀ / (1 − b₁)链式预测 (Chain Rule)
x̂ₜ₊₁ = b̂₀ + b̂₁·xₜ ; x̂ₜ₊₂ = b̂₀ + b̂₁·x̂ₜ₊₁AR(1) (Exhibit 13):R²=0.1586,SE=2.9687;残差 lag-2 自相关 t=−2.80 显著 → 设定不当。
AR(2) (Exhibit 14):Inflₜ = 1.5996 + 0.4759·Inflₜ₋₁ − 0.1964·Inflₜ₋₂;R²=0.1907,SE=2.9208;所有 lag 残差自相关 |t| < 1 → 设定合理。
Inflₜ₋₁=4%, Inflₜ₋₂=3% → AR(1) 预测 1.3346+0.3984·4=2.93%;AR(2) 预测 1.5996+0.4759·4−0.1964·3=2.91%。
时间序列建模最先要警惕什么?
| 模型 | 平均平方误差 | RMSE |
|---|---|---|
| AR(1) | 3.6155 | 1.9014 |
| AR(2) | 2.0043 | 1.4157 |
AR(2) RMSE 仅为 AR(1) 的 1.4157/1.9014 = 74.46%,样本内外均更优。
时间序列建模最先要警惕什么?
截距 0.8431 (t=2.84),Inflₜ₋₁ 0.5036 (t=6.64);4 阶残差自相关 |t|<1.99 → AR(1) 在此子样本设定合理(无需 AR(2))。
预测(Inflₜ₋₁=4%):0.8431 + 0.5036×4 ≈ 2.86%;与 1995–2018 AR(2) 的 2.91% 相差 5bps。
1995–2007 月度通胀 SD=2.86%;2008–2018 SD=3.54% → 全样本非平稳,应分段。
时间序列建模最先要警惕什么?
xₜ = xₜ₋₁ + εₜ (AR(1) 中 b₀=0, b₁=1)一阶差分 (First-Differencing)
yₜ = xₜ − xₜ₋₁ = εₜ水平 AR(1):JPY/USDₜ = 0.84 + 0.9919·JPY/USDₜ₋₁,R²=0.9897——但 b₁≈1,疑似随机游走,t 统计无效。
差分 AR(1):截距与滞后差分项均不显著,R²=0.0008 → 与随机游走一致,变动不可预测。
教训:不能仅凭 R² 选模型;高 R² 可能源于非平稳。
带漂移的随机游走 (Random Walk with Drift)
xₜ = b₀ + xₜ₋₁ + εₜ ,b₀ ≠ 0 ; 差分后 yₜ = b₀ + εₜ每期平均增/减 b₀;仍需差分后方能建模。
看到 b₁ 接近 1,要想到单位根和一阶差分。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列建模最先要警惕什么?
AR(1) 协方差平稳的条件:|b₁| < 1。b₁ = 1 → 单位根(随机游走,非平稳);|b₁| > 1 → 爆炸根。所有随机游走(含漂移)均有单位根。
Dickey–Fuller 变换
xₜ − xₜ₋₁ = b₀ + g₁·xₜ₋₁ + εₜ , g₁ = b₁ − 1模型:Δln Salesₜ = 0.0222 − 0.5493·Δln Salesₜ₋₁;n=48,残差 4 阶自相关 |t|<2 → 设定合理。
系数解读:若当季销售无变化 (yₜ=0),下季增长 2.22%;否则增长 = 2.22% − 0.5493 × 本季增长。
预测 2012Q1:2011Q3 销售 8,405 → ln=9.0366;2011Q4 销售 8,872 → ln=9.0907;yₜ=0.0541。
ŷₜ₊₁ = 0.0222 − 0.5493 × 0.0541 = −0.0075 → Salesₜ₊₁ = 8,872 × e^(−0.0075) ≈ $8,805M。
流程:① 画图 → ② 跑 DF 检验 → ③ 若存在单位根则差分 → ④ 对差分序列建 AR(p) 并检残差。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列建模最先要警惕什么?
① n 期移动平均 (Smoothing)
MAₜ = (xₜ + xₜ₋₁ + … + xₜ₋ₙ₊₁) / n② MA(q) 预测模型
MA(1):xₜ = εₜ + θ·εₜ₋₁ , E(εₜ)=0MA(q):xₜ = εₜ + θ₁εₜ₋₁ + … + θ_q εₜ₋q前 6 阶自相关 |t| 均 < 1.98 → 全部不显著 → MA(0) → 不可预测,与"短期股指收益难预测"一致。
时间序列建模最先要警惕什么?
若残差在季节滞后处(季度数据→4 阶;月度→12 阶)自相关显著,说明模型遗漏季节性。解决:加入季节滞后项。
xₜ = b₀ + b₁·xₜ₋₁ + b₂·xₜ₋ₛ + εₜ , s = 季节周期纯 AR(1):lag-4 残差自相关 0.7630 (t=6.47) → 严重季节性,模型失败 (R²=0.20)。
加 lag-4 季节项:Δln Salesₜ = 0.0107 − 0.1540·Δln Salesₜ₋₁ + 0.7549·Δln Salesₜ₋₄;R²=0.7032,残差自相关全不显著。
预测:若 Δlast=1%, Δseasonal=2% → 增长 0.0107 − 0.1540·0.01 + 0.7549·0.02 = 2.43%。
纯 AR(1) lag-12 自相关 0.762 (t=11.21) → 显著季节性。
加 lag-12 后:Growthₜ = 0.2371 − 0.0792·Growthₜ₋₁ + 0.7798·Growthₜ₋₁₂;R² 从 0.05 升至 0.67,残差洁净。
若 last=10%, 12 月前=5% → 预测 0.2371 − 0.0792·0.1 + 0.7798·0.05 = 26.82%。
时间序列建模最先要警惕什么?
ARMA(p, q)
xₜ = b₀ + Σbᵢxₜ₋ᵢ + εₜ + Σθⱼεₜ₋ⱼARCH(1) · 条件异方差
Var(εₜ | εₜ₋₁) = a₀ + a₁·εₜ₋₁²â₀ = 6.3626,â₁ = 0.2754 (t = 4.83) → 拒绝同方差,存在 ARCH。
若上期 ε=1% → σ̂² = 6.3626 + 0.2754·1 = 6.638。
推广:ARCH(p) 用前 p 期 ε² 解释当前方差;GARCH 进一步纳入方差自身滞后,类似方差的 ARMA。皆对样本与初值敏感。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列建模最先要警惕什么?
多序列回归前必须先对每条序列做 Dickey–Fuller 单位根检验。五种情景:
| 情景 | Y 单位根 | X 单位根 | 可否做 OLS? |
|---|---|---|---|
| ① | 否 | 否 | 可,直接回归 |
| ② | 是 | 否 | 不可,伪回归 |
| ③ | 否 | 是 | 不可,伪回归 |
| ④ | 是 | 是,但不协整 | 不可 |
| ⑤ | 是 | 是,且协整 | 可,但仅长期关系 |
协整 (Cointegration)
多个自变量同理:若全无单位根 → 多元回归;若全有且协整 → 可估长期关系(但 3 条以上协整建模复杂);混合 → 不可直接回归。
两个一起漂的序列,只有存在长期锚点时才可回归。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
时间序列建模最先要警惕什么?
本节给出建立时间序列预测模型的系统性步骤指南,并简要说明未在本章详述的其他议题(预测不确定性、多体制切换回归等)。
未覆盖议题
建议建模步骤
关注:线性趋势、指数趋势、季节性、样本期内显著结构性变化(均值/方差突变)。
| 违反类型 | 变换方法 |
|---|---|
| 线性趋势 | 一阶差分 |
| 指数趋势 | 取自然对数后一阶差分 |
| 样本期内显著结构变化 | 分段估计不同模型 |
| 显著季节性 | 加入季节滞后(见步骤 7) |
比较模型的样本外表现与样本内表现,确保模型具有良好的泛化能力。
先看图 → 再趋势 → DW 验残差 → 不通过则差分/对数/分段 → AR 定阶 → 查季节 → 检 ARCH → 样本外验证。
按此顺序逐步执行,可最大程度保证模型设定正确。
时间序列建模最先要警惕什么?
覆盖 6.01–6.05:ML 概览、监督 vs 非监督、过拟合与正则化、 惩罚回归 (LASSO) 与支持向量机 (SVM)。
ML 起源于 1990s,受益于数据爆炸与算力提升。在投资管理价值链各环节 已广泛应用:客户画像、Alpha 信号发现、组合优化、风险管理、交易执行。
机器学习模型评估最重要的不是训练集多好,而是什么?
统计方法依赖严格的分布假设;ML 则直接从数据中"找规律、用规律", 更适合高维、非线性、可能发生结构突变的金融数据。
| 变量类型 | 监督 (有 Y) | 非监督 (无 Y) |
|---|---|---|
| Continuous 连续 | Linear / Penalized / LASSO;CART;Random Forest | PCA;K-Means;Hierarchical |
| Categorical 类别 | Logistic;SVM;KNN;CART | PCA;K-Means;Hierarchical |
| Continuous / Categorical | Neural Networks · Deep Learning · Reinforcement Learning | |
机器学习模型评估最重要的不是训练集多好,而是什么?
Generalization 泛化:模型在样本外仍保持解释力。Overfitting 过拟合:模型学到了训练样本中的噪声, 样本外预测变差。"剪裁式西装只合一人穿"。
复杂度↑ → 训练误差↓、bias↓,但 variance↑ → 样本外误差先降后升。 最优点在 bias 与 variance 曲线交点。
K-Fold Cross-Validation:数据随机分 k 等份(k 通常 5 或 10), 其中 k−1 份训练、1 份验证,重复 k 次,平均 k 个验证误差作为 Eout 估计。每个样本点用作训练 k−1 次、验证 1 次。局限:不适用于时间序列(只有最近数据可作验证)。
训练误差越低不一定越好,关键看 test/validation。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
惩罚回归在 OLS 残差平方和基础上加入惩罚项, 惩罚项随特征数增加而增大。一个特征只有当对拟合的贡献 超过其带来的惩罚时才被保留 → 自动 feature selection。
OLS: min Σ (Yi − Ŷi)²LASSO: min Σ (Yi − Ŷi)² + λ Σ |b̂k|已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
SVM 是用于分类、回归、异常检测的强大监督算法。 核心思想:找一个超平面 (hyperplane) 把两类数据分开, 并让边界 (margin) 最宽 → 提高泛化概率。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
KNN 通过寻找新观测点与训练数据的"相似度(nearness)"来分类。 k = 1 时取最近邻类别;k = 5 时取 5 个最近邻中票数最多的类别。
机器学习模型评估最重要的不是训练集多好,而是什么?
CART 既可分类(categorical Y)也可回归(continuous Y),常用于二元分类。结构:root node → decision nodes → terminal nodes。 每个节点代表一个特征 f 与切分阈值 c。
机器学习模型评估最重要的不是训练集多好,而是什么?
单一模型有噪声,多模型平均可降低噪声、收敛到更准的预测。 这种组合多个模型预测的技术称 Ensemble Learning,常胜过最佳单一模型。
训练多个模型(SVM、KNN、CART…),新样本预测取多数票。 模型越多越准,但过多会过拟合。 需要算法/方法/假设的多样性(依大数定律)。
从原始训练集做有放回随机抽样生成 n 个新训练集(bags), 训练 n 个模型,分类用多数票、回归用均值。 提升预测稳定性,抑制过拟合。
机器学习模型评估最重要的不是训练集多好,而是什么?
研究员构建多分类器(+1 winner / 0 average / −1 loser), 标签依据:基金月回报偏离全样本均值 ±1 个标准差。 ETF 1,594 只、MF 6,085 只;最多 21 个特征 (基金类型/规模、资产配置、估值倍数、11 个行业权重)。
| 数据集 | 指标 | CART | SVM | KNN | RF |
|---|---|---|---|---|---|
| ETF | Accuracy | 0.770 | 0.774 | 0.724 | 0.812 |
| F1 | 0.769 | 0.693 | 0.683 | 0.770 | |
| MF | Accuracy | 0.959 | 0.859 | 0.856 | 0.969 |
| F1 | 0.959 | 0.847 | 0.855 | 0.969 |
机器学习模型评估最重要的不是训练集多好,而是什么?
非监督学习无目标变量。两大类:降维 (PCA) 与 聚类 (K-Means / Hierarchical)。
PCA 是降维,不是简单删除原变量。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
聚类把数据组织成相似群组。好聚类两条标准:Cohesion (簇内紧凑) + Separation (簇间分离)。
机器学习模型评估最重要的不是训练集多好,而是什么?
反复将观测划分为 k 个不重叠簇,k 是超参数。 每簇由 centroid (中心) 表示,观测被分配到最近的 centroid。
结果:在 k 固定下,最小化簇内距离、最大化簇间距离。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
构建簇的层级结构。比 K-Means 计算量大,但允许分析师事后挑选 不同粒度的分割方案。
两簇所有点对直线距离的:最小值 / 最大值 / 平均值。
机器学习模型评估最重要的不是训练集多好,而是什么?
背景:基金投委会要在 S&P 500 中给出 3 个"买入"建议, 要求所选股票之间收益相关性低(分散化)。分析师拿到 8 只股票 (AAPL, F, FB, GM, GS, GOOG, JPM, UBS),用层次凝聚聚类找出 相似度高的簇,每簇挑一只。
| Stock | Agglomerative | K-means | Divisive |
|---|---|---|---|
| AAPL | 3 | 2 | 2 |
| F | 2 | 1 | 1 |
| FB | 1 | 2 | 3 |
| GM | 2 | 1 | 1 |
| GOOG | 3 | 2 | 2 |
| GS | 3 | 3 | 1 |
| JPM | 3 | 3 | 1 |
| UBS | 3 | 3 | 1 |
机器学习模型评估最重要的不是训练集多好,而是什么?
人工智能革命在很大程度上由神经网络、深度学习算法和强化学习的进步所推动。这些复杂算法可处理高度复杂的机器学习任务,如图像分类、人脸识别、语音识别和自然语言处理。这些复杂任务的共同特征是存在非线性以及大量特征输入之间的交互作用。
New weight = Old weight – Learning rate × (Partial derivative of total error w.r.t. old weight)已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
机器学习模型评估最重要的不是训练集多好,而是什么?
前面讨论的神经网络仅限于浅层神经网络(只有一个隐藏层)。具有多个隐藏层(至少 2 层,但可能超过 20 层)的神经网络称为深度神经网络 (DNNs),是深度学习的基础。
机器学习模型评估最重要的不是训练集多好,而是什么?
一位投资经理希望使用基本面股票因子模型选股,捕捉最大超额收益。她选择 DNN 预测股票收益,用前馈网络回归替代普通最小二乘线性回归。由于神经网络容易过拟合,使用LASSO 惩罚来缓解。
机器学习模型评估最重要的不是训练集多好,而是什么?
Exhibit 37 提供了一个简化的决策流程图,帮助在已讨论的机器学习算法中做出选择。深色椭圆为监督学习算法,浅色椭圆为无监督学习算法,关键问题在未阴影的圆角矩形中。
| 问题类型 | 数据特征 | 推荐算法 |
|---|---|---|
| 降维 | 多特征、高相关 | PCA |
| 回归(线性) | 连续 Y、线性关系 | Penalized Regression / LASSO |
| 回归(非线性) | 连续 Y、非线性 | CART、Random Forest、NN |
| 分类(线性) | 标签 Y、线性可分 | KNN、SVM |
| 分类(非线性) | 标签 Y、非线性 | CART、Random Forest、NN / DNN |
| 聚类(已知 k) | 无标签、线性 | K-Means |
| 聚类(未知 k) | 无标签、线性 | Hierarchical Clustering |
| 聚类(非线性) | 无标签、非线性 | NN / DNN |
机器学习模型评估最重要的不是训练集多好,而是什么?
机器学习模型评估最重要的不是训练集多好,而是什么?
覆盖 7.01–7.03:大数据 4V 特征、ML 项目流程(结构化 vs 文本), 以及结构化数据的清洗 (cleansing) 与整理 (wrangling)。
Big Data (Alternative Data):来自金融市场、企业、政府、 个人(社交、信用卡)、传感器与 IoT 的海量数据。投资经理用其 补充结构化数据,挖掘信号、检测异常、改进资产价格预测。 典型案例:基金经理用 10-K 文本预测股票情绪,作为更全面预测模型的输入。
对 FinTech 影响:信用评估融合财报文本 / 新闻 / 电话会纪要; 客户分群结合交易数据与社交观点;增强欺诈检测与风险管理。
大数据项目中最耗时且最影响模型质量的环节通常是?
财务预测可用 ML 替代传统财务比率模型。文本大数据(新闻、论坛、社交) 实时性强,预测力增强。文本提供两类信息:Topics(在讨论什么)与 Sentiment(如何看待)。 一项美国研究显示 Twitter 正面情绪可提前 3 天预测道指走势,准确率 ~87%。
流程是迭代的:本轮洞察反馈到下一轮 reconceptualization。文本输出 (如情绪分) 可与结构化变量合并,或直接用于预测分析。
大数据项目中最耗时且最影响模型质量的环节通常是?
这是大数据项目最耗时的阶段(占大部分项目时间),数据质量直接决定模型表现。 需要 领域知识。先 Data Collection(数据库查询、CSV、API、 第三方供应商),再进入 Preparation & Wrangling。
内部 vs 外部数据权衡:第三方"干净"数据节省时间但有成本,且清洗过程可能 掩盖 Alpha;自行清洗可保留信息边。
检查 / 识别 / 修正原始数据错误。手工录入 → 缺失、重复、错误;自动采集 → 服务器 / Bug 导致问题。
在清洗后的数据上做转换与缩放,使其满足 ML 模型输入格式。
| 错误类型 | 定义 | 处理 |
|---|---|---|
| Incompleteness 不完整 | 数据缺失 (NA) | 找替代源;删除或用均值 / 中位数 / 众数 / 0 填补 |
| Invalidity 无效 | 超出合理范围(如出生年 1900) | 核对管理记录 |
| Inaccuracy 不准确 | 非真实测量(如"Don't Know") | 业务记录 / 管理员核实 |
| Inconsistency 不一致 | 与其它字段或现实矛盾(Mr. + Female) | 跨源验证 |
| Non-uniformity 不统一 | 格式不一致(日期、货币符号歧义) | 转换为统一标准格式 |
| Duplication 重复 | 重复记录 | 删除重复项 |
先处理异常值,再缩放。
X' = (Xᵢ − X_min) / (X_max − X_min)对异常值敏感;分布未知时使用。
X' = (Xᵢ − μ) / σ对异常值较不敏感;要求数据近正态。
大数据项目中最耗时且最影响模型质量的环节通常是?
非结构化数据约占当今数据总量 80%,包括文本、图像、视频、音频。 需先转为结构化才能用于 ML。本节以英文文本为例,称为 Text Processing, 分 cleansing(清洗)与 preprocessing(预处理 / wrangling)两步。
<.*?> 移除。/percentSign/、/dollarSign/、/questionMark/。Period 视上下文:缩写句号删,句末替换为 /endSentence/,e-mail 等中的连字符 / 下划线保留。/number/(防止每个数字被当独立词)。但 Information Extraction (IE) 任务(如提取财报金额)须保留数值。stripwhitespace。操作顺序重要:先去标点会让 "1.2 million" 变 "12 million",因此须先 / 后续用 /number/ 标签替换。
| Doc | man | went | market | today | valu | increas | need | product |
|---|---|---|---|---|---|---|---|---|
| T1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| T2 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
| T3 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
| T4 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
把连续 n 个词作为一个 token:unigram (n=1)、bigram (n=2)、trigram (n=3)。 例:BOW 中 "no" 作为 stop word 被删掉,丢掉了 "no market" 的负面意义; bigram no_market 则保留语义。可与 unigram 合并构建 BOW & DTM。 注意 to_the 这种 stop-word 组合不会被预定义列表过滤。
文本模型不是直接读文章,而是先把文本变成特征矩阵。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
大数据项目中最耗时且最影响模型质量的环节通常是?
Data Exploration 在 prep 之后、training 之前;包含三件事:EDA、Feature Selection、Feature Engineering。 域知识参与至关重要,否则容易得到 spurious relationships。
配合描述统计:均值 / 中位 / 分位 / 标准差 / 偏度 / 峰度。
参数检验:ANOVA、t-test、Pearson;非参:χ²、Spearman。
目标:保留对模型预测有贡献的特征 → 简化模型、加快训练、降低样本外误差。
income_above_100k (0/1)大数据项目中最耗时且最影响模型质量的环节通常是?
文本应用:Text Classification(有监督)、Topic Modeling(无监督聚类)、Sentiment Analysis(有 / 无监督)、Fraud Detection。 语料 (corpus) = 文本集合。
本质 = 缩小词表 / BOW;去除 noisy features:
/number4/(年份)、/number10/(ID 号)等。stock_market)。credit_score、worked_hard 区分类别。have_worked_hard(no default 文本)vs had_worked_harder(defaulted),上下文意义截然不同。已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
大数据项目中最耗时且最影响模型质量的环节通常是?
模型训练 = Method Selection + Performance Evaluation + Tuning, 迭代进行。无论结构化还是非结构化数据,训练流程相同(非结构化先转 DTM)。
Feature engineering 通常防 underfit;feature selection 通常防 overfit。
混合数据:可把一模型的输出作为另一模型的输入特征(如文本情绪 → CART 选股特征)。
主数据集 → Training 60% / Cross-Validation 20% / Test 20%(k-fold 随机抽样)。无监督无须划分。
大数据项目中最耗时且最影响模型质量的环节通常是?
Precision (P) = TP / (TP + FP) - FP 成本高时关注Recall (R) = Sensitivity = TP / (TP + FN) - FN 成本高时关注Accuracy = (TP + TN) / (TP + FP + TN + FN)F1 = 2 · P · R / (P + R) - 调和平均FPR = FP / (TN + FP); TPR = Recall = TP / (TP + FN)RMSE = √(Σ(actualᵢ − predᵢ)² / n) - 回归 / 连续类别不平衡时用 F1 而非 Accuracy;F1 偏向 P 和 R 中较小者。 示例:P=0.75, R=0.60 → F1=0.67, Accuracy=0.70。
Accuracy 在类别不平衡时可能误导。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
大数据项目中最耗时且最影响模型质量的环节通常是?
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
大数据项目中最耗时且最影响模型质量的环节通常是?
Robo-readers 自动阅读海量文本(新闻、社交)分析 sentiment polarity(正 / 负 / 中性)。 示例:"XYZ Corporation is doing terrific things..." → 正面(XYZ 为 target)。
percentSign、dollarSign 替换 %、$;再删除其它标点(句号、分号、逗号),以及 +、© 等特殊符号。m / mln / mn / bn 换成完整词 "million / billion",再删除所有数字。情绪分析不依赖具体数字(如 "boosted" 已暗示增长),故数字可删。
currencysign。归一化后 tokenize 得 2,673 个 unique tokens,构成初步 unigram BOW。 但最终 DTM 须在 EDA + Feature Selection 后才确定(删冗余 token、考虑 n-grams)。
大数据项目中最耗时且最影响模型质量的环节通常是?
对清洗后的 2,180 句、共 44,151 个 non-unique token 做 EDA: 找出高频 stop words(如 the、million、currencysign)与极低频专有名词。 正 / 负两类高频词高度重合,说明须删除以提升判别力。
TF (Collection) = TotalWordCount / 语料总词数TF (Sentence) = WordCountInSentence / TotalWordsInSentenceDF = SentenceCountWithWord / 总句数IDF = log(1 / DF)TF–IDF = TF(Sentence) × IDF高 TF-IDF = 在少数文档中频繁出现 = 重要且独特的词。 低 TF-IDF = 在大多数文档中出现 = 不具判别力。
同时使用 unigram + bigram,保留否定结构如 not_good、no_longer、tax_loss、sale_increas,对情绪预测至关重要。
token "a" 在句 1,826(44,151 总词 / 2,180 总句 / sentence 长 34 / 句中 6 次 / DF 687):
token "great" 在句 1,368(句长 9 / 出现 1 次 / 整集 4 次 / DF 4):
大数据项目中最耗时且最影响模型质量的环节通常是?
| Split | % | 句数 | DTM | 用途 |
|---|---|---|---|---|
| Master | 100 | 2,180 | 2,180 × 11,501 | EDA |
| Training | 60 | 1,309 | 1,309 × 9,188 | 训练 |
| CV | 20 | 435 | 435 × 9,188 | 调参 / 验证 |
| Test | 20 | 436 | 436 × 9,188 | 测试 |
CV / Test DTM 列保持与 training BOW 一致(9,188 features);TF 值用各自语料计算。
已预先用 ElevenLabs 生成并随站点静态发布,打开即可播放,不需要现场生成。
大数据项目中最耗时且最影响模型质量的环节通常是?
把模型应用于 436 句 test set(同样经清洗 / 预处理 / 用 training BOW 构建 DTM、p = 0.60 阈值)。
30 句样本中 3 例错分(p = 0.46 / 0.77 / 0.71),sample accuracy 27/30 = 90%。
大数据项目中最耗时且最影响模型质量的环节通常是?
大数据项目中最耗时且最影响模型质量的环节通常是?
本节汇总 Module 7 全部高频英文术语与对应中文释义,便于考前快速复习。
大数据项目中最耗时且最影响模型质量的环节通常是?
本页学习导航
你已到达当前 数量分析 页面最后一个学习小节。