07_deep_analysis — 深度分析与核心发现 / Deep Analysis & Key Insights
本目录存放超越描述性统计的深度分析结果 ——统计显著性检验、预测建模、探索性因子分析、患者表型聚类、变点检测、灾难性卫生支出量化、实验室生物标志物异常率计算等。这是整个研究项目的核心智力输出 ,包含 14 个经统计验证的关键发现(Key Insights)。
文件
内容
KEY_INSIGHTS_REPORT.md
最重要的文件 ——14个关键发现的完整报告,含统计证据和发表建议
文件
内容
记录数
stat_significance_tests.csv
16项统计显著性检验结果(p值、效应量)
16 tests
readmission_patterns.csv
每位患者的入院次数统计
19,361 patients
biomarker_prevalence.csv
10项生物标志物异常率(含95% CI)
10 biomarkers
patient_clusters.csv
每条记录的EFA聚类标签(Cluster 0-3)
31,867 records
efa_loadings.csv
EFA因子载荷矩阵(4因子 × 14变量)
14 × 4
文件
内容
figA_catastrophic_expenditure.png
灾难性卫生支出分析(3面板)
figB_efa_clustering.png
EFA聚类患者表型可视化(4面板)
figC_key_findings.png
生物标志物异常对比 + 变点检测(2面板)
figD_readmission.png
再入院模式分析(3面板)
figE_sex_patterns.png
性别特异性临床模式(2面板)
14 个核心发现速览 / 14 Key Insights at a Glance
#
发现
统计支撑
1
88.7% 灾难性卫生支出 — 9/10患者单次住院超WHO阈值
50.8%超年收入
2
98.6% 高泌乳素血症 — 中位数为正常上限24倍
n=28,152
3
2018年结构性断点 — 入院率从平台期转为显著下降
Chow检验 p=0.011
#
发现
统计支撑
4
4种患者表型 — EFA+K-means识别出4个临床亚群
Silhouette=0.306
5
34.2% 再入院率 — 年轻未婚患者风险最高
p=1.67×10⁻¹⁹
6
29.8% 高尿酸血症 — 一般人群的2.3倍
n=52,225
7
24.9% 贫血 — 一般人群的1.66倍
n=52,517
8
12.9% 甲减 — 一般人群的2.6倍
n=27,754
#
发现
统计支撑
9
30-39岁男性未婚率60% — 同龄一般人群的12倍
V=0.397
10
男性入院年龄小3.4岁,住院长18天,费用高¥3,459
p=10⁻¹⁰⁷
11
自费患者住院短21天 — 因经济原因被迫提前出院
p=10⁻¹²²
12
偏执型比未分化型年长2.9岁
p=10⁻⁸¹
13
汉族vs壮族差异显著但效应量小
V=0.054
14
住院天数占费用预测力的88%
RF R²=0.863
方法
用途
关键结果
Mann-Whitney U 检验
连续变量组间比较
16项检验,14项 p<0.001
Chi-square 检验
分类变量独立性检验
含 Cramér's V 效应量
Random Forest (回归)
费用预测因子识别
R²=0.863, 5-fold CV
Random Forest (分类)
再入院风险因子识别
AUC=0.533
EFA (探索性因子分析)
潜在因子结构发现
4因子, 58.9%方差解释
K-means 聚类
患者表型分层
k=4, silhouette=0.306
PELT 变点检测
时间序列结构断点
ruptures 库
Chow 检验
回归结构性断裂检验
F=10.477, p=0.011
Wilson 区间估计
异常率95% CI计算
10项生物标志物
00_raw → 01_cleaned → 02_figures (描述性分析)
↓
[本步骤] 07_deep_analysis (深度挖掘)
↓
03_manuscript (论文撰写 — 需更新以纳入新发现)
本目录的产出应当回馈到 03_manuscript/ 中——14个Key Insights需要写入论文的Results和Discussion章节。
最先读 : KEY_INSIGHTS_REPORT.md — 这是整个项目最核心的产出
如果要发表 : 每个Insight都有建议的目标期刊和论文标题
如果要深化 : Cluster 3 ("Chronic High-Burden") 的2,027名患者值得单独建档追踪
如果要扩展 : 泌乳素数据需确认单位(ng/mL vs mIU/L),与源机构核实
如果要做因果推断 : 2018变点发现需要DID(双重差分)或ITS(中断时间序列)设计来建立因果关系