morpho/07_deep_analysis at main · Jah-yee/morpho · GitHub
Skip to content

Latest commit

 

History

History

README.md

07_deep_analysis — 深度分析与核心发现 / Deep Analysis & Key Insights

功能 / Purpose

本目录存放超越描述性统计的深度分析结果——统计显著性检验、预测建模、探索性因子分析、患者表型聚类、变点检测、灾难性卫生支出量化、实验室生物标志物异常率计算等。这是整个研究项目的核心智力输出,包含 14 个经统计验证的关键发现(Key Insights)。


文件清单 / File Inventory

核心报告

文件 内容
KEY_INSIGHTS_REPORT.md 最重要的文件——14个关键发现的完整报告,含统计证据和发表建议

数据文件

文件 内容 记录数
stat_significance_tests.csv 16项统计显著性检验结果(p值、效应量) 16 tests
readmission_patterns.csv 每位患者的入院次数统计 19,361 patients
biomarker_prevalence.csv 10项生物标志物异常率(含95% CI) 10 biomarkers
patient_clusters.csv 每条记录的EFA聚类标签(Cluster 0-3) 31,867 records
efa_loadings.csv EFA因子载荷矩阵(4因子 × 14变量) 14 × 4

图表 (figures/)

文件 内容
figA_catastrophic_expenditure.png 灾难性卫生支出分析(3面板)
figB_efa_clustering.png EFA聚类患者表型可视化(4面板)
figC_key_findings.png 生物标志物异常对比 + 变点检测(2面板)
figD_readmission.png 再入院模式分析(3面板)
figE_sex_patterns.png 性别特异性临床模式(2面板)

14 个核心发现速览 / 14 Key Insights at a Glance

TIER 1 — 政策级发现

# 发现 统计支撑
1 88.7% 灾难性卫生支出 — 9/10患者单次住院超WHO阈值 50.8%超年收入
2 98.6% 高泌乳素血症 — 中位数为正常上限24倍 n=28,152
3 2018年结构性断点 — 入院率从平台期转为显著下降 Chow检验 p=0.011

TIER 2 — 重要临床发现

# 发现 统计支撑
4 4种患者表型 — EFA+K-means识别出4个临床亚群 Silhouette=0.306
5 34.2% 再入院率 — 年轻未婚患者风险最高 p=1.67×10⁻¹⁹
6 29.8% 高尿酸血症 — 一般人群的2.3倍 n=52,225
7 24.9% 贫血 — 一般人群的1.66倍 n=52,517
8 12.9% 甲减 — 一般人群的2.6倍 n=27,754

TIER 3 — 结构性发现

# 发现 统计支撑
9 30-39岁男性未婚率60% — 同龄一般人群的12倍 V=0.397
10 男性入院年龄小3.4岁,住院长18天,费用高¥3,459 p=10⁻¹⁰⁷
11 自费患者住院短21天 — 因经济原因被迫提前出院 p=10⁻¹²²
12 偏执型比未分化型年长2.9岁 p=10⁻⁸¹
13 汉族vs壮族差异显著但效应量小 V=0.054
14 住院天数占费用预测力的88% RF R²=0.863

分析方法清单 / Methods Used

方法 用途 关键结果
Mann-Whitney U 检验 连续变量组间比较 16项检验,14项 p<0.001
Chi-square 检验 分类变量独立性检验 含 Cramér's V 效应量
Random Forest (回归) 费用预测因子识别 R²=0.863, 5-fold CV
Random Forest (分类) 再入院风险因子识别 AUC=0.533
EFA (探索性因子分析) 潜在因子结构发现 4因子, 58.9%方差解释
K-means 聚类 患者表型分层 k=4, silhouette=0.306
PELT 变点检测 时间序列结构断点 ruptures 库
Chow 检验 回归结构性断裂检验 F=10.477, p=0.011
Wilson 区间估计 异常率95% CI计算 10项生物标志物

所属步骤 / Pipeline Stage

00_raw → 01_cleaned → 02_figures (描述性分析)
                          ↓
                  [本步骤] 07_deep_analysis (深度挖掘)
                          ↓
                  03_manuscript (论文撰写 — 需更新以纳入新发现)

本目录的产出应当回馈到 03_manuscript/ 中——14个Key Insights需要写入论文的Results和Discussion章节。


后续研究人员指南

  1. 最先读: KEY_INSIGHTS_REPORT.md — 这是整个项目最核心的产出
  2. 如果要发表: 每个Insight都有建议的目标期刊和论文标题
  3. 如果要深化: Cluster 3 ("Chronic High-Burden") 的2,027名患者值得单独建档追踪
  4. 如果要扩展: 泌乳素数据需确认单位(ng/mL vs mIU/L),与源机构核实
  5. 如果要做因果推断: 2018变点发现需要DID(双重差分)或ITS(中断时间序列)设计来建立因果关系