1 背景
通过23魔方研究所收集的脂肪肝相关数据,我们在研究所中上线了非酒精性脂肪肝项目,构建了基因预测模型来探索基因与非酒精性脂肪肝的关系。在先前研究中我们就提到,脂肪肝受到基因和后天环境的影响,基因只是解释了其中一小部分的变化差异,更多的是受到后天环境和饮食习惯等的影响。随着研究所脂肪肝项目关注度的提高,相关问卷的填写量和问题丰富度的提升,为了更全面的探索脂肪肝与各种影响因素的相关关系,23魔方在持续关注基因层面对疾病影响的同时,基于现有问卷数据探索了后天环境因素对该疾病的影响,结合先前基因研究构建了脂肪肝风险预测模型。
2 方法
根据先前关于该疾病的研究,我们在用户填写的关于脂肪肝的问卷中筛选出了与该疾病高度相关的问题作为影响因素:“从第一次检查到脂肪肝到现在大概经过了多长时间?”、“直系亲属中有几人被确诊过患脂肪肝?”、“是否经常饮酒”、“身高和体重”、“性别”、“分箱结果”,分别代表了遗传、后天环境和饮食习惯等维度。其中分箱结果来自于研究所最新的基因预测模型,一定程度上代表着基因层面的影响水平;直系亲属患病人数代表着基因预测模型未能解释的遗传因素部分和共同的环境影响因素等;是否经常饮酒代表着饮食习惯;由身高和体重换算的BMI是一个衡量肥胖和心血管健康的重要指标。
为了保证模型对群体解释的科学性,我们对数据进行了质量过滤,选择了年龄处于18-70岁、BMI处于12-45、回答没有逻辑错误的用户数据。其中14749个样本数据作为训练集合,3309个用户作为测试集合,使用机器学习相关算法构建了基因+环境的风险预测模型进行评估。我们使用auc值作为群体准确性度量指标,超过该年龄段的用户群体因为BMI不稳定和样本量较少,所构建出的模型对该群体的解释性有所降低。
3 结果
图注: 基因+环境的风险预测模型ROC曲线,曲线线下面积(AUC值)为0.8675
图注: 模型的风险分数在测试人群中的分布情况。0(淡蓝色)代表未患病人群,1(橘红色)代表患病人群
4 讨论
我们构建的风险预测模型AUC值达到了0.87的水平,相比于基因预测模型,显著提高了疾病风险预测水平,更全面的探索了环境和遗传因素对疾病发病的影响,对预防脂肪肝,降低疾病风险,养成良好生活方式等提供了一定的科学支持。探索尚未停止,23魔方研究所将持续优化改善风险预测模型,添加更多环境变量进行整合、细化家族病史、细化脂肪肝程度和类型、扩展低龄和高龄数据量提高其特定群体的解释性,提升基因预测模型准确性(提高GRS解释度)等措施的实施将会提高模型对疾病风险预测的准确性。
我们模型使用了直系亲属患病人数这一特征,正如前面所提到的,直系亲属患病人数代表着基因预测模型未能完全解释的遗传因素部分和共同的环境影响因素等,对于这一特征均是我们所做出的假设,其中代表的遗传因素和共同的环境所占的比例的多少是我们接下来所需要细化研究的部分,去更好的理解家族遗传史对表型/疾病的影响程度和方式。