肖健:进化树信息辅助的FDR控制的微生物组数据的变量选择
【学术期刊】《Bioinformatics》,2017年第33期18卷。
【作者简介】肖健,伟德国际讲师。主要研究方向是高维模型变量选择和大规模多重检验,聚焦于微生物等数据的分析等领域。在权威期刊发表多篇文章,并主持过国家自然科学基金。
【主要观点】本文工作既基于微生物组实际数据背景和问题而研究,又延续了现有文献的工作。 对于实际问题驱动的研究而言,建模是最关键的环节,直接影响着数据分析结果的优劣。在本论文工作中,我们从微生物组实际数据背景和特点出发,结合现有文献研究结果 来提出模型。微生物组数据存在进化树信息,这些信息完全反映了在遗传过程中 OTUs之间的亲密程度。很多研究表明进化树里同一组的 OTUs 对性状表现出相似的关联,也就是说如果同一组里某个 OTU 与性状有关联,组里其它 OTUs 也很有可能对性状有影响。因此进化树可以作为统计推断有用的先验信息。 另外本文的问题都属于微生物(OTUs)与健康(疾病等性状)之间的关系研究问题, 目的就是找出与疾病等性状相关联的微生物种类,或者是探索微生物与环境等协变量因素的交互现象,然后用这些研究结果来指导临床医疗以及制药等活动,因此,研究这些问题是非常必要的。只有深入研究人体微生物以及这些微生物与人类细胞(或基因组) 及所处环境之间的相互关系,才能全面了解人体和微生物环境之间的信息交互,从而为个性化医疗铺平道路。 这些关系研究问题需要生物统计学中的关联分析方法来解决 。诸多关联分析研究表明,微生物与诸多人类重大疾病息息相关,如肥胖症、糖尿病 、自闭症、过敏症、炎症性肠道疾 病、心血管疾病、多种癌症以及抑郁症等大量代谢、精神、免疫系统疾病。因此,人体微生物可能成为干预治疗的最新靶标,从而在这些重大疾病的诊断、分析和治疗上发挥重要作用。 进一步,本文利用进化树信息结合层次模型提出了一个FDR控制的变量选择方法。