分类: 医学、药学 >> 预防医学与公共卫生学 分类: 统计学 >> 生物与医学统计学 提交时间: 2024-05-06
摘要: 极端不平衡数据定义为自变量或因变量指标的取值呈现严重比例失衡的数据,例如病例-对照极度不平衡、疾病发病率极低、生存数据大量删失以及遗传位点为低频或罕见变异等。在此情境下,logistic回归模型、Cox比例风险模型等参数假设检验的经典统计量偏离正态分布,难以控制一类错误。近年来,随着超大型人群队列全基因组关联研究资源的日益共享与深度挖掘,高效准确处理独立或非独立样本极端不平衡数据的统计需求日益突出。为此,本文系统地进行了方法学概述。首先,综述常见经典统计量理论推导的原理;其次,阐述极端不平衡数据对统计量分布的影响;然后,介绍遗传统计学中常用的两种统计量校正方法:Firth校正和鞍点近似方法;最后,简介极端不平衡基因组学数据常用软件。本文为极端不平衡数据的统计分析提供理论参考和应用推荐。
分类: 医学、药学 >> 预防医学与公共卫生学 提交时间: 2023-08-01 合作期刊: 《中国全科医学》
摘要: 中美韩健康与营养调查数据库均是针对本国国民健康与营养监测而形成的数据库,近年已成为数据挖掘的重要公共资源。本文对比分析了3个国家健康与营养调查数据库的建设现状、历史追溯、抽样方法和调查内容,其主要区别在于研究设计的类型不同,我国采用的是队列研究,而美国和韩国均为系列横断面调查。随后对基于数据库发表文献的数量和研究热点进行可视化分析,发现美国的发文量上升趋势更为突出,且3个数据库的研究热点与健康、营养调查主题一致。最后对数据库建设和应用情况进行了讨论,并提出建议,期望为研究者开展相关研究提供路径,更好的促进科学证据产出。