佘玲玲
- 作品数:2 被引量:3H指数:1
- 供职机构:中山大学公共卫生学院更多>>
- 发文基金:广东省卫生厅资助课题更多>>
- 相关领域:医药卫生更多>>
- 常用分类算法在不同样本量和类分布的不平衡数据中的分类效果比较被引量:3
- 2015年
- 目的:比较常用分类算法在不同样本量和稀有类比例的不平衡数据集中的分类效果。方法采用Monte Carlo模拟,产生不同样本量和稀有类比例的随机样本,并分别用各分类算法进行分类,比较各算法的F1值和AUC值。结果各算法的分类效果均随样本量和稀有类比例增加而增加,F1值的变化更明显,稀有类占30%和20%时,F1值变化幅度〈0.2,且均达到0.6以上(AUC〉0.83)。 logistic回归和神经网络在样本量为150和500时要优于其它三种算法,样本量5000稀有类占5%和3%时,随机森林的F1值要明显高于其它算法。结论 F1值受样本量和类分布影响较大,稀有类比例不太低时各算法仍具有可接受的分类效果,小样本时logistic回归和神经网络效果较好,稀有类比例较低且样本量大时随机森林效果要优于其余算法。
- 袁联雄佘玲玲林爱华骆福添
- 关键词:不平衡数据集
- 数据包络分析与随机前沿分析的比较研究--基于 Monte Carlo 模拟研究
- 2014年
- 目的:比较研究数据包络分析( DEA)和随机前沿分析( SFA)方法。方法通过蒙特卡罗模拟方法,比较两种方法效率值估计的准确性和效率值排名的一致性( Spearman相关系数)以及评价指标选择对两者的影响。结果DEA与SFA结果一致性较高;删减必要指标对两种方法评估的准确性和一致性的影响较大,而增加无关指标对两者的影响较少,增加无关指标前后效率值一致性较高,Spearman相关系数大部分在0.9以上。结论选择指标时要慎重,对效率评估结果影响较大的指标应保留。
- 佘玲玲袁联雄刘子峰骆福添
- 关键词:蒙特卡罗数据包络分析随机前沿分析