摘要

In this paper, we propose a new effective estimator for a class of semiparametric mixture models where one component has known distribution with possibly unknown parameters while the other component density and the mixing proportion are unknown. Such semiparametric mixture models have been often used in multiple hypothesis testing and the sequential clustering algorithm. The proposed estimator is based on the minimum profile Hellinger distance (MPHD), and its theoretical properties are investigated. In addition, we use simulation studies to illustrate the finite sample performance of the MPHD estimator and compare it with some other existing approaches. The empirical studies demonstrate that the new method outperforms existing estimators when data are generated under contamination and works comparably to existing estimators when data are not contaminated. Applications to two real data sets are also provided to illustrate the effectiveness of the new methodology. The Canadian Journal of Statistics 42: 246-267; 2014 (c) 2014 Statistical Society of Canada @@@ Resume @@@ Les auteurs proposent un nouvel estimateur efficace pour une classe de modeles de melange semi-parametriques oU l'une des composantes provient d'une distribution connue dont les parametres peuvent etre inconnus, mais oU la distribution des autres composantes et les poids sont inconnus. De tels modeles de melange semi-parametriques sont souvent utilises pour les tests d'hypothese multiples et pour l'algorithme sequentiel de mise en grappe. L'estimateur propose est base sur le profil de distance de Hellinger minimal. Les auteurs etudient les proprietes theoriques de l'estimateur propose et illustrent sa performance sur des echantillons de taille finie a l'aide de simulations en le comparant aux approches existantes. Cette etude empirique montre que la nouvelle methode offre des performances superieures aux methodes existantes lorsque les donnees sont generees avec de la contamination, et des performances semblables aux methodes classiques en absence de contamination. Les auteurs illustrent l'efficacite de la nouvelle methode en l'appliquant a deux jeux de donnees reelles.