HAGAR, Yolanda,DATTA, Gargi,ALEXANDER, Leigh,HINTERBERG, Michael
申请号:
USUS2019/062561
公开号:
WO2020/112478A1
申请日:
2019.11.21
申请国别(地区):
US
年份:
2020
代理人:
摘要:
A method for downsampling class-imbalanced sets with survival analysis comprising: acquiring a class-imbalanced data set, wherein the class-imbalanced data set comprises biological data from a plurality of subjects, wherein the biological data of each subject includes an observation, a time value, and a plurality of clinical measurements, and wherein the biological data is categorized as being part of a majority data class or a minority data class, wherein the majority data class has a greater number of observations than the minority data class; downsampling the class-imbalanced data set, wherein the downsampling results in the majority data class having an equivalent or substantially equivalent number of observations as the minority data class; and performing cross-validation on the downsampled data set with a survival analysis to generate a survival model, wherein the observation comprises an event or no event at a specific time value.Un procédé de sous-échantillonnage d'ensembles non équilibrés de classe avec une analyse de survie comprend les étapes consistant à : obtenir un ensemble de données non équilibré de classe, l'ensemble de données non équilibré de classe comprenant des données biologiques provenant d'une pluralité de sujets, les données biologiques de chaque sujet comprenant une observation, une valeur de temps, et une pluralité de mesures cliniques, et les données biologiques étant classées comme faisant partie d'une classe de données majoritaires ou d'une classe de données minoritaires, la classe de données majoritaires ayant un plus grand nombre d'observations que la classe de données minoritaires; sous-échantillonner l'ensemble de données non équilibrées de classe, le sous-échantillonnage conduisant la classe de données majoritaires à avoir le nombre équivalent ou sensiblement équivalent d'observations à la classe de données minoritaires; et effectuer une validation croisée sur l'ensemble de données sous-échantillonnées avec une analyse de survie a