The emotion recognition server includes: a reception unit receiving input data including voice information and instantaneous information from the user terminal and identification information of the user; an attribute information extraction unit extracting user attribute information based on the received identification information of the user; The voice information is analyzed by the selection unit selecting at least one emotion recognition model from among a plurality of emotion recognition models registered based on the voice information, the speech moment information, and the user attribute information, and the selected emotion recognition model. And an emotion recognition unit that recognizes the user's emotion.감정 인식 서버는 사용자 단말로부터 음성 정보 및 발화 순간 정보를 포함하는 입력 데이터 및 사용자의 식별 정보를 수신하는 수신부, 상기 수신한 사용자의 식별 정보에 기초하여 사용자 속성 정보를 추출하는 속성 정보 추출부, 상기 음성 정보, 상기 발화 순간 정보 및 상기 사용자 속성 정보에 기초하여 기등록된 복수의 감정 인식 모델 중 적어도 하나의 감정 인식 모델을 선택하는 선택부 및 상기 선택된 감정 인식 모델에 의해 상기 음성 정보를 분석하여 상기 사용자의 감정을 인식하는 감정 인식부를 포함한다.