PROBLEM TO BE SOLVED: To improve the estimation accuracy of a user's emotion. An emotion estimation device includes a first acquisition unit that acquires voice data uttered by a user, and a second acquisition unit that acquires text data obtained by converting the voice data acquired by the first acquisition unit into text. An index value based on the voice data acquired by the first acquisition unit and an index value based on the text data acquired by the second acquisition unit are integrated by a first fusion, and based on the integrated index value, A first estimation unit that estimates the emotion of the user, an index value indicating the estimation result of the first estimation unit, and an index value based on the text data acquired by the second acquisition unit are integrated by the second fusion. A second estimation unit that estimates the emotion of the user based on the integrated index value. [Selection diagram] Fig. 9【課題】ユーザの感情の推定精度を向上させること。【解決手段】感情推定装置は、ユーザが発話した音声データを取得する第1取得部と、前記第1取得部により取得された音声データをテキスト化したテキストデータを取得する第2取得部と、前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第1推定部と、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第2推定部と、を備える。【選択図】図9