PROBLEM TO BE SOLVED: To output a consonant in addition to a vowel when outputting a sound desired by a user in units of one sound. SOLUTION: When the sound that the user wants to utter is a vowel, a sound output device 1 specifies the vowel based on the content of the user's mouth shape photographed and outputs the specified vowel from a speaker. When the sound that the user wants to utter is a consonant, the sound output device 1 accepts a user operation that specifies the type of consonant in addition to specifying the vowel based on the captured content, and outputs the consonant corresponding to the user operation. The consonant is specified based on the vowel specified based on the type and the shooting content, and the specified consonant is output from the speaker. As a result, vocalization support and training can be provided for people who cannot speak. [Selection diagram] Figure 1【課題】ユーザの所望する音を一音単位で出力するにあたり、母音に加えて、子音を出力可能にする。【解決手段】ユーザの発声したい音が母音の場合、音出力装置1は、ユーザの口の形を撮影した内容に基づき母音を特定して、特定した母音をスピーカーから出力する。ユーザの発声したい音が子音の場合、音出力装置1は、撮影内容に基づき母音を特定することに加えて、子音の種類を指定するユーザ操作を受け付けるようにして、ユーザ操作に応じた子音の種類及び撮影内容に基づき特定した母音に基づき子音を特定し、その特定した子音をスピーカーから出力する。それにより、発声するのが不自由な人に対する発声支援及びトレーニングを行える。【選択図】図1