A method for predicting the intention of a user through an image obtained by image-capturing the user includes: a step for receiving an image obtained by image-capturing at least a part of the body of the user; and a step for predicting the intention of the next motion of the user by using spatial information and temporal information about the user and a target object included in the image.L'invention concerne un procédé de prédiction de l'intention d'un utilisateur via une image obtenue par capture d'image de l'utilisateur, comprenant : une étape de réception d'une image obtenue par capture d'image d'au moins une partie du corps de l'utilisateur ; et une étape de prédiction de l'intention du prochain mouvement de l'utilisateur à l'aide d'informations spatiales et d'informations temporelles concernant l'utilisateur et d'un objet cible inclus dans l'image.사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자의 신체 중 적어도 일부를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함한다.