A method of predicting a user's intention through an image photographed by a user includes receiving an image photographing at least a part of the user's body and using spatial information and time information about the user and the target object included in the image And, it includes the step of predicting the intention of the user's next operation.사용자를 촬영한 영상을 통해 사용자의 의도를 예측하는 방법은, 사용자의 신체 중 적어도 일부를 촬영한 영상을 수신하는 단계 및 상기 영상에 포함된 상기 사용자와 목표물체에 대한 공간정보 및 시간정보를 이용하여, 상기 사용자의 다음 동작에 대한 의도를 예측하는 단계를 포함한다.