The present teaching relates to method, system, medium, and implementations for identifying object of interest. Image data acquired by a camera with respect to a scene are received. One or more users are detected, during a period of time, from the image data who are present at the scene. Three dimensional (3D) gazing rays of the one or more users during the period of time are estimated. One or more intersections of such 3D gazing rays are identified and are used to determine at least one object of interest of the one or more users.La présente invention concerne un procédé, un système, un support et des mises en œuvre permettant l'identification d'un objet d'intérêt. Des données d'image acquises par une caméra par rapport à une scène sont reçues. Un ou plusieurs utilisateurs qui sont présents au niveau de la scène sont détectés, pendant une période de temps, à partir des données d'image. Des rayons de regard tridimensionnels (3D) desdits utilisateurs pendant la période de temps sont estimés. Une ou plusieurs intersections de tels rayons de regard 3D sont identifiées et sont utilisées en vue de déterminer au moins un objet d'intérêt desdits utilisateurs.