Provided are a visual training device and a speaker mounting structure thereof, the visual training device comprising a base assembly, a cartridge assembly, and a middle housing assembly connected to the base assembly and the cartridge assembly. The middle housing assembly is internally provided with a speaker (1) and a speaker mounting structure (2) for mounting the speaker (1). The speaker (1) is provided with mounting steps (13, 14). The speaker mounting structure (2) comprises a mounting main body (21), and a snap assembly (22) arranged on one side of the mounting main body (21). The mounting main body (21) is provided with openings (211) for the playback of the speaker (1). The snap assembly (22) is snapped onto the mounting steps (13, 14) of the outer housing of the speaker (1), and the speaker (1) is fixedly mounted on the mounting main body (21). While playing a stereoscopic picture card, the visual training device can simultaneously play sound, thus achieving user interaction and increasing the users interest during treatment, thereby making treatment more effective.Linvention concerne un dispositif dentraînement visuel et une structure de montage de haut-parleur associée, le dispositif dentraînement visuel comprenant un ensemble base, un ensemble cartouche, et un ensemble boîtier intermédiaire relié à lensemble base et à lensemble cartouche. Lensemble boîtier intermédiaire est muni à lintérieur dun haut-parleur (1) et dune structure de montage de haut-parleur (2) pour monter le haut-parleur (1). Le haut-parleur (1) est doté déchelons de montage (13, 14). La structure de montage de haut-parleur (2) comprend un corps principal de montage (21), et un ensemble dencliquetage (22) disposé sur un côté du corps principal de montage (21). Le corps principal de montage (21) est doté douvertures (211) pour la diffusion sonore par le haut-parleur (1). Lensemble dencliquetage (22) est encliqueté sur les échelons de montage (13, 14) du boîtier extérieur du haut-parleur