Es wird eine Bildverarbeitungsvorrichtung u. Ä. bereitgestellt, die ein von einem Endoskop erfasstes Bild ermitteln kann und deren Bedarf an Diagnose niedrig ist, um eine effiziente diagnostische Unterstützung zu erzielen. Eine Bildverarbeitungsvorrichtung 4 umfasst: eine Aktionsermittlungseinheit 110, die eine Aktion eines Bedieners am Endoskop beim Erfassen des Bilds auf der Basis eines von einem in ein Subjekt eingeführten Endoskop erfassten Bilds ermittelt; eine Bildentscheidungseinheit 120, die über ein Erfassungszielbild als Erfassungsziel für einen spezifischen Bereich auf der Basis des Ermittlungsergebnisses der Aktionsermittlungseinheit 110 entscheidet; und eine Erfassungseinheit 130, die den spezifischen Bereich vom Erfassungszielbild erfasst.It is an image processing device u. Ä. which can detect an image captured by an endoscope and has a low diagnostic need for efficient diagnostic support. An image processing apparatus 4 includes: an action determination unit 110 that detects an action of an operator on the endoscope when acquiring the image on the basis of an image captured by an endoscope inserted into a subject; an image decision unit 120 that decides on a detection target image as a specific region detection target on the basis of the determination result of the action determination unit 110; and a detection unit 130 that detects the specific area of the detection target image.