Bem, geralmente, ATL não é uma aproximação demasiado má para segurar estruturas COM-intensivas como DirectShow, mas se você quer um wothout da amostra ele, olha
http://www.codeproject.com/KB/audio-video/VideoImageGrabber.aspx (“o grabber tempo real do processamento/frame da imagem vídeo using uma aproximação minimalistic”)