Benchmarking Visual State Tracking in Multimodal Video Understanding