결론부터 말씀드리면 클링 모델에서 모션 컨트롤이 계속 실패하는 경우는 대부분 레퍼런스 영상 조건이 안 맞아서이고, 특히 해상도·길이·움직임 단순성 이 세 가지가 핵심입니다.
우선 가장 많이 막히는 부분이 영상 길이와 용량입니다. 레퍼런스 영상은 보통 짧아야 인식이 잘 되는데, 3초에서 5초 정도로 줄이고 용량도 과하지 않게 만드는 게 중요합니다. 길거나 장면 전환이 있는 영상은 거의 실패한다고 보시면 됩니다.
두 번째는 해상도와 비율입니다. 너무 고해상도 영상이나 세로형 영상은 인식이 잘 안 되는 경우가 많아서, 512나 768 정도의 정사각형이나 가로 비율로 리사이즈해서 넣는 게 안정적입니다.
세 번째가 가장 중요한데, 움직임이 단순해야 합니다. 사람 여러 명이 나오거나 카메라가 크게 흔들리는 영상, 배경이 계속 바뀌는 영상은 거의 인식이 안 됩니다. 한 명 또는 한 객체가 중심에 있고, 움직임도 한 방향으로만 있는 영상이 가장 잘 먹힙니다.
그리고 포맷도 영향이 있습니다. mp4 H264 코덱으로 다시 인코딩해서 넣는 게 인식률이 확 올라가는 경우가 많습니다. 간혹 fps가 너무 높아도 문제라서 24나 30fps로 맞추는 것도 도움이 됩니다.
정리하면
짧게 자르고, 해상도 줄이고, 움직임 단순하게 만들고, mp4로 재인코딩
이 네 가지만 맞추면 실패 확률이 확 줄어듭니다.
그래도 안 되면 문제 영상 하나 기준으로 어떤 조건인지 알려주시면 더 구체적으로 잡아드릴게요.