Spaces:

ezeanubis
/

voyager

Runtime error

App Files Files Community

ezeanubis commited on 17 days ago

Commit

a7aea10

verified ·

1 Parent(s): 530733d

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1019 -0
.github/workflows/update_space.yml +28 -0
.gitignore +3 -0
.gradio/certificate.pem +31 -0
LICENSE +81 -0
NOTICE +104 -0
README.md +397 -7
README_zh.md +395 -0
app.py +15 -0
assets/HYWorld_Voyager.pdf +3 -0
assets/backbone.jpg +3 -0
assets/data_engine.jpg +3 -0
assets/demo/camera/input1.png +3 -0
assets/demo/camera/input2.png +3 -0
assets/demo/camera/input3.png +3 -0
assets/gradio.png +3 -0
assets/qrcode/discord.png +0 -0
assets/qrcode/wechat.png +0 -0
assets/qrcode/x.png +0 -0
assets/qrcode/xiaohongshu.png +0 -0
assets/teaser.png +3 -0
assets/teaser_zh.png +3 -0
ckpts/README.md +57 -0
data_engine/README.md +62 -0
data_engine/convert_point.py +72 -0
data_engine/create_input.py +391 -0
data_engine/depth_align.py +418 -0
data_engine/metric3d_infer.py +115 -0
data_engine/moge_infer.py +73 -0
data_engine/requirements.txt +16 -0
data_engine/run.sh +27 -0
data_engine/vggt_infer.py +242 -0
examples/case1/condition.mp4 +3 -0
examples/case1/depth_range.json +1 -0
examples/case1/prompt.txt +1 -0
examples/case1/ref_depth.exr +3 -0
examples/case1/ref_image.png +3 -0
examples/case1/video_input/depth_0000.exr +3 -0
examples/case1/video_input/depth_0001.exr +3 -0
examples/case1/video_input/depth_0002.exr +3 -0
examples/case1/video_input/depth_0003.exr +3 -0
examples/case1/video_input/depth_0004.exr +3 -0
examples/case1/video_input/depth_0005.exr +3 -0
examples/case1/video_input/depth_0006.exr +3 -0
examples/case1/video_input/depth_0007.exr +3 -0
examples/case1/video_input/depth_0008.exr +3 -0
examples/case1/video_input/depth_0009.exr +3 -0
examples/case1/video_input/depth_0010.exr +3 -0
examples/case1/video_input/depth_0011.exr +3 -0
examples/case1/video_input/depth_0012.exr +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,1022 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/HYWorld_Voyager.pdf filter=lfs diff=lfs merge=lfs -text
+assets/backbone.jpg filter=lfs diff=lfs merge=lfs -text
+assets/data_engine.jpg filter=lfs diff=lfs merge=lfs -text
+assets/demo/camera/input1.png filter=lfs diff=lfs merge=lfs -text
+assets/demo/camera/input2.png filter=lfs diff=lfs merge=lfs -text
+assets/demo/camera/input3.png filter=lfs diff=lfs merge=lfs -text
+assets/gradio.png filter=lfs diff=lfs merge=lfs -text
+assets/teaser.png filter=lfs diff=lfs merge=lfs -text
+assets/teaser_zh.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case1/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case1/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case10/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case10/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case2/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case2/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case3/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case3/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case4/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case4/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case5/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case5/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case6/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case6/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case7/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case7/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case8/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case8/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/condition.mp4 filter=lfs diff=lfs merge=lfs -text
+examples/case9/ref_depth.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/ref_image.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0000.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0001.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0002.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0003.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0004.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0005.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0006.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0007.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0008.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0009.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0010.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0011.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0012.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0013.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0014.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0015.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0016.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0017.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0018.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0019.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0020.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0021.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0022.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0023.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0024.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0025.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0026.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0027.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0028.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0029.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0030.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0031.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0032.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0033.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0034.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0035.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0036.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0037.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0038.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0039.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0040.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0041.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0042.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0043.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0044.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0045.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0046.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0047.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/depth_0048.exr filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0000.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0001.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0002.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0003.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0004.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0005.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0006.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0007.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0008.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0009.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0010.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0011.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0012.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0013.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0014.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0015.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0016.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0017.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0018.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0019.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0020.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0021.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0022.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0023.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0024.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0025.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0026.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0027.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0028.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0029.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0030.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0031.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0032.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0033.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0034.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0035.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0036.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0037.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0038.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0039.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0040.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0041.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0042.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0043.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0044.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0045.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0046.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0047.png filter=lfs diff=lfs merge=lfs -text
+examples/case9/video_input/render_0048.png filter=lfs diff=lfs merge=lfs -text

.github/workflows/update_space.yml ADDED Viewed

	@@ -0,0 +1,28 @@

+name: Run Python script
+on:
+  push:
+    branches:
+      - y
+jobs:
+  build:
+    runs-on: ubuntu-latest
+    steps:
+    - name: Checkout
+      uses: actions/checkout@v2
+    - name: Set up Python
+      uses: actions/setup-python@v2
+      with:
+        python-version: '3.9'
+    - name: Install Gradio
+      run: python -m pip install gradio
+    - name: Log in to Hugging Face
+      run: python -c 'import huggingface_hub; huggingface_hub.login(token="${{ secrets.hf_token }}")'
+    - name: Deploy to Spaces
+      run: gradio deploy

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+# Ignore Python bytecode files
+__pycache__/
+*.pyc

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

LICENSE ADDED Viewed

	@@ -0,0 +1,81 @@

+TENCENT HUNYUANWORLD-VOYAGER COMMUNITY LICENSE AGREEMENT
+Tencent HunyuanWorld-Voyager Release Date: September 2, 2025
+THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION, UNITED KINGDOM AND SOUTH KOREA AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.
+By clicking to agree or by using, reproducing, modifying, distributing, performing or displaying any portion or element of the Tencent HunyuanWorld-Voyager Works, including via any Hosted Service, You will be deemed to have recognized and accepted the content of this Agreement, which is effective immediately.
+1.	DEFINITIONS.
+a.	“Acceptable Use Policy” shall mean the policy made available by Tencent as set forth in the Exhibit A.
+b.	“Agreement” shall mean the terms and conditions for use, reproduction, distribution, modification, performance and displaying of Tencent HunyuanWorld-Voyager Works or any portion or element thereof set forth herein.
+c.	“Documentation” shall mean the specifications, manuals and documentation for Tencent HunyuanWorld-Voyager made publicly available by Tencent.
+d.	“Hosted Service” shall mean a hosted service offered via an application programming interface (API), web access, or any other electronic or remote means.
+e.	“Licensee,” “You” or “Your” shall mean a natural person or legal entity exercising the rights granted by this Agreement and/or using the Tencent HunyuanWorld-Voyager Works for any purpose and in any field of use.
+f.	“Materials” shall mean, collectively, Tencent’s proprietary Tencent HunyuanWorld-Voyager and Documentation (and any portion thereof) as made available by Tencent under this Agreement.
+g.	“Model Derivatives” shall mean all: (i) modifications to Tencent HunyuanWorld-Voyager or any Model Derivative of Tencent HunyuanWorld-Voyager; (ii) works based on Tencent HunyuanWorld-Voyager or any Model Derivative of Tencent HunyuanWorld-Voyager; or (iii) any other machine learning model which is created by transfer of patterns of the weights, parameters, operations, or Output of Tencent HunyuanWorld-Voyager or any Model Derivative of Tencent HunyuanWorld-Voyager, to that model in order to cause that model to perform similarly to Tencent HunyuanWorld-Voyager or a Model Derivative of Tencent HunyuanWorld-Voyager, including distillation methods, methods that use intermediate data representations, or methods based on the generation of synthetic data Outputs by Tencent HunyuanWorld-Voyager or a Model Derivative of Tencent HunyuanWorld-Voyager for training that model. For clarity, Outputs by themselves are not deemed Model Derivatives.
+h.	“Output” shall mean the information and/or content output of Tencent HunyuanWorld-Voyager or a Model Derivative that results from operating or otherwise using Tencent HunyuanWorld-Voyager or a Model Derivative, including via a Hosted Service.
+i.	“Tencent,” “We” or “Us” shall mean the applicable entity or entities in the Tencent corporate family that own(s) intellectual property or other rights embodied in or utilized by the Materials..
+j.	“Tencent HunyuanWorld-Voyager” shall mean the 3D generation models and their software and algorithms, including trained model weights, parameters (including optimizer states), machine-learning model code, inference-enabling code, training-enabling code, fine-tuning enabling code and other elements of the foregoing made publicly available by Us at [https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager].
+k.	“Tencent HunyuanWorld-Voyager Works” shall mean: (i) the Materials; (ii) Model Derivatives; and (iii) all derivative works thereof.
+l.	“Territory” shall mean the worldwide territory, excluding the territory of the European Union, United Kingdom and South Korea.
+m.	“Third Party” or “Third Parties” shall mean individuals or legal entities that are not under common control with Us or You.
+n.	“including” shall mean including but not limited to.
+2.	GRANT OF RIGHTS.
+We grant You, for the Territory only, a non-exclusive, non-transferable and royalty-free limited license under Tencent’s intellectual property or other rights owned by Us embodied in or utilized by the Materials to use, reproduce, distribute, create derivative works of (including Model Derivatives), and make modifications to the Materials, only in accordance with the terms of this Agreement and the Acceptable Use Policy, and You must not violate (or encourage or permit anyone else to violate) any term of this Agreement or the Acceptable Use Policy.
+3.	DISTRIBUTION.
+You may, subject to Your compliance with this Agreement, distribute or make available to Third Parties the Tencent HunyuanWorld-Voyager Works, exclusively in the Territory, provided that You meet all of the following conditions:
+a.	You must provide all such Third Party recipients of the Tencent HunyuanWorld-Voyager Works or products or services using them a copy of this Agreement;
+b.	You must cause any modified files to carry prominent notices stating that You changed the files;
+c.	You are encouraged to: (i) publish at least one technology introduction blogpost or one public statement expressing Your experience of using the Tencent HunyuanWorld-Voyager Works; and (ii) mark the products or services developed by using the Tencent HunyuanWorld-Voyager Works to indicate that the product/service is “Powered by Tencent Hunyuan”; and
+d.	All distributions to Third Parties (other than through a Hosted Service) must be accompanied by a “Notice” text file that contains the following notice: “Tencent HunyuanWorld-Voyager is licensed under the Tencent HunyuanWorld-Voyager Community License Agreement, Copyright © 2025 Tencent. All Rights Reserved. The trademark rights of “Tencent Hunyuan” are owned by Tencent or its affiliate.”
+You may add Your own copyright statement to Your modifications and, except as set forth in this Section and in Section 5, may provide additional or different license terms and conditions for use, reproduction, or distribution of Your modifications, or for any such Model Derivatives as a whole, provided Your use, reproduction, modification, distribution, performance and display of the work otherwise complies with the terms and conditions of this Agreement (including as regards the Territory). If You receive Tencent HunyuanWorld-Voyager Works from a Licensee as part of an integrated end user product, then this Section 3 of this Agreement will not apply to You.
+4.	ADDITIONAL COMMERCIAL TERMS.
+If, on the Tencent HunyuanWorld-Voyager version release date, the monthly active users of all products or services made available by or for Licensee is greater than 1 million monthly active users in the preceding calendar month, You must request a license from Tencent, which Tencent may grant to You in its sole discretion, and You are not authorized to exercise any of the rights under this Agreement unless or until Tencent otherwise expressly grants You such rights.
+Subject to Tencent's written approval, you may request a license for the use of Tencent HunyuanWorld-Voyager by submitting the following information to [email protected]:
+a.	Your company’s name and associated business sector that plans to use Tencent HunyuanWorld-Voyager.
+b.	Your intended use case and the purpose of using Tencent HunyuanWorld-Voyager.
+c.	Your plans to modify Tencent HunyuanWorld-Voyager or create Model Derivatives.
+5.	RULES OF USE.
+a.	Your use of the Tencent HunyuanWorld-Voyager Works must comply with applicable laws and regulations (including trade compliance laws and regulations) and adhere to the Acceptable Use Policy for the Tencent HunyuanWorld-Voyager Works, which is hereby incorporated by reference into this Agreement. You must include the use restrictions referenced in these Sections 5(a) and 5(b) as an enforceable provision in any agreement (e.g., license agreement, terms of use, etc.) governing the use and/or distribution of Tencent HunyuanWorld-Voyager Works and You must provide notice to subsequent users to whom You distribute that Tencent HunyuanWorld-Voyager Works are subject to the use restrictions in these Sections 5(a) and 5(b).
+b.	You must not use the Tencent HunyuanWorld-Voyager Works or any Output or results of the Tencent HunyuanWorld-Voyager Works to improve any other AI model (other than Tencent HunyuanWorld-Voyager or Model Derivatives thereof).
+c.	You must not use, reproduce, modify, distribute, or display the Tencent HunyuanWorld-Voyager Works, Output or results of the Tencent HunyuanWorld-Voyager Works outside the Territory. Any such use outside the Territory is unlicensed and unauthorized under this Agreement.
+6.	INTELLECTUAL PROPERTY.
+a.	Subject to Tencent’s ownership of Tencent HunyuanWorld-Voyager Works made by or for Tencent and intellectual property rights therein, conditioned upon Your compliance with the terms and conditions of this Agreement, as between You and Tencent, You will be the owner of any derivative works and modifications of the Materials and any Model Derivatives that are made by or for You.
+b.	No trademark licenses are granted under this Agreement, and in connection with the Tencent HunyuanWorld-Voyager Works, Licensee may not use any name or mark owned by or associated with Tencent or any of its affiliates, except as required for reasonable and customary use in describing and distributing the Tencent HunyuanWorld-Voyager Works. Tencent hereby grants You a license to use “Tencent Hunyuan” (the “Mark”) in the Territory solely as required to comply with the provisions of Section 3(c), provided that You comply with any applicable laws related to trademark protection. All goodwill arising out of Your use of the Mark will inure to the benefit of Tencent.
+c.	If You commence a lawsuit or other proceedings (including a cross-claim or counterclaim in a lawsuit) against Us or any person or entity alleging that the Materials or any Output, or any portion of any of the foregoing, infringe any intellectual property or other right owned or licensable by You, then all licenses granted to You under this Agreement shall terminate as of the date such lawsuit or other proceeding is filed. You will defend, indemnify and hold harmless Us from and against any claim by any Third Party arising out of or related to Your or the Third Party’s use or distribution of the Tencent HunyuanWorld-Voyager Works.
+d.	Tencent claims no rights in Outputs You generate. You and Your users are solely responsible for Outputs and their subsequent uses.
+7.	DISCLAIMERS OF WARRANTY AND LIMITATIONS OF LIABILITY.
+a.	We are not obligated to support, update, provide training for, or develop any further version of the Tencent HunyuanWorld-Voyager Works or to grant any license thereto.
+b.	UNLESS AND ONLY TO THE EXTENT REQUIRED BY APPLICABLE LAW, THE TENCENT HUNYUANWORLD-VOYAGER WORKS AND ANY OUTPUT AND RESULTS THEREFROM ARE PROVIDED “AS IS” WITHOUT ANY EXPRESS OR IMPLIED WARRANTIES OF ANY KIND INCLUDING ANY WARRANTIES OF TITLE, MERCHANTABILITY, NONINFRINGEMENT, COURSE OF DEALING, USAGE OF TRADE, OR FITNESS FOR A PARTICULAR PURPOSE. YOU ARE SOLELY RESPONSIBLE FOR DETERMINING THE APPROPRIATENESS OF USING, REPRODUCING, MODIFYING, PERFORMING, DISPLAYING OR DISTRIBUTING ANY OF THE TENCENT HUNYUANWORLD-VOYAGER WORKS OR OUTPUTS AND ASSUME ANY AND ALL RISKS ASSOCIATED WITH YOUR OR A THIRD PARTY’S USE OR DISTRIBUTION OF ANY OF THE TENCENT HUNYUANWORLD-VOYAGER WORKS OR OUTPUTS AND YOUR EXERCISE OF RIGHTS AND PERMISSIONS UNDER THIS AGREEMENT.
+c.	TO THE FULLEST EXTENT PERMITTED BY APPLICABLE LAW, IN NO EVENT SHALL TENCENT OR ITS AFFILIATES BE LIABLE UNDER ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, TORT, NEGLIGENCE, PRODUCTS LIABILITY, OR OTHERWISE, FOR ANY DAMAGES, INCLUDING ANY DIRECT, INDIRECT, SPECIAL, INCIDENTAL, EXEMPLARY, CONSEQUENTIAL OR PUNITIVE DAMAGES, OR LOST PROFITS OF ANY KIND ARISING FROM THIS AGREEMENT OR RELATED TO ANY OF THE TENCENT HUNYUANWORLD-VOYAGER WORKS OR OUTPUTS, EVEN IF TENCENT OR ITS AFFILIATES HAVE BEEN ADVISED OF THE POSSIBILITY OF ANY OF THE FOREGOING.
+8.	SURVIVAL AND TERMINATION.
+a.	The term of this Agreement shall commence upon Your acceptance of this Agreement or access to the Materials and will continue in full force and effect until terminated in accordance with the terms and conditions herein.
+b.	We may terminate this Agreement if You breach any of the terms or conditions of this Agreement. Upon termination of this Agreement, You must promptly delete and cease use of the Tencent HunyuanWorld-Voyager Works. Sections 6(a), 6(c), 7 and 9 shall survive the termination of this Agreement.
+9.	GOVERNING LAW AND JURISDICTION.
+a.	This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China, without regard to conflict of law principles, and the UN Convention on Contracts for the International Sale of Goods does not apply to this Agreement.
+b.	Exclusive jurisdiction and venue for any dispute arising out of or relating to this Agreement will be a court of competent jurisdiction in the Hong Kong Special Administrative Region of the People’s Republic of China, and Tencent and Licensee consent to the exclusive jurisdiction of such court with respect to any such dispute.
+EXHIBIT A
+ACCEPTABLE USE POLICY
+Tencent reserves the right to update this Acceptable Use Policy from time to time.
+Last modified: November 5, 2024
+Tencent endeavors to promote safe and fair use of its tools and features, including Tencent HunyuanWorld-Voyager. You agree not to use Tencent HunyuanWorld-Voyager or Model Derivatives:
+1.	Outside the Territory;
+2.	In any way that violates any applicable national, federal, state, local, international or any other law or regulation;
+3.	To harm Yourself or others;
+4.	To repurpose or distribute output from Tencent HunyuanWorld-Voyager or any Model Derivatives to harm Yourself or others;
+5.	To override or circumvent the safety guardrails and safeguards We have put in place;
+6.	For the purpose of exploiting, harming or attempting to exploit or harm minors in any way;
+7.	To generate or disseminate verifiably false information and/or content with the purpose of harming others or influencing elections;
+8.	To generate or facilitate false online engagement, including fake reviews and other means of fake online engagement;
+9.	To intentionally defame, disparage or otherwise harass others;
+10.	To generate and/or disseminate malware (including ransomware) or any other content to be used for the purpose of harming electronic systems;
+11.	To generate or disseminate personal identifiable information with the purpose of harming others;
+12.	To generate or disseminate information (including images, code, posts, articles), and place the information in any public context (including –through the use of bot generated tweets), without expressly and conspicuously identifying that the information and/or content is machine generated;
+13.	To impersonate another individual without consent, authorization, or legal right;
+14.	To make high-stakes automated decisions in domains that affect an individual’s safety, rights or wellbeing (e.g., law enforcement, migration, medicine/health, management of critical infrastructure, safety components of products, essential services, credit, employment, housing, education, social scoring, or insurance);
+15.	In a manner that violates or disrespects the social ethics and moral standards of other countries or regions;
+16.	To perform, facilitate, threaten, incite, plan, promote or encourage violent extremism or terrorism;
+17.	For any use intended to discriminate against or harm individuals or groups based on protected characteristics or categories, online or offline social behavior or known or predicted personal or personality characteristics;
+18.	To intentionally exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm;
+19.	For military purposes;
+20.	To engage in the unauthorized or unlicensed practice of any profession including, but not limited to, financial, legal, medical/health, or other professional practices.

NOTICE ADDED Viewed

	@@ -0,0 +1,104 @@

+Usage and Legal Notices:
+Tencent is pleased to support the open source community by making Tencent HunyuanWorld-Voyager available.
+Copyright (C) 2025 Tencent. All rights reserved. The below model in this distribution may have been modified by Tencent ("Tencent Modifications"). All Tencent Modifications are Copyright (C) Tencent.
+Tencent HunyuanWorld-Voyager is licensed under TENCENT HUNYUANWORLD-VOYAGER COMMUNITY LICENSE AGREEMENT, which can be found in this repository called "LICENSE", except for the third-party components listed below. Tencent HunyuanWorld-Voyager does not impose any additional limitations beyond what is outlined in the respective licenses of these third-party components. Users must comply with all terms and conditions of original licenses of these third-party components and must ensure that the usage of the third party components adheres to all relevant laws and regulations.
+For avoidance of doubts, Tencent HunyuanWorld-Voyager means the large language models and their software and algorithms, including trained model weights, parameters (including optimizer states), machine-learning model code, inference-enabling code, training-enabling code, fine-tuning enabling code and other elements of the foregoing made publicly available by Tencent in accordance with the TENCENT HUNYUANWORLD-VOYAGER COMMUNITY LICENSE AGREEMENT.
+Other dependencies and licenses:
+Open Source Software Licensed under the TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT and Other Licenses of the Third-Party Components therein:
+The below software in this distribution may have been modified by Tencent ("Tencent Modifications"). All Tencent Modifications are Copyright (C) 2025 Tencent.
+--------------------------------------------------------------------
+1. HunyuanVideo-I2V
+Copyright (C) 2025 THL A29 Limited, a Tencent company.  All rights reserved.
+Terms of the TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT:
+--------------------------------------------------------------------
+TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT
+Tencent HunyuanVideo-I2V Release Date: March 5, 2025
+THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION, UNITED KINGDOM AND SOUTH KOREA AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.
+By clicking to agree or by using, reproducing, modifying, distributing, performing or displaying any portion or element of the Tencent Hunyuan Works, including via any Hosted Service, You will be deemed to have recognized and accepted the content of this Agreement, which is effective immediately.
+1.	DEFINITIONS.
+a.	“Acceptable Use Policy” shall mean the policy made available by Tencent as set forth in the Exhibit A.
+b.	“Agreement” shall mean the terms and conditions for use, reproduction, distribution, modification, performance and displaying of Tencent Hunyuan Works or any portion or element thereof set forth herein.
+c.	“Documentation” shall mean the specifications, manuals and documentation for Tencent Hunyuan made publicly available by Tencent.
+d.	“Hosted Service” shall mean a hosted service offered via an application programming interface (API), web access, or any other electronic or remote means.
+e.	“Licensee,” “You” or “Your” shall mean a natural person or legal entity exercising the rights granted by this Agreement and/or using the Tencent Hunyuan Works for any purpose and in any field of use.
+f.	“Materials” shall mean, collectively, Tencent’s proprietary Tencent Hunyuan and Documentation (and any portion thereof) as made available by Tencent under this Agreement.
+g.	“Model Derivatives” shall mean all: (i) modifications to Tencent Hunyuan or any Model Derivative of Tencent Hunyuan; (ii) works based on Tencent Hunyuan or any Model Derivative of Tencent Hunyuan; or (iii) any other machine learning model which is created by transfer of patterns of the weights, parameters, operations, or Output of Tencent Hunyuan or any Model Derivative of Tencent Hunyuan, to that model in order to cause that model to perform similarly to Tencent Hunyuan or a Model Derivative of Tencent Hunyuan, including distillation methods, methods that use intermediate data representations, or methods based on the generation of synthetic data Outputs by Tencent Hunyuan or a Model Derivative of Tencent Hunyuan for training that model. For clarity, Outputs by themselves are not deemed Model Derivatives.
+h.	“Output” shall mean the information and/or content output of Tencent Hunyuan or a Model Derivative that results from operating or otherwise using Tencent Hunyuan or a Model Derivative, including via a Hosted Service.
+i.	“Tencent,” “We” or “Us” shall mean THL A29 Limited.
+j.	“Tencent Hunyuan” shall mean the large language models, text/image/video/audio/3D generation models, and multimodal large language models and their software and algorithms, including trained model weights, parameters (including optimizer states), machine-learning model code, inference-enabling code, training-enabling code, fine-tuning enabling code and other elements of the foregoing made publicly available by Us, including, without limitation to, Tencent HunyuanVideo-I2V released at [ https://github.com/Tencent/HunyuanVideo-I2V ].
+k.	“Tencent Hunyuan Works” shall mean: (i) the Materials; (ii) Model Derivatives; and (iii) all derivative works thereof.
+l.	“Territory” shall mean the worldwide territory, excluding the territory of the European Union, United Kingdom and South Korea.
+m.	“Third Party” or “Third Parties” shall mean individuals or legal entities that are not under common control with Us or You.
+n.	“including” shall mean including but not limited to.
+2.	GRANT OF RIGHTS.
+We grant You, for the Territory only, a non-exclusive, non-transferable and royalty-free limited license under Tencent’s intellectual property or other rights owned by Us embodied in or utilized by the Materials to use, reproduce, distribute, create derivative works of (including Model Derivatives), and make modifications to the Materials, only in accordance with the terms of this Agreement and the Acceptable Use Policy, and You must not violate (or encourage or permit anyone else to violate) any term of this Agreement or the Acceptable Use Policy.
+3.	DISTRIBUTION.
+You may, subject to Your compliance with this Agreement, distribute or make available to Third Parties the Tencent Hunyuan Works, exclusively in the Territory, provided that You meet all of the following conditions:
+a.	You must provide all such Third Party recipients of the Tencent Hunyuan Works or products or services using them a copy of this Agreement;
+b.	You must cause any modified files to carry prominent notices stating that You changed the files;
+c.	You are encouraged to: (i) publish at least one technology introduction blogpost or one public statement expressing Your experience of using the Tencent Hunyuan Works; and (ii) mark the products or services developed by using the Tencent Hunyuan Works to indicate that the product/service is “Powered by Tencent Hunyuan”; and
+d.	All distributions to Third Parties (other than through a Hosted Service) must be accompanied by a “Notice” text file that contains the following notice: “Tencent Hunyuan is licensed under the Tencent Hunyuan Community License Agreement, Copyright © 2025 Tencent. All Rights Reserved. The trademark rights of “Tencent Hunyuan” are owned by Tencent or its affiliate.”
+You may add Your own copyright statement to Your modifications and, except as set forth in this Section and in Section 5, may provide additional or different license terms and conditions for use, reproduction, or distribution of Your modifications, or for any such Model Derivatives as a whole, provided Your use, reproduction, modification, distribution, performance and display of the work otherwise complies with the terms and conditions of this Agreement (including as regards the Territory). If You receive Tencent Hunyuan Works from a Licensee as part of an integrated end user product, then this Section 3 of this Agreement will not apply to You.
+4.	ADDITIONAL COMMERCIAL TERMS.
+If, on the Tencent Hunyuan version release date, the monthly active users of all products or services made available by or for Licensee is greater than 100 million monthly active users in the preceding calendar month, You must request a license from Tencent, which Tencent may grant to You in its sole discretion, and You are not authorized to exercise any of the rights under this Agreement unless or until Tencent otherwise expressly grants You such rights.
+5.	RULES OF USE.
+a.	Your use of the Tencent Hunyuan Works must comply with applicable laws and regulations (including trade compliance laws and regulations) and adhere to the Acceptable Use Policy for the Tencent Hunyuan Works, which is hereby incorporated by reference into this Agreement. You must include the use restrictions referenced in these Sections 5(a) and 5(b) as an enforceable provision in any agreement (e.g., license agreement, terms of use, etc.) governing the use and/or distribution of Tencent Hunyuan Works and You must provide notice to subsequent users to whom You distribute that Tencent Hunyuan Works are subject to the use restrictions in these Sections 5(a) and 5(b).
+b.	You must not use the Tencent Hunyuan Works or any Output or results of the Tencent Hunyuan Works to improve any other AI model (other than Tencent Hunyuan or Model Derivatives thereof).
+c.	You must not use, reproduce, modify, distribute, or display the Tencent Hunyuan Works, Output or results of the Tencent Hunyuan Works outside the Territory. Any such use outside the Territory is unlicensed and unauthorized under this Agreement.
+6.	INTELLECTUAL PROPERTY.
+a.	Subject to Tencent’s ownership of Tencent Hunyuan Works made by or for Tencent and intellectual property rights therein, conditioned upon Your compliance with the terms and conditions of this Agreement, as between You and Tencent, You will be the owner of any derivative works and modifications of the Materials and any Model Derivatives that are made by or for You.
+b.	No trademark licenses are granted under this Agreement, and in connection with the Tencent Hunyuan Works, Licensee may not use any name or mark owned by or associated with Tencent or any of its affiliates, except as required for reasonable and customary use in describing and distributing the Tencent Hunyuan Works. Tencent hereby grants You a license to use “Tencent Hunyuan” (the “Mark”) in the Territory solely as required to comply with the provisions of Section 3(c), provided that You comply with any applicable laws related to trademark protection. All goodwill arising out of Your use of the Mark will inure to the benefit of Tencent.
+c.	If You commence a lawsuit or other proceedings (including a cross-claim or counterclaim in a lawsuit) against Us or any person or entity alleging that the Materials or any Output, or any portion of any of the foregoing, infringe any intellectual property or other right owned or licensable by You, then all licenses granted to You under this Agreement shall terminate as of the date such lawsuit or other proceeding is filed. You will defend, indemnify and hold harmless Us from and against any claim by any Third Party arising out of or related to Your or the Third Party’s use or distribution of the Tencent Hunyuan Works.
+d.	Tencent claims no rights in Outputs You generate. You and Your users are solely responsible for Outputs and their subsequent uses.
+7.	DISCLAIMERS OF WARRANTY AND LIMITATIONS OF LIABILITY.
+a.	We are not obligated to support, update, provide training for, or develop any further version of the Tencent Hunyuan Works or to grant any license thereto.
+b.	UNLESS AND ONLY TO THE EXTENT REQUIRED BY APPLICABLE LAW, THE TENCENT HUNYUAN WORKS AND ANY OUTPUT AND RESULTS THEREFROM ARE PROVIDED “AS IS” WITHOUT ANY EXPRESS OR IMPLIED WARRANTIES OF ANY KIND INCLUDING ANY WARRANTIES OF TITLE, MERCHANTABILITY, NONINFRINGEMENT, COURSE OF DEALING, USAGE OF TRADE, OR FITNESS FOR A PARTICULAR PURPOSE. YOU ARE SOLELY RESPONSIBLE FOR DETERMINING THE APPROPRIATENESS OF USING, REPRODUCING, MODIFYING, PERFORMING, DISPLAYING OR DISTRIBUTING ANY OF THE TENCENT HUNYUAN WORKS OR OUTPUTS AND ASSUME ANY AND ALL RISKS ASSOCIATED WITH YOUR OR A THIRD PARTY’S USE OR DISTRIBUTION OF ANY OF THE TENCENT HUNYUAN WORKS OR OUTPUTS AND YOUR EXERCISE OF RIGHTS AND PERMISSIONS UNDER THIS AGREEMENT.
+c.	TO THE FULLEST EXTENT PERMITTED BY APPLICABLE LAW, IN NO EVENT SHALL TENCENT OR ITS AFFILIATES BE LIABLE UNDER ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, TORT, NEGLIGENCE, PRODUCTS LIABILITY, OR OTHERWISE, FOR ANY DAMAGES, INCLUDING ANY DIRECT, INDIRECT, SPECIAL, INCIDENTAL, EXEMPLARY, CONSEQUENTIAL OR PUNITIVE DAMAGES, OR LOST PROFITS OF ANY KIND ARISING FROM THIS AGREEMENT OR RELATED TO ANY OF THE TENCENT HUNYUAN WORKS OR OUTPUTS, EVEN IF TENCENT OR ITS AFFILIATES HAVE BEEN ADVISED OF THE POSSIBILITY OF ANY OF THE FOREGOING.
+8.	SURVIVAL AND TERMINATION.
+a.	The term of this Agreement shall commence upon Your acceptance of this Agreement or access to the Materials and will continue in full force and effect until terminated in accordance with the terms and conditions herein.
+b.	We may terminate this Agreement if You breach any of the terms or conditions of this Agreement. Upon termination of this Agreement, You must promptly delete and cease use of the Tencent Hunyuan Works. Sections 6(a), 6(c), 7 and 9 shall survive the termination of this Agreement.
+9.	GOVERNING LAW AND JURISDICTION.
+a.	This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China, without regard to conflict of law principles, and the UN Convention on Contracts for the International Sale of Goods does not apply to this Agreement.
+b.	Exclusive jurisdiction and venue for any dispute arising out of or relating to this Agreement will be a court of competent jurisdiction in the Hong Kong Special Administrative Region of the People’s Republic of China, and Tencent and Licensee consent to the exclusive jurisdiction of such court with respect to any such dispute.
+EXHIBIT A
+ACCEPTABLE USE POLICY
+Tencent reserves the right to update this Acceptable Use Policy from time to time.
+Last modified: November 5, 2024
+Tencent endeavors to promote safe and fair use of its tools and features, including Tencent Hunyuan. You agree not to use Tencent Hunyuan or Model Derivatives:
+1.	Outside the Territory;
+2.	In any way that violates any applicable national, federal, state, local, international or any other law or regulation;
+3.	To harm Yourself or others;
+4.	To repurpose or distribute output from Tencent Hunyuan or any Model Derivatives to harm Yourself or others;
+5.	To override or circumvent the safety guardrails and safeguards We have put in place;
+6.	For the purpose of exploiting, harming or attempting to exploit or harm minors in any way;
+7.	To generate or disseminate verifiably false information and/or content with the purpose of harming others or influencing elections;
+8.	To generate or facilitate false online engagement, including fake reviews and other means of fake online engagement;
+9.	To intentionally defame, disparage or otherwise harass others;
+10.	To generate and/or disseminate malware (including ransomware) or any other content to be used for the purpose of harming electronic systems;
+11.	To generate or disseminate personal identifiable information with the purpose of harming others;
+12.	To generate or disseminate information (including images, code, posts, articles), and place the information in any public context (including –through the use of bot generated tweets), without expressly and conspicuously identifying that the information and/or content is machine generated;
+13.	To impersonate another individual without consent, authorization, or legal right;
+14.	To make high-stakes automated decisions in domains that affect an individual’s safety, rights or wellbeing (e.g., law enforcement, migration, medicine/health, management of critical infrastructure, safety components of products, essential services, credit, employment, housing, education, social scoring, or insurance);
+15.	In a manner that violates or disrespects the social ethics and moral standards of other countries or regions;
+16.	To perform, facilitate, threaten, incite, plan, promote or encourage violent extremism or terrorism;
+17.	For any use intended to discriminate against or harm individuals or groups based on protected characteristics or categories, online or offline social behavior or known or predicted personal or personality characteristics;
+18.	To intentionally exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm;
+19.	For military purposes;
+20.	To engage in the unauthorized or unlicensed practice of any profession including, but not limited to, financial, legal, medical/health, or other professional practices.
+For the license of other third party components, please refer to the following URL:
+https://github.com/Tencent-Hunyuan/HunyuanVideo-I2V/blob/main/Notice

README.md CHANGED Viewed

@@ -1,12 +1,402 @@
 ---
-title: Voyager
-emoji: 📚
-colorFrom: yellow
-colorTo: indigo
 sdk: gradio
 sdk_version: 5.49.1
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: voyager
+app_file: app.py
 sdk: gradio
 sdk_version: 5.49.1
 ---
+[中文阅读](README_zh.md)
+# **HunyuanWorld-Voyager**
+<p align="center">
+  <img src="assets/teaser.png">
+</p>
+<div align="center">
+  <a href="https://3d-models.hunyuan.tencent.com/world/" target="_blank"><img src="https://img.shields.io/static/v1?label=Project%20Page&message=Web&color=green" height=22px></a>
+  <a href="https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf" target="_blank"><img src="https://img.shields.io/static/v1?label=Tech%20Report&message=arxiv&color=red" height=22px></a>
+  <a href="https://huggingface.co/tencent/HunyuanWorld-Voyager" target="_blank"><img src="https://img.shields.io/static/v1?label=HunyuanWorld-Voyager&message=HuggingFace&color=yellow" height=22px></a>
+</div>
+-----
+We introduce HunyuanWorld-Voyager, a novel video diffusion framework that generates world-consistent 3D point-cloud sequences from a single image with user-defined camera path. Voyager can generate 3D-consistent scene videos for world exploration following custom camera trajectories. It can also generate aligned depth and RGB video for efficient and direct 3D reconstruction.
+## 🔥🔥🔥 News!!
+* October 22, 2025: 👋 We release [HunyuanWorld-1.1 (WorldMirror)](https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror), supporting 3D world creation from videos or multi-view images!
+* October 16, 2025: 👋 We recently propose  [FlashWorld](https://github.com/imlixinyang/FlashWorld), enabling 3DGS world generation in 5~10 seconds on a single GPU!
+* Sep 2, 2025: 👋 We release the code and model weights of HunyuanWorld-Voyager. [Download](ckpts/README.md).
+> Join our **[Wechat](#)** and **[Discord](https://discord.gg/dNBrdrGGMa)** group to discuss and find help from us.
+| Wechat Group                                     | Xiaohongshu                                           | X                                           | Discord                                           |
+|--------------------------------------------------|-------------------------------------------------------|---------------------------------------------|---------------------------------------------------|
+| <img src="assets/qrcode/wechat.png"  height=140> | <img src="assets/qrcode/xiaohongshu.png"  height=140> | <img src="assets/qrcode/x.png"  height=140> | <img src="assets/qrcode/discord.png"  height=140> |
+## 🎥 Demo
+### Demo Video
+<div align="center">
+  <video src="https://github.com/user-attachments/assets/2eb844c9-30ba-4770-8066-189c123affee" width="80%" poster=""> </video>
+</div>
+### Camera-Controllable Video Generation
+|  Input | Generated Video  |
+|:----------------:|:----------------:|
+|  <img src="assets/demo/camera/input1.png" width="80%">        |       <video src="https://github.com/user-attachments/assets/2b03ecd5-9a8f-455c-bf04-c668d3a61b04" width="100%"> </video>        |
+| <img src="assets/demo/camera/input2.png" width="80%">         |       <video src="https://github.com/user-attachments/assets/45844ac0-c65a-4e04-9f7d-4c72d47e0339" width="100%"> </video>        |
+| <img src="assets/demo/camera/input3.png" width="80%">         |       <video src="https://github.com/user-attachments/assets/f7f48473-3bb5-4a30-bd22-af3ca95ee8dc" width="100%"> </video>        |
+### Multiple Applications
+- Video Reconstruction
+| Generated Video | Reconstructed Point Cloud |
+|:---------------:|:--------------------------------:|
+| <video src="https://github.com/user-attachments/assets/72a41804-63fc-4596-963d-1497e68f7790" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/67574e9c-9e21-4ed6-9503-e65d187086a2" width="100%"> </video> |
+- Image-to-3D Generation
+| | |
+|:---------------:|:---------------:|
+| <video src="https://github.com/user-attachments/assets/886aa86d-990e-4b86-97a5-0b9110862d14" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/4c1734ba-4e78-4979-b30e-3c8c97aa984b" width="100%"> </video> |
+- Video Depth Estimation
+| | |
+|:---------------:|:---------------:|
+| <video src="https://github.com/user-attachments/assets/e4c8b729-e880-4be3-826f-429a5c1f12cd" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/7ede0745-cde7-42f1-9c28-e4dca90dac52" width="100%"> </video> |
+## ☯️ **HunyuanWorld-Voyager Introduction**
+###  Architecture
+Voyager consists of two key components:
+(1) World-Consistent Video Diffusion: A unified architecture that jointly generates aligned RGB and depth video sequences, conditioned on existing world observation to ensure global coherence.
+(2) Long-Range World Exploration: An efficient world cache with point culling and an auto-regressive inference with smooth video sampling for iterative scene extension with context-aware consistency.
+To train Voyager, we propose a scalable data engine, i.e., a video reconstruction pipeline that automates camera pose estimation and metric depth prediction for arbitrary videos, enabling large-scale, diverse training data curation without manual 3D annotations. Using this pipeline, we compile a dataset of over 100,000 video clips, combining real-world captures and synthetic Unreal Engine renders.
+<p align="center">
+  <img src="assets/backbone.jpg"  height=500>
+</p>
+### Performance
+<table class="comparison-table">
+  <thead>
+    <tr>
+      <th>Method</th>
+      <th>WorldScore Average</th>
+      <th>Camera Control</th>
+      <th>Object Control</th>
+      <th>Content Alignment</th>
+      <th>3D Consistency</th>
+      <th>Photometric Consistency</th>
+      <th>Style Consistency</th>
+      <th>Subjective Quality</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td>WonderJourney</td>
+      <td>🟡63.75</td>
+      <td>🟡84.6</td>
+      <td>37.1</td>
+      <td>35.54</td>
+      <td>80.6</td>
+      <td>79.03</td>
+      <td>62.82</td>
+      <td>🟢66.56</td>
+    </tr>
+    <tr>
+      <td>WonderWorld</td>
+      <td>🟢72.69</td>
+      <td>🔴92.98</td>
+      <td>51.76</td>
+      <td>🔴71.25</td>
+      <td>🔴86.87</td>
+      <td>85.56</td>
+      <td>70.57</td>
+      <td>49.81</td>
+    </tr>
+    <tr>
+      <td>EasyAnimate</td>
+      <td>52.85</td>
+      <td>26.72</td>
+      <td>54.5</td>
+      <td>50.76</td>
+      <td>67.29</td>
+      <td>47.35</td>
+      <td>🟡73.05</td>
+      <td>50.31</td>
+    </tr>
+    <tr>
+      <td>Allegro</td>
+      <td>55.31</td>
+      <td>24.84</td>
+      <td>🟡57.47</td>
+      <td>🟡51.48</td>
+      <td>70.5</td>
+      <td>69.89</td>
+      <td>65.6</td>
+      <td>47.41</td>
+    </tr>
+    <tr>
+      <td>Gen-3</td>
+      <td>60.71</td>
+      <td>29.47</td>
+      <td>🟢62.92</td>
+      <td>50.49</td>
+      <td>68.31</td>
+      <td>🟢87.09</td>
+      <td>62.82</td>
+      <td>🟡63.85</td>
+    </tr>
+    <tr>
+      <td>CogVideoX-I2V</td>
+      <td>62.15</td>
+      <td>38.27</td>
+      <td>40.07</td>
+      <td>36.73</td>
+      <td>🟢86.21</td>
+      <td>🔴88.12</td>
+      <td>🟢83.22</td>
+      <td>62.44</td>
+    </tr>
+    <tr class="voyager-row">
+      <td><b>Voyager</b></td>
+      <td>🔴77.62</td>
+      <td>🟢85.95</td>
+      <td>🔴66.92</td>
+      <td>🟢68.92</td>
+      <td>🟡81.56</td>
+      <td>🟡85.99</td>
+      <td>🔴84.89</td>
+      <td>🔴71.09</td>
+    </tr>
+  </tbody>
+  <caption>Quantitative comparison on <i>WorldScore Benchmark</i>. 🔴 indicates the 1st, 🟢 indicates the 2nd, 🟡 indicates the 3rd.</caption>
+</table>
+## 📜 Requirements
+The following table shows the requirements for running Voyager (batch size = 1) to generate videos:
+|      Model       | Resolution  | GPU Peak Memory  |
+|:----------------:|:-----------:|:----------------:|
+| HunyuanWorld-Voyager |    540p     |       60GB        |
+* An NVIDIA GPU with CUDA support is required.
+  * The model is tested on a single 80G GPU.
+  * **Minimum**: The minimum GPU memory required is 60GB for 540p.
+  * **Recommended**: We recommend using a GPU with 80GB of memory for better generation quality.
+* Tested operating system: Linux
+## 🛠️ Dependencies and Installation
+Begin by cloning the repository:
+```shell
+git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
+cd HunyuanWorld-Voyager
+```
+### Installation Guide for Linux
+We recommend CUDA versions 12.4 or 11.8 for the manual installation.
+```shell
+# 1. Create conda environment
+conda create -n voyager python==3.11.9
+# 2. Activate the environment
+conda activate voyager
+# 3. Install PyTorch and other dependencies using conda
+# For CUDA 12.4
+conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia
+# 4. Install pip dependencies
+python -m pip install -r requirements.txt
+python -m pip install transformers==4.39.3
+# 5. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)
+python -m pip install flash-attn
+# 6. Install xDiT for parallel inference (It is recommended to use torch 2.4.0 and flash-attn 2.6.3)
+python -m pip install xfuser==0.4.2
+```
+In case of running into float point exception(core dump) on the specific GPU type, you may try the following solutions:
+```shell
+# Making sure you have installed CUDA 12.4, CUBLAS>=12.4.5.8, and CUDNN>=9.00 (or simply using our CUDA 12 docker image).
+pip install nvidia-cublas-cu12==12.4.5.8
+export LD_LIBRARY_PATH=/opt/conda/lib/python3.8/site-packages/nvidia/cublas/lib/
+```
+To create your own input conditions, you also need to install the following dependencies:
+```shell
+pip install --no-deps git+https://github.com/microsoft/MoGe.git
+pip install scipy==1.11.4
+pip install git+https://github.com/EasternJournalist/utils3d.git@c5daf6f6c244d251f252102d09e9b7bcef791a38
+```
+## 🧱 Download Pretrained Models
+A detailed guidance for downloading pretrained models is shown [here](ckpts/README.md). Briefly,
+```
+huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
+```
+## 🔑 Inference
+### Create Input Condition
+We provide several input examples in the `examples` folder. You can find the corresponding input text in the `prompt.txt` file. If you'd like to use your own input image, you can run the following command:
+```bash
+cd data_engine
+python3 create_input.py --image_path "your_input_image" --render_output_dir "examples/case/" --type "forward"
+```
+We provide the following types of camera path:
+- forward
+- backward
+- left
+- right
+- turn_left
+- turn_right
+You can also modify the camera path in the `create_input.py` file.
+### Single-GPU Inference
+```bash
+cd HunyuanWorld-Voyager
+python3 sample_image2video.py \
+    --model HYVideo-T/2 \
+    --input-path "examples/case1" \
+    --prompt "An old-fashioned European village with thatched roofs on the houses." \
+    --i2v-stability \
+    --infer-steps 50 \
+    --flow-reverse \
+    --flow-shift 7.0 \
+    --seed 0 \
+    --embedded-cfg-scale 6.0 \
+    --use-cpu-offload \
+    --save-path ./results
+```
+You can add "--use-context-block" to add the context block in the inference.
+### Parallel Inference on Multiple GPUs by xDiT
+[xDiT](https://github.com/xdit-project/xDiT) is a Scalable Inference Engine for Diffusion Transformers (DiTs) on multi-GPU Clusters.
+It has successfully provided low-latency parallel inference solutions for a variety of DiTs models, including mochi-1, CogVideoX, Flux.1, SD3, etc. This repo adopted the [Unified Sequence Parallelism (USP)](https://arxiv.org/abs/2405.07719) APIs for parallel inference of the HunyuanVideo-I2V model.
+For example, to generate a video with 8 GPUs, you can use the following command:
+```bash
+cd HunyuanWorld-Voyager
+ALLOW_RESIZE_FOR_SP=1 torchrun --nproc_per_node=8 \
+    sample_image2video.py \
+    --model HYVideo-T/2 \
+    --input-path "examples/case1" \
+    --prompt "An old-fashioned European village with thatched roofs on the houses." \
+    --i2v-stability \
+    --infer-steps 50 \
+    --flow-reverse \
+    --flow-shift 7.0 \
+    --seed 0 \
+    --embedded-cfg-scale 6.0 \
+    --save-path ./results \
+    --ulysses-degree 8 \
+    --ring-degree 1
+```
+The number of GPUs equals the product of `--ulysses-degree` and `--ring-degree.` Feel free to adjust these parallel configurations to optimize performance.
+<p align="center">
+<table align="center">
+<thead>
+<tr>
+    <th colspan="4">Latency (Sec) for 512x768 (49 frames 50 steps) on 8 x H20 GPU</th>
+</tr>
+<tr>
+    <th>1</th>
+    <th>2</th>
+    <th>4</th>
+    <th>8</th>
+</tr>
+</thead>
+<tbody>
+<tr>
+    <th>1925</th>
+    <th>1018 (1.89x)</th>
+    <th>534 (3.60x)</th>
+    <th>288 (6.69x)</th>
+</tr>
+</tbody>
+</table>
+</p>
+### Gradio Demo
+We also provide a Gradio demo for the HunyuanWorld-Voyager model.
+<p align="center">
+  <img src="assets/gradio.png"  height=500>
+</p>
+You can run the following command to start the demo:
+```bash
+cd HunyuanWorld-Voyager
+python3 app.py
+```
+You need to first upload an image and choose a camera direction to create a condition video. Then, you can type your text prompt and generate the final RGB-D video.
+### Export Point Cloud
+After generating RGB-D video content, you can export `ply` file as follows:
+```bash
+cd data_engine
+python3 convert_point.py --folder_path "your_input_condition_folder" --video_path "your_output_video_path"
+```
+## ⚙️ Data Engine
+We also release the data engine of HunyuanWorld-Voyager, which can be used to generate scalable data for RGB-D video training. Please refer to [data_engine](data_engine/README.md) for more details.
+<p align="center">
+  <img src="assets/data_engine.jpg"  height=500>
+</p>
+## 🔗 BibTeX
+If you find [Voyager](https://arxiv.org/abs/2506.04225) useful for your research and applications, please cite using this BibTeX:
+```BibTeX
+@article{huang2025voyager,
+  title={Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation},
+  author={Huang, Tianyu and Zheng, Wangguandong and Wang, Tengfei and Liu, Yuhao and Wang, Zhenwei and Wu, Junta and Jiang, Jie and Li, Hui and Lau, Rynson WH and Zuo, Wangmeng and Guo, Chunchao},
+  journal={arXiv preprint arXiv:2506.04225},
+  year={2025}
+}
+```
+## 📧 Contact
+Please send emails to [email protected] if there is any question
+## Acknowledgements
+We would like to thank [HunyuanWorld](https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0), [Hunyuan3D](https://github.com/Tencent-Hunyuan/Hunyuan3D-2), and [HunyuanVideo](https://github.com/Tencent-Hunyuan/HunyuanVideo-I2V). We also thank [VGGT](https://github.com/facebookresearch/vggt), [MoGE](https://github.com/microsoft/MoGe), [Metric3D](https://github.com/YvanYin/Metric3D), for their open research and exploration.

README_zh.md ADDED Viewed

	@@ -0,0 +1,395 @@

+[English](README.md)
+# **HunyuanWorld-Voyager**
+<p align="center">
+  <img src="assets/teaser_zh.png">
+</p>
+<div align="center">
+  <a href="https://3d-models.hunyuan.tencent.com/world/"><img src="https://img.shields.io/static/v1?label=Project%20Page&message=Web&color=green"></a> &ensp;
+  <a href="https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf" target="_blank"><img src="https://img.shields.io/static/v1?label=Tech%20Report&message=arxiv&color=red" height=22px></a>
+  <a href="https://huggingface.co/tencent/HunyuanWorld-Voyager"><img src="https://img.shields.io/static/v1?label=HunyuanWorld-Voyager&message=HuggingFace&color=yellow"></a>
+</div>
+-----
+我们正式发布混元世界模型-Voyager（HunyuanWorld-Voyager），一种创新的视频扩散框架。该模型能够基于单张输入图像生成具有世界一致性的3D点云，并支持用户按照自定义的相机路径进行沉浸式世界探索。同时，HunyuanWorld-Voyager 还能够同时生成精确对齐的深度信息与RGB视频，无需后处理即可直接用于实时、高质量三维重建。
+## 🔥🔥🔥 最新消息!!
+* Sep 2, 2025: 👋 我们发布了HunyuanWorld-Voyager的推理代码和模型权重。[下载](ckpts/README.md).
+ 微信群 and Discord 社区
+> 加入我们的 **[微信群](#)** 和 **[Discord 社区](https://discord.gg/dNBrdrGGMa)** 讨论，获取最新进展以及帮助吧。
+| 微信群                                            | 小红书                                                 | X                                           | Discord                                           |
+|--------------------------------------------------|-------------------------------------------------------|---------------------------------------------|---------------------------------------------------|
+| <img src="assets/qrcode/wechat.png"  height=140> | <img src="assets/qrcode/xiaohongshu.png"  height=140> | <img src="assets/qrcode/x.png"  height=140> | <img src="assets/qrcode/discord.png"  height=140> |
+## 🎥 演示
+### 演示视频
+<div align="center">
+  <video src="https://github.com/user-attachments/assets/d095a4fd-22a6-41c6-bedd-3e45b468eb98" width="80%" poster=""> </video>
+</div>
+### 相机可控视频生成
+|  输入 | 生成视频  |
+|:----------------:|:----------------:|
+|  <img src="assets/demo/camera/input1.png" width="80%">        |       <video src="https://github.com/user-attachments/assets/2b03ecd5-9a8f-455c-bf04-c668d3a61b04" width="100%"> </video>        |
+| <img src="assets/demo/camera/input2.png" width="80%">         |       <video src="https://github.com/user-attachments/assets/45844ac0-c65a-4e04-9f7d-4c72d47e0339" width="100%"> </video>        |
+| <img src="assets/demo/camera/input3.png" width="80%">         |       <video src="https://github.com/user-attachments/assets/f7f48473-3bb5-4a30-bd22-af3ca95ee8dc" width="100%"> </video>        |
+### 多样化应用
+- 视频重建
+| 生成视频 | 重建点云 |
+|:---------------:|:--------------------------------:|
+| <video src="https://github.com/user-attachments/assets/72a41804-63fc-4596-963d-1497e68f7790" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/67574e9c-9e21-4ed6-9503-e65d187086a2" width="100%"> </video> |
+- 图像到3D生成
+| | |
+|:---------------:|:---------------:|
+| <video src="https://github.com/user-attachments/assets/886aa86d-990e-4b86-97a5-0b9110862d14" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/4c1734ba-4e78-4979-b30e-3c8c97aa984b" width="100%"> </video> |
+- 视频深度估计
+| | |
+|:---------------:|:---------------:|
+| <video src="https://github.com/user-attachments/assets/e4c8b729-e880-4be3-826f-429a5c1f12cd" width="100%"> </video> | <video src="https://github.com/user-attachments/assets/7ede0745-cde7-42f1-9c28-e4dca90dac52" width="100%"> </video> |
+## ☯️ **混元世界模型-Voyager 介绍**
+### 架构
+HunyuanWorld-Voyager 包含两个关键组件：
+(1) 世界一致的视频扩散：提出了一种统一的架构，能够基于现有世界观测，同时生成精确对齐的RGB视频与深度视频序列，并确保全局场景的一致性。
+(2) 长距离世界探索：提出了一种高效的世界缓存机制，该机制融合了点云剔除与自回归推理能力，可支持迭代式的场景扩展，并通过上下文感知的一致性技术实现平滑的视频采样。
+为训练 HunyuanWorld-Voyager 模型，我们构建了一套可扩展的数据构建引擎——该引擎是一个自动化视频重建流水线，能够对任意输入视频自动估计相机位姿以及度量深度，从而无需依赖人工标注，即可实现大规模、多样化训练数据的构建。
+基于此流水线，HunyuanWorld-Voyager 整合了真实世界采集与虚幻引擎渲染的视频资源，构建了一个包含超过10 万个视频片段的大规模数据集。
+<p align="center">
+  <img src="assets/backbone.jpg"  height=500>
+</p>
+### 性能
+<table class="comparison-table">
+  <thead>
+    <tr>
+      <th>Method</th>
+      <th>WorldScore Average</th>
+      <th>Camera Control</th>
+      <th>Object Control</th>
+      <th>Content Alignment</th>
+      <th>3D Consistency</th>
+      <th>Photometric Consistency</th>
+      <th>Style Consistency</th>
+      <th>Subjective Quality</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td>WonderJourney</td>
+      <td>🟡63.75</td>
+      <td>🟡84.6</td>
+      <td>37.1</td>
+      <td>35.54</td>
+      <td>80.6</td>
+      <td>79.03</td>
+      <td>62.82</td>
+      <td>🟢66.56</td>
+    </tr>
+    <tr>
+      <td>WonderWorld</td>
+      <td>🟢72.69</td>
+      <td>🔴92.98</td>
+      <td>51.76</td>
+      <td>🔴71.25</td>
+      <td>🔴86.87</td>
+      <td>85.56</td>
+      <td>70.57</td>
+      <td>49.81</td>
+    </tr>
+    <tr>
+      <td>EasyAnimate</td>
+      <td>52.85</td>
+      <td>26.72</td>
+      <td>54.5</td>
+      <td>50.76</td>
+      <td>67.29</td>
+      <td>47.35</td>
+      <td>🟡73.05</td>
+      <td>50.31</td>
+    </tr>
+    <tr>
+      <td>Allegro</td>
+      <td>55.31</td>
+      <td>24.84</td>
+      <td>🟡57.47</td>
+      <td>🟡51.48</td>
+      <td>70.5</td>
+      <td>69.89</td>
+      <td>65.6</td>
+      <td>47.41</td>
+    </tr>
+    <tr>
+      <td>Gen-3</td>
+      <td>60.71</td>
+      <td>29.47</td>
+      <td>🟢62.92</td>
+      <td>50.49</td>
+      <td>68.31</td>
+      <td>🟢87.09</td>
+      <td>62.82</td>
+      <td>🟡63.85</td>
+    </tr>
+    <tr>
+      <td>CogVideoX-I2V</td>
+      <td>62.15</td>
+      <td>38.27</td>
+      <td>40.07</td>
+      <td>36.73</td>
+      <td>🟢86.21</td>
+      <td>🔴88.12</td>
+      <td>🟢83.22</td>
+      <td>62.44</td>
+    </tr>
+    <tr class="voyager-row">
+      <td><b>Voyager</b></td>
+      <td>🔴77.62</td>
+      <td>🟢85.95</td>
+      <td>🔴66.92</td>
+      <td>🟢68.92</td>
+      <td>🟡81.56</td>
+      <td>🟡85.99</td>
+      <td>🔴84.89</td>
+      <td>🔴71.09</td>
+    </tr>
+  </tbody>
+  <caption><i>WorldScore Benchmark</i>的定量比较结果. 🔴 表示第1名, 🟢 表示第2名, 🟡 表示第3名.</caption>
+</table>
+## 📜 要求
+以下表格展示了运行Voyager（批量大小 = 1）生成视频的要求：
+|      模型       | 分辨率  | GPU 峰值内存  |
+|:----------------:|:-----------:|:----------------:|
+| 混元世界模型-Voyager |    540p     |       60GB        |
+* 需要NVIDIA GPU支持CUDA。
+  * 模型在单个80G GPU上测试。
+  * **最小值**: 最小GPU内存要求为540p的60GB。
+  * **推荐**: 我们推荐使用80GB内存的GPU以获得更好的生成质量。
+* 测试操作系统: Linux
+## 🛠️ 依赖和安装
+首先克隆仓库：
+```shell
+git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
+cd HunyuanWorld-Voyager
+```
+### Linux 安装指南
+我们推荐CUDA版本12.4或11.8进行手动安装。
+```shell
+# 1. Create conda environment
+conda create -n voyager python==3.11.9
+# 2. Activate the environment
+conda activate voyager
+# 3. Install PyTorch and other dependencies using conda
+# For CUDA 12.4
+conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia
+# 4. Install pip dependencies
+python -m pip install -r requirements.txt
+python -m pip install transformers==4.39.3
+# 5. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)
+python -m pip install flash-attn
+# 6. Install xDiT for parallel inference (It is recommended to use torch 2.4.0 and flash-attn 2.6.3)
+python -m pip install xfuser==0.4.2
+```
+在特定GPU类型上运行时，如果出现浮点异常（core dump），您可以尝试以下解决方案：
+```shell
+# Making sure you have installed CUDA 12.4, CUBLAS>=12.4.5.8, and CUDNN>=9.00 (or simply using our CUDA 12 docker image).
+pip install nvidia-cublas-cu12==12.4.5.8
+export LD_LIBRARY_PATH=/opt/conda/lib/python3.8/site-packages/nvidia/cublas/lib/
+```
+为了创建自己的输入条件，您还需要安装以下依赖：
+```shell
+pip install --no-deps git+https://github.com/microsoft/MoGe.git
+pip install scipy==1.11.4
+pip install git+https://github.com/EasternJournalist/utils3d.git@c5daf6f6c244d251f252102d09e9b7bcef791a38
+```
+## 🧱 下载预训练模型
+下载预训练模型的详细信息请参考[这里](ckpts/README.md)。简单来讲，
+```
+huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
+```
+## 🔑 推理
+### 创建输入条件
+```bash
+cd data_engine
+python3 create_input.py --image_path "your_input_image" --render_output_dir "examples/case/" --type "forward"
+```
+我们提供了以下类型的相机路径：
+- forward
+- backward
+- left
+- right
+- turn_left
+- turn_right
+您也可以在`create_input.py`文件中修改相机路径。
+### 单GPU推理
+```bash
+cd HunyuanWorld-Voyager
+python3 sample_image2video.py \
+    --model HYVideo-T/2 \
+    --input-path "examples/case1" \
+    --prompt "An old-fashioned European village with thatched roofs on the houses." \
+    --i2v-stability \
+    --infer-steps 50 \
+    --flow-reverse \
+    --flow-shift 7.0 \
+    --seed 0 \
+    --embedded-cfg-scale 6.0 \
+    --use-cpu-offload \
+    --save-path ./results
+```
+您可以添加"--use-context-block"来添加推理中的上下文块。
+### 多GPU并行推理
+[xDiT](https://github.com/xdit-project/xDiT) 是一个可扩展的推理引擎，用于多GPU集群上的扩散Transformer（DiTs）。
+它成功地为各种DiTs模型（包括mochi-1、CogVideoX、Flux.1、SD3等）提供了低延迟的并行推理解决方案。这个仓库采用了[统一序列并行（USP）](https://arxiv.org/abs/2405.07719) API来并行推理HunyuanVideo-I2V模型。
+例如，要使用8个GPU生成视频，您可以使用以下命令：
+```bash
+cd HunyuanWorld-Voyager
+ALLOW_RESIZE_FOR_SP=1 torchrun --nproc_per_node=8 \
+    sample_image2video.py \
+    --model HYVideo-T/2 \
+    --input-path "examples/case1" \
+    --prompt "An old-fashioned European village with thatched roofs on the houses." \
+    --i2v-stability \
+    --infer-steps 50 \
+    --flow-reverse \
+    --flow-shift 7.0 \
+    --seed 0 \
+    --embedded-cfg-scale 6.0 \
+    --save-path ./results \
+    --ulysses-degree 8 \
+    --ring-degree 1
+```
+GPU数量等于`--ulysses-degree`和`--ring-degree`的乘积。您可以自由调整这些并行配置以优化性能。
+<p align="center">
+<table align="center">
+<thead>
+<tr>
+    <th colspan="4">512x768（49帧，50步）在8 x H20 GPU上的延迟（秒）</th>
+</tr>
+<tr>
+    <th>1</th>
+    <th>2</th>
+    <th>4</th>
+    <th>8</th>
+</tr>
+</thead>
+<tbody>
+<tr>
+    <th>1925</th>
+    <th>1018 (1.89x)</th>
+    <th>534 (3.60x)</th>
+    <th>288 (6.69x)</th>
+</tr>
+</tbody>
+</table>
+</p>
+### Gradio 演示
+我们也提供了一个Gradio演示，
+<p align="center">
+  <img src="assets/gradio.png"  height=500>
+</p>
+您可以使用以下命令启动：
+```bash
+cd HunyuanWorld-Voyager
+python3 app.py
+```
+您需要首先上传一张图片并选择相机的运动方向，来生成一个条件视频。接下来，您就可以输入文本提示词来生成最终的RGB-D视频。
+### 导出点云
+生成RGB-D视频结果之后，你可以用如下方式导出`ply`文件:
+```bash
+cd data_engine
+python3 convert_point.py --folder_path "your_input_condition_folder" --video_path "your_output_video_path"
+```
+## ⚙️ 数据引擎
+我们发布了混元世界模型-Voyager的数据引擎，可以用于生成可扩展的RGB-D视频训练数据。请参考[data_engine](data_engine/README.md)了解更多细节。
+<p align="center">
+  <img src="assets/data_engine.jpg"  height=500>
+</p>
+## 🔗 引用
+如果您发现[Voyager](https://arxiv.org/abs/2506.04225)对您的研究或应用有用，请使用以下BibTeX引用：
+```BibTeX
+@article{huang2025voyager,
+  title={Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation},
+  author={Huang, Tianyu and Zheng, Wangguandong and Wang, Tengfei and Liu, Yuhao and Wang, Zhenwei and Wu, Junta and Jiang, Jie and Li, Hui and Lau, Rynson WH and Zuo, Wangmeng and Guo, Chunchao},
+  journal={arXiv preprint arXiv:2506.04225},
+  year={2025}
+}
+```
+## 致谢
+我们感谢[HunyuanWorld](https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0)、[Hunyuan3D-2](https://github.com/Tencent-Hunyuan/Hunyuan3D-2)和[HunyuanVideo-I2V](https://github.com/Tencent-Hunyuan/HunyuanVideo-I2V)。我们也感谢[VGGT](https://github.com/facebookresearch/vggt)、[MoGE](https://github.com/microsoft/MoGe)、[Metric3D](https://github.com/YvanYin/Metric3D)的贡献者。

app.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import gradio as gr
+def demo_fn(texto):
+    return f"Respuesta del modelo a: {texto}"
+demo = gr.Interface(
+    fn=demo_fn,
+    inputs="text",
+    outputs="text",
+    title="HunyuanWorld-Voyager Demo",
+    description="Demostración del modelo real"
+)
+if __name__ == "__main__":
+    demo.launch()

assets/HYWorld_Voyager.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44223eb320d2fa8f4f1721d4058f0c270d3d2f7dc1da3508e8a586fac70e7bdc
+size 37966526

assets/backbone.jpg ADDED Viewed

Git LFS Details

SHA256: c0a5139d78a7488547473970c19260694fff90890a649c7e904ff249f3e464ea
Pointer size: 132 Bytes
Size of remote file: 1.22 MB

assets/data_engine.jpg ADDED Viewed

Git LFS Details

SHA256: 28e094093d8383acf393556bab6497a4969889b282e90ea6e71921a089092c94
Pointer size: 131 Bytes
Size of remote file: 773 kB

assets/demo/camera/input1.png ADDED Viewed

Git LFS Details

SHA256: e2ae970622a8d8750d1d2a06dc5a1415a79ae43790e8dd4b1ea65d40f730fb86
Pointer size: 132 Bytes
Size of remote file: 1.55 MB

assets/demo/camera/input2.png ADDED Viewed

Git LFS Details

SHA256: 24ecb4118b96c1082f24a9912ede04cb5189344e98148a19c5856459d14b52db
Pointer size: 132 Bytes
Size of remote file: 1.58 MB

assets/demo/camera/input3.png ADDED Viewed

Git LFS Details

SHA256: 3b496461509ba67e249eb636fe93477864e2d667225382d5fd5a2508c36d37d3
Pointer size: 132 Bytes
Size of remote file: 1.42 MB

assets/gradio.png ADDED Viewed

Git LFS Details

SHA256: 7896c33cf0c718a37a7093370e5f2ee714cbd8e6c45d5cda5859487ff451145d
Pointer size: 132 Bytes
Size of remote file: 3.33 MB

assets/qrcode/discord.png ADDED Viewed

assets/qrcode/wechat.png ADDED Viewed

assets/qrcode/x.png ADDED Viewed

assets/qrcode/xiaohongshu.png ADDED Viewed

assets/teaser.png ADDED Viewed

Git LFS Details

SHA256: 04771c0f2ff35e5c63945a034ae8418a45d14e736ebc1694c7e30eb63c318a9f
Pointer size: 131 Bytes
Size of remote file: 840 kB

assets/teaser_zh.png ADDED Viewed

Git LFS Details

SHA256: 0f7b97305dc854c6a5f557dc81e87b98432985bf6b1fe4cd6fba46eac4d074fa
Pointer size: 131 Bytes
Size of remote file: 837 kB

ckpts/README.md ADDED Viewed

	@@ -0,0 +1,57 @@

+All models are stored in `HunyuanWorld-Voyager/ckpts` by default, and the file structure is as follows
+```shell
+HunyuanWorld-Voyager
+  ├──ckpts
+  │  ├──README.md
+  │  ├──Voyager
+  │  │  ├──transformers
+  │  │  │  ├──mp_rank_00_model_states.pt
+  │  │  │  ├──mp_rank_00_model_states_context.pt
+  │  ├──hunyuan-video-i2v-720p
+  │  │  ├──vae
+  │  ├──text_encoder_i2v
+  │  ├──text_encoder_2
+  ├──...
+```
+## Download HunyuanWorld-Voyager model
+To download the HunyuanWorld-Voyager model, first install the huggingface-cli. (Detailed instructions are available [here](https://huggingface.co/docs/huggingface_hub/guides/cli).)
+```shell
+python -m pip install "huggingface_hub[cli]"
+```
+Then download the model using the following commands:
+```shell
+# Switch to the directory named 'HunyuanWorld-Voyager'
+cd HunyuanWorld-Voyager
+# Use the huggingface-cli tool to download HunyuanWorld-Voyager model in HunyuanWorld-Voyager/ckpts dir.
+# The download time may vary from 10 minutes to 1 hour depending on network conditions.
+huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
+```
+<details>
+<summary>💡Tips for using huggingface-cli (network problem)</summary>
+##### 1. Using HF-Mirror
+If you encounter slow download speeds in China, you can try a mirror to speed up the download process. For example,
+```shell
+HF_ENDPOINT=https://hf-mirror.com huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
+```
+##### 2. Resume Download
+`huggingface-cli` supports resuming downloads. If the download is interrupted, you can just rerun the download
+command to resume the download process.
+Note: If an `No such file or directory: 'ckpts/.huggingface/.gitignore.lock'` like error occurs during the download
+process, you can ignore the error and rerun the download command.
+</details>

data_engine/README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+This is the data engine for processing training data of Voyager.
+## 🛠️ Dependencies and Installation
+Begin by cloning required repositories:
+```shell
+# VGGT
+git clone https://github.com/facebookresearch/vggt.git
+touch vggt/vggt/__init__.py  # create an empty init.py
+# MoGe
+git clone https://github.com/microsoft/MoGe.git
+# Metric3D
+git clone https://github.com/YvanYin/Metric3D.git
+# comment out line 8-12 in Metric3D/mono/utils/comm.py
+# add from mono.model.backbones import * to Metric3D/mono/utils/comm.py
+```
+Install required dependencies:
+```shell
+conda create -n data_engine python=3.10
+conda activate data_engine
+pip install -r requirements.txt
+```
+## 🛠️ Install Environment
+```shell
+# project path
+cd data_engine
+# VGGT
+git clone https://github.com/facebookresearch/vggt.git
+touch vggt/vggt/__init__.py
+# MoGe
+git clone https://github.com/microsoft/MoGe.git
+# Metric3D
+git clone https://github.com/YvanYin/Metric3D.git
+# !!! important steps:
+# comment out line 8-12 in Metric3D/mono/utils/comm.py
+# and then add from mono.model.backbones import * to Metric3D/mono/utils/comm.py
+# pip install environment
+conda create -n voyager_dataengine python=3.10
+conda activate voyager_dataengine
+pip install -r requirements.txt
+# run dataEngine
+bash dataEngine.sh
+```
+## 🔑 Run Data Engine
+We provide a script to run the data engine.
+```shell
+bash run.sh
+```

data_engine/convert_point.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import argparse
+import os
+import json
+import numpy as np
+import imageio
+from create_input import depth_to_world_coords_points, camera_list
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--folder_path", type=str)
+    parser.add_argument("--video_path", type=str)
+    parser.add_argument("--frame_id", type=int, default=0)
+    parser.add_argument("--max_depth", type=float, default=25)
+    return parser.parse_args()
+def save_ply(points: np.ndarray, colors: np.ndarray, out_path: str):
+    os.makedirs(os.path.dirname(out_path), exist_ok=True)
+    n = points.shape[0]
+    colors = np.clip(colors, 0, 255).astype(np.uint8)
+    header = (
+        "ply\n"
+        "format ascii 1.0\n"
+        f"element vertex {n}\n"
+        "property float x\n"
+        "property float y\n"
+        "property float z\n"
+        "property uchar red\n"
+        "property uchar green\n"
+        "property uchar blue\n"
+        "end_header\n"
+    )
+    with open(out_path, "w") as f:
+        f.write(header)
+        for p, c in zip(points, colors):
+            f.write(f"{float(p[0])} {float(p[1])} {float(p[2])} {int(c[0])} {int(c[1])} {int(c[2])}\n")
+if __name__ == "__main__":
+    args = parse_args()
+    folder_path = args.folder_path
+    video_path = args.video_path
+    frame_id = args.frame_id
+    max_depth = args.max_depth
+    reader = imageio.v2.get_reader(video_path)
+    for i, frame in enumerate(reader):
+        if i == frame_id:
+            frame = frame.astype(np.uint8)
+            break
+    with open(os.path.join(folder_path, "depth_range.json"), "r") as f:
+        depth_range = json.load(f)[frame_id]
+    rgb = frame[:512]
+    depth = frame[512:, :, 0] / 255.0
+    depth = depth * (depth_range[1] - depth_range[0]) + depth_range[0]
+    depth = 1 / (depth + 1e-6)
+    valid_mask = np.logical_and(depth > 0, depth < max_depth)
+    intrinsics, extrinsics = camera_list(
+        num_frames=1, type="forward", Width=512, Height=512, fx=256, fy=256
+    )
+    point_map = depth_to_world_coords_points(depth, extrinsics[0], intrinsics[0])
+    points = point_map[valid_mask].reshape(-1, 3)
+    colors = rgb[valid_mask].reshape(-1, 3)
+    out_ply = os.path.join(folder_path, f"frame_{frame_id:06d}.ply")
+    save_ply(points, colors, out_ply)
+    print(f"Saved point cloud: {out_ply}, number of points: {points.shape[0]}")

data_engine/create_input.py ADDED Viewed

	@@ -0,0 +1,391 @@

+import numpy as np
+from PIL import Image
+import torch
+import argparse
+import os
+import json
+import imageio
+import pyexr
+import cv2
+try:
+    from moge.model.v1 import MoGeModel
+except:
+    from MoGe.moge.model.v1 import MoGeModel
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--image_path", type=str, default="./example.png")
+    parser.add_argument("--render_output_dir", type=str, default="../demo/example/")
+    parser.add_argument("--type", type=str, default="forward",
+        choices=["forward", "backward", "left", "right", "turn_left", "turn_right"])
+    return parser.parse_args()
+def camera_list(
+    num_frames=49,
+    type="forward",
+    Width=512,
+    Height=512,
+    fx=256,
+    fy=256
+):
+    assert type in ["forward", "backward", "left", "right", "turn_left", "turn_right"], "Invalid camera type"
+    start_pos = np.array([0, 0, 0])
+    end_pos = np.array([0, 0, 0])
+    if type == "forward":
+        end_pos = np.array([0, 0, 1])
+    elif type == "backward":
+        end_pos = np.array([0, 0, -1])
+    elif type == "left":
+        end_pos = np.array([-1, 0, 0])
+    elif type == "right":
+        end_pos = np.array([1, 0, 0])
+    cx = Width // 2
+    cy = Height // 2
+    intrinsic = np.array([
+        [fx, 0, cx],
+        [0, fy, cy],
+        [0, 0, 1]
+    ])
+    intrinsics = np.stack([intrinsic] * num_frames)
+    # Interpolate camera positions along a straight line
+    camera_centers = np.linspace(start_pos, end_pos, num_frames)
+    target_start = np.array([0, 0, 100])  # Target point
+    if type == "turn_left":
+        target_end = np.array([-100, 0, 0])
+    elif type == "turn_right":
+        target_end = np.array([100, 0, 0])
+    else:
+        target_end = np.array([0, 0, 100])
+    target_points = np.linspace(target_start, target_end, num_frames * 2)[:num_frames]
+    extrinsics = []
+    for t, target_point in zip(camera_centers, target_points):
+        if type == "left" or type == "right":
+            target_point = t + target_point
+        z = (target_point - t)
+        z = z / np.linalg.norm(z)
+        x = np.array([1, 0, 0])
+        y = np.cross(z, x)
+        y = y / np.linalg.norm(y)
+        x = np.cross(y, z)
+        R = np.stack([x, y, z], axis=0)
+        w2c = np.eye(4)
+        w2c[:3, :3] = R
+        w2c[:3, 3] = -R @ t
+        extrinsics.append(w2c)
+    extrinsics = np.stack(extrinsics)
+    return intrinsics, extrinsics
+# from VGGT: https://github.com/facebookresearch/vggt/blob/main/vggt/utils/geometry.py
+def depth_to_cam_coords_points(depth_map: np.ndarray, intrinsic: np.ndarray) -> tuple[np.ndarray, np.ndarray]:
+    """
+    Convert a depth map to camera coordinates.
+    Args:
+        depth_map (np.ndarray): Depth map of shape (H, W).
+        intrinsic (np.ndarray): Camera intrinsic matrix of shape (3, 3).
+    Returns:
+        tuple[np.ndarray, np.ndarray]: Camera coordinates (H, W, 3)
+    """
+    H, W = depth_map.shape
+    assert intrinsic.shape == (3, 3), "Intrinsic matrix must be 3x3"
+    assert intrinsic[0, 1] == 0 and intrinsic[1, 0] == 0, "Intrinsic matrix must have zero skew"
+    # Intrinsic parameters
+    fu, fv = intrinsic[0, 0], intrinsic[1, 1]
+    cu, cv = intrinsic[0, 2], intrinsic[1, 2]
+    # Generate grid of pixel coordinates
+    u, v = np.meshgrid(np.arange(W), np.arange(H))
+    # Unproject to camera coordinates
+    x_cam = (u - cu) * depth_map / fu
+    y_cam = (v - cv) * depth_map / fv
+    z_cam = depth_map
+    # Stack to form camera coordinates
+    cam_coords = np.stack((x_cam, y_cam, z_cam), axis=-1).astype(np.float32)
+    return cam_coords
+def closed_form_inverse_se3(se3, R=None, T=None):
+    """
+    Compute the inverse of each 4x4 (or 3x4) SE3 matrix in a batch.
+    If `R` and `T` are provided, they must correspond to the rotation and translation
+    components of `se3`. Otherwise, they will be extracted from `se3`.
+    Args:
+        se3: Nx4x4 or Nx3x4 array or tensor of SE3 matrices.
+        R (optional): Nx3x3 array or tensor of rotation matrices.
+        T (optional): Nx3x1 array or tensor of translation vectors.
+    Returns:
+        Inverted SE3 matrices with the same type and device as `se3`.
+    Shapes:
+        se3: (N, 4, 4)
+        R: (N, 3, 3)
+        T: (N, 3, 1)
+    """
+    # Check if se3 is a numpy array or a torch tensor
+    is_numpy = isinstance(se3, np.ndarray)
+    # Validate shapes
+    if se3.shape[-2:] != (4, 4) and se3.shape[-2:] != (3, 4):
+        raise ValueError(f"se3 must be of shape (N,4,4), got {se3.shape}.")
+    # Extract R and T if not provided
+    if R is None:
+        R = se3[:, :3, :3]  # (N,3,3)
+    if T is None:
+        T = se3[:, :3, 3:]  # (N,3,1)
+    # Transpose R
+    if is_numpy:
+        # Compute the transpose of the rotation for NumPy
+        R_transposed = np.transpose(R, (0, 2, 1))
+        # -R^T t for NumPy
+        top_right = -np.matmul(R_transposed, T)
+        inverted_matrix = np.tile(np.eye(4), (len(R), 1, 1))
+    else:
+        R_transposed = R.transpose(1, 2)  # (N,3,3)
+        top_right = -torch.bmm(R_transposed, T)  # (N,3,1)
+        inverted_matrix = torch.eye(4, 4)[None].repeat(len(R), 1, 1)
+        inverted_matrix = inverted_matrix.to(R.dtype).to(R.device)
+    inverted_matrix[:, :3, :3] = R_transposed
+    inverted_matrix[:, :3, 3:] = top_right
+    return inverted_matrix
+def depth_to_world_coords_points(
+    depth_map: np.ndarray,
+    extrinsic: np.ndarray,
+    intrinsic: np.ndarray,
+    eps=1e-8,
+) -> tuple[np.ndarray, np.ndarray, np.ndarray]:
+    """
+    Convert a depth map to world coordinates.
+    Args:
+        depth_map (np.ndarray): Depth map of shape (H, W).
+        intrinsic (np.ndarray): Camera intrinsic matrix of shape (3, 3).
+        extrinsic (np.ndarray): Camera extrinsic matrix of shape (3, 4).
+    Returns:
+        tuple[np.ndarray, np.ndarray]: World coordinates (H, W, 3) and valid depth mask (H, W).
+    """
+    if depth_map is None:
+        return None, None, None
+    # Valid depth mask
+    point_mask = depth_map > eps
+    # Convert depth map to camera coordinates
+    cam_coords_points = depth_to_cam_coords_points(depth_map, intrinsic)
+    # Multiply with the inverse of extrinsic matrix to transform to world coordinates
+    # extrinsic_inv is 4x4 (note closed_form_inverse_OpenCV is batched, the output is (N, 4, 4))
+    cam_to_world_extrinsic = closed_form_inverse_se3(extrinsic[None])[0]
+    R_cam_to_world = cam_to_world_extrinsic[:3, :3]
+    t_cam_to_world = cam_to_world_extrinsic[:3, 3]
+    # Apply the rotation and translation to the camera coordinates
+    world_coords_points = np.dot(cam_coords_points, R_cam_to_world.T) + t_cam_to_world  # HxWx3, 3x3 -> HxWx3
+    # world_coords_points = np.einsum("ij,hwj->hwi", R_cam_to_world, cam_coords_points) + t_cam_to_world
+    return world_coords_points
+def render_from_cameras_videos(points, colors, extrinsics, intrinsics, height, width):
+    homogeneous_points = np.hstack((points, np.ones((points.shape[0], 1))))
+    render_list = []
+    mask_list = []
+    depth_list = []
+    # Render from each camera
+    for frame_idx in range(len(extrinsics)):
+        # Get corresponding camera parameters
+        extrinsic = extrinsics[frame_idx]
+        intrinsic = intrinsics[frame_idx]
+        camera_coords = (extrinsic @ homogeneous_points.T).T[:, :3]
+        projected = (intrinsic @ camera_coords.T).T
+        uv = projected[:, :2] / projected[:, 2].reshape(-1, 1)
+        depths = projected[:, 2]
+        pixel_coords = np.round(uv).astype(int)  # pixel_coords (h*w, 2)
+        valid_pixels = (  # valid_pixels (h*w, )      valid_pixels is the valid pixels in width and height
+            (pixel_coords[:, 0] >= 0) &
+            (pixel_coords[:, 0] < width) &
+            (pixel_coords[:, 1] >= 0) &
+            (pixel_coords[:, 1] < height)
+        )
+        pixel_coords_valid = pixel_coords[valid_pixels]  # (h*w, 2) to (valid_count, 2)
+        colors_valid = colors[valid_pixels]
+        depths_valid = depths[valid_pixels]
+        uv_valid = uv[valid_pixels]
+        valid_mask = (depths_valid > 0) & (depths_valid < 60000) # & normal_angle_mask
+        colors_valid = colors_valid[valid_mask]
+        depths_valid = depths_valid[valid_mask]
+        pixel_coords_valid = pixel_coords_valid[valid_mask]
+        # Initialize depth buffer
+        depth_buffer = np.full((height, width), np.inf)
+        image = np.zeros((height, width, 3), dtype=np.uint8)
+        # Vectorized depth buffer update
+        if len(pixel_coords_valid) > 0:
+            rows = pixel_coords_valid[:, 1]
+            cols = pixel_coords_valid[:, 0]
+            # Sort by depth (near to far)
+            sorted_idx = np.argsort(depths_valid)
+            rows = rows[sorted_idx]
+            cols = cols[sorted_idx]
+            depths_sorted = depths_valid[sorted_idx]
+            colors_sorted = colors_valid[sorted_idx]
+            # Vectorized depth buffer update
+            depth_buffer[rows, cols] = np.minimum(
+                depth_buffer[rows, cols],
+                depths_sorted
+            )
+            # Get the minimum depth index for each pixel
+            flat_indices = rows * width + cols  # Flatten 2D coordinates to 1D index
+            unique_indices, idx = np.unique(flat_indices, return_index=True)
+            # Recover 2D coordinates from flattened indices
+            final_rows = unique_indices // width
+            final_cols = unique_indices % width
+            image[final_rows, final_cols] = colors_sorted[idx, :3].astype(np.uint8)
+        mask = np.zeros_like(depth_buffer, dtype=np.uint8)
+        mask[depth_buffer != np.inf] = 255
+        render_list.append(image)
+        mask_list.append(mask)
+        depth_list.append(depth_buffer)
+    return render_list, mask_list, depth_list
+def create_video_input(
+    render_list, mask_list, depth_list, render_output_dir,
+    separate=True, ref_image=None, ref_depth=None,
+    Width=512, Height=512,
+    min_percentile=2, max_percentile=98
+):
+    video_output_dir = os.path.join(render_output_dir)
+    os.makedirs(video_output_dir, exist_ok=True)
+    video_input_dir = os.path.join(render_output_dir, "video_input")
+    os.makedirs(video_input_dir, exist_ok=True)
+    value_list = []
+    for i, (render, mask, depth) in enumerate(zip(render_list, mask_list, depth_list)):
+        # Sky part is the region where depth_max is, also included in mask
+        mask = mask > 0
+        # depth_max = np.max(depth)
+        # non_sky_mask = (depth != depth_max)
+        # mask = mask & non_sky_mask
+        depth[mask] = 1 / (depth[mask] + 1e-6)
+        depth_values = depth[mask]
+        min_percentile = np.percentile(depth_values, 2)
+        max_percentile = np.percentile(depth_values, 98)
+        value_list.append((min_percentile, max_percentile))
+        depth[mask] = (depth[mask] - min_percentile) / (max_percentile - min_percentile)
+        depth[~mask] = depth[mask].min()
+        # resize to 512x512
+        render = cv2.resize(render, (Width, Height), interpolation=cv2.INTER_LINEAR)
+        mask = cv2.resize((mask.astype(np.float32) * 255).astype(np.uint8), \
+            (Width, Height), interpolation=cv2.INTER_NEAREST)
+        depth = cv2.resize(depth, (Width, Height), interpolation=cv2.INTER_LINEAR)
+        # Save mask as png
+        mask_path = os.path.join(video_input_dir, f"mask_{i:04d}.png")
+        imageio.imwrite(mask_path, mask)
+        if separate:
+            render_path = os.path.join(video_input_dir, f"render_{i:04d}.png")
+            imageio.imwrite(render_path, render)
+            depth_path = os.path.join(video_input_dir, f"depth_{i:04d}.exr")
+            pyexr.write(depth_path, depth)
+        else:
+            render = np.concatenate([render, depth], axis=-3)
+            render_path = os.path.join(video_input_dir, f"render_{i:04d}.png")
+            imageio.imwrite(render_path, render)
+        if i == 0:
+            if separate:
+                ref_image_path = os.path.join(video_output_dir, f"ref_image.png")
+                imageio.imwrite(ref_image_path, ref_image)
+                ref_depth_path = os.path.join(video_output_dir, f"ref_depth.exr")
+                pyexr.write(ref_depth_path, depth)
+            else:
+                ref_image = np.concatenate([ref_image, depth], axis=-3)
+                ref_image_path = os.path.join(video_output_dir, f"ref_image.png")
+                imageio.imwrite(ref_image_path, ref_image)
+    with open(os.path.join(video_output_dir, f"depth_range.json"), "w") as f:
+        json.dump(value_list, f)
+if __name__ == "__main__":
+    args = parse_args()
+    device = torch.device("cuda")
+    model = MoGeModel.from_pretrained("Ruicheng/moge-vitl", local_files_only=False).to(device)
+    image = np.array(Image.open(args.image_path).convert("RGB").resize((1280, 720)))
+    image_tensor = torch.tensor(image / 255, dtype=torch.float32, device=device).permute(2, 0, 1)
+    output = model.infer(image_tensor)
+    depth = np.array(output['depth'].detach().cpu())
+    depth[np.isinf(depth)] = depth[~np.isinf(depth)].max() + 1e4
+    Height, Width = image.shape[:2]
+    intrinsics, extrinsics = camera_list(
+        num_frames=1, type=args.type, Width=Width, Height=Height, fx=256, fy=256
+    )
+    # Backproject point cloud
+    point_map = depth_to_world_coords_points(depth, extrinsics[0], intrinsics[0])
+    points = point_map.reshape(-1, 3)
+    colors = image.reshape(-1, 3)
+    intrinsics, extrinsics = camera_list(
+        num_frames=49, type=args.type, Width=Width//2, Height=Height//2, fx=128, fy=128
+    )
+    render_list, mask_list, depth_list = render_from_cameras_videos(
+        points, colors, extrinsics, intrinsics, height=Height//2, width=Width//2
+    )
+    create_video_input(
+        render_list, mask_list, depth_list, args.render_output_dir, separate=True,
+        ref_image=image, ref_depth=depth, Width=Width, Height=Height)

data_engine/depth_align.py ADDED Viewed

	@@ -0,0 +1,418 @@

+import os, re
+import json
+import numpy as np
+import cv2
+import torch
+import imageio
+import pyexr
+import trimesh
+from PIL import Image
+from create_input import render_from_cameras_videos
+class DepthAlignMetric:
+    """
+    深度缩放与相机参数更新处理器
+    Attributes:
+        moge_depth_dir (str): MOGe待处理深度目录
+        vggt_depth_dir (str): VGGT待处理深度目录
+        vggt_camera_json_file (str): VGGT关联的JSON文件目录
+        output_root (str): 输出根目录
+    """
+    def __init__(self,
+                 input_rgb_dir: str,
+                 moge_depth_dir: str,
+                 vggt_depth_dir: str,
+                 metric3d_depth_dir: str,
+                 vggt_camera_json_file: str,
+                 output_root: str):
+        """
+        Args:
+            moge_depth_dir: MOGe原始深度路径
+            vggt_depth_dir: VGGT原始深度路径
+            vggt_camera_json_file: VGGT关联JSON路径
+            output_root: 输出根目录，默认为./processed
+        """
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        # align depth and camera pose to metric level
+        self.moge_depth_dir = moge_depth_dir
+        self.vggt_depth_dir = vggt_depth_dir
+        self.metric3d_depth_dir = metric3d_depth_dir
+        self.vggt_camera_json_file = vggt_camera_json_file
+        self.output_root = output_root
+        # depth to pointmap
+        self.metric_intrinsic = None
+        self.metric_w2c = None
+        self.input_rgb_dir = input_rgb_dir
+        self.input_color_paths = []
+        # output depth / camera pose / pointmap
+        self.output_metric_depth_dir = os.path.join(output_root, "output_metric_depth_dir")
+        self.output_metric_camera_json = os.path.join(output_root, "output_metric_camera_json")
+        self.output_metric_pointmap_dir = os.path.join(output_root, "output_metric_pointmap_dir")
+        os.makedirs(self.output_metric_depth_dir, exist_ok=True)
+        os.makedirs(self.output_metric_camera_json, exist_ok=True)
+        os.makedirs(self.output_metric_pointmap_dir, exist_ok=True)
+    def align_depth_scale(self):
+        # align Moge depth to VGGT
+        moge_align_depth_list, valid_mask_list = self.scale_moge_depth()
+        # align moge depth and camera pose to metric depth
+        self.align_metric_depth(moge_align_depth_list, valid_mask_list)
+    def segment_sky_with_oneformer(self, image_path, skyseg_processor, skyseg_model, SKY_CLASS_ID, save_path=None):
+        from PIL import Image
+        image = Image.open(image_path)
+        inputs = skyseg_processor(images=image, task_inputs=["semantic"], return_tensors="pt").to(skyseg_model.device)
+        with torch.no_grad():
+            outputs = skyseg_model(**inputs)
+        # 获取语义分割结果
+        predicted_semantic_map = skyseg_processor.post_process_semantic_segmentation(outputs, \
+            target_sizes=[image.size[::-1]])[0]
+        # 提取天空区域
+        sky_mask = (predicted_semantic_map == SKY_CLASS_ID).cpu().numpy().astype(np.uint8) * 255
+        # erosion sky
+        kernel = np.ones((3,3), np.uint8)
+        sky_mask = cv2.erode(sky_mask, kernel, iterations=1)
+        # 如果需要保存
+        if save_path:
+            cv2.imwrite(save_path, sky_mask)
+        return sky_mask
+    def get_valid_depth(self, vggt_files, moge_files, input_rgb_files, skyseg_processor, skyseg_model, SKY_CLASS_ID):
+        moge_align_depth_list = []
+        valid_mask_list = []
+        all_valid_max_list = []
+        for vggt_file, moge_file, input_rgb_file in zip(vggt_files, moge_files, input_rgb_files):
+            # 读取深度数据
+            depth_moge = pyexr.read(os.path.join(self.moge_depth_dir, moge_file)).squeeze()
+            depth_vggt = pyexr.read(os.path.join(self.vggt_depth_dir, vggt_file)).squeeze()
+            depth_vggt = cv2.resize(depth_vggt,  dsize=(depth_moge.shape[1], depth_moge.shape[0]), \
+                interpolation=cv2.INTER_LINEAR)
+            depth_vggt = torch.from_numpy(depth_vggt).float().to(self.device)
+            depth_moge = torch.from_numpy(depth_moge).float().to(self.device)
+            # segmentation sky
+            sky_ima_path = os.path.join(self.input_rgb_dir, input_rgb_file)
+            sky_mask = self.segment_sky_with_oneformer(sky_ima_path, skyseg_processor, skyseg_model, SKY_CLASS_ID)
+            sky_mask_tensor = torch.from_numpy(sky_mask).float().to(self.device)
+            sky_mask = (sky_mask_tensor > 0)  # 天空区域为True
+            valid_masks = (                              # (H, W)
+                torch.isfinite(depth_moge) &
+                (depth_moge > 0) &
+                torch.isfinite(depth_vggt) &
+                (depth_vggt > 0)     &
+                ~sky_mask                 # 非天空区域
+            )
+            # depth_moge 无效部分 设置为 有效部分最大值的1.5倍   避免final_align_depth出现负数
+            depth_moge[~valid_masks] = depth_moge[valid_masks].max() * 1
+            source_inv_depth = 1.0 / depth_moge
+            target_inv_depth = 1.0 / depth_vggt
+            # print(f'倒数值:{source_inv_depth.min()}, {source_inv_depth.max()}')    # 0.03 ～ 2.2
+            source_mask, target_mask = valid_masks, valid_masks
+            # Remove outliers  2/8分最合适
+            outlier_quantiles = torch.tensor([0.2, 0.8], device=self.device)
+            source_data_low, source_data_high = torch.quantile(
+                source_inv_depth[source_mask], outlier_quantiles
+            )
+            target_data_low, target_data_high = torch.quantile(
+                target_inv_depth[target_mask], outlier_quantiles
+            )
+            source_mask = (source_inv_depth > source_data_low) & (
+                source_inv_depth < source_data_high
+            )
+            target_mask = (target_inv_depth > target_data_low) & (
+                target_inv_depth < target_data_high
+            )
+            mask = torch.logical_and(source_mask, target_mask)
+            mask = torch.logical_and(mask, valid_masks)
+            source_data = source_inv_depth[mask].view(-1, 1)
+            target_data = target_inv_depth[mask].view(-1, 1)
+            ones = torch.ones((source_data.shape[0], 1), device=self.device)
+            source_data_h = torch.cat([source_data, ones], dim=1)
+            transform_matrix = torch.linalg.lstsq(source_data_h, target_data).solution
+            scale, bias = transform_matrix[0, 0], transform_matrix[1, 0]
+            aligned_inv_depth = source_inv_depth * scale + bias
+            valid_inv_depth = aligned_inv_depth > 0  # 创建新的有效掩码
+            valid_masks = valid_masks & valid_inv_depth  # 合并到原有效掩码
+            valid_mask_list.append(valid_masks)
+            final_align_depth = 1.0 / aligned_inv_depth
+            moge_align_depth_list.append(final_align_depth)
+            all_valid_max_list.append(final_align_depth[valid_masks].max().item())
+        return moge_align_depth_list, valid_mask_list, all_valid_max_list
+    def scale_moge_depth(self):
+        vggt_files = sorted(f for f in os.listdir(self.vggt_depth_dir) if f.endswith('.exr'))
+        moge_files = sorted(f for f in os.listdir(self.moge_depth_dir) if f.endswith('.exr'))
+        input_rgb_files = sorted(f for f in os.listdir(self.input_rgb_dir) if f.endswith('.png'))
+        if len(vggt_files) != len(moge_files):
+            raise ValueError("文件数量不匹配")
+        from transformers import OneFormerProcessor, OneFormerForUniversalSegmentation
+        skyseg_processor = OneFormerProcessor.from_pretrained("shi-labs/oneformer_coco_swin_large")
+        skyseg_model = OneFormerForUniversalSegmentation.from_pretrained("shi-labs/oneformer_coco_swin_large")
+        skyseg_model.to(self.device)
+        # 定义天空类别的ID 119
+        SKY_CLASS_ID = 119
+        moge_align_depth_list, valid_mask_list, all_valid_max_list = self.get_valid_depth(
+            vggt_files, moge_files, input_rgb_files, skyseg_processor, skyseg_model, SKY_CLASS_ID
+        )
+        # 计算所有帧的有效最大值的中位数
+        valid_max_array = np.array(all_valid_max_list)
+        q50 = np.quantile(valid_max_array, 0.50)  # 计算50%分位点
+        filtered_max = valid_max_array[valid_max_array <= q50]  # 过滤超过分位点的异常值
+        # 取过滤后数据的最大值（正常范围内的最大值）
+        global_avg_max = np.max(filtered_max)
+        max_sky_value = global_avg_max * 5
+        max_sky_value = np.minimum(max_sky_value, 1000)    # 相对深度最远不能超过 1000
+        # 统一设置所有帧的无效区域值
+        for i, (moge_depth, valid_mask) in enumerate(zip(moge_align_depth_list, valid_mask_list)):
+            moge_depth[~valid_mask] = max_sky_value
+            # 统计超限点占比（在clamp之前）
+            over_count = torch.sum(moge_depth > max_sky_value).item()
+            total_pixels = moge_depth.numel()
+            over_ratio = over_count / total_pixels * 100
+            moge_depth = torch.clamp(moge_depth, max=max_sky_value)
+            moge_align_depth_list[i] = moge_depth  # 更新处理后的深度图
+        return moge_align_depth_list, valid_mask_list
+    def align_metric_depth(self, moge_align_depth_list, valid_mask_list):
+        # 获取metric文件列表
+        metric_files = sorted(f for f in os.listdir(self.metric3d_depth_dir) if f.endswith('.exr'))
+        metric_scales_list = []
+        # 遍历所有深度图对
+        for idx, (metric_file, moge_depth) in enumerate(zip(metric_files, moge_align_depth_list)):
+            depth_metric3d = pyexr.read(os.path.join(self.metric3d_depth_dir, metric_file)).squeeze()
+            depth_metric3d = torch.from_numpy(depth_metric3d).float().to(self.device)
+            # 获取对应帧的掩码
+            valid_mask = valid_mask_list[idx].to(self.device)
+            # 提取有效区域数据
+            valid_metric = depth_metric3d[valid_mask]
+            valid_moge = moge_depth[valid_mask]
+            # 分位数差计算
+            metric_diff = torch.quantile(valid_metric, 0.8) - torch.quantile(valid_metric, 0.2)
+            moge_diff = torch.quantile(valid_moge, 0.8) - torch.quantile(valid_moge, 0.2)
+            metric_scale = metric_diff / moge_diff
+            metric_scales_list.append(metric_scale.cpu().numpy())
+        # 计算全局平均缩放因子
+        metric_scales_mean = np.mean(metric_scales_list)
+        # 应用全局缩放 保存 metric depth
+        for idx, (metric_file, moge_depth) in enumerate(zip(metric_files, moge_align_depth_list)):
+            metric_moge_depth = (moge_depth * metric_scales_mean).cpu().numpy()
+            # 保存深度文件
+            output_path = os.path.join(
+                self.output_metric_depth_dir,
+                f"{os.path.splitext(metric_file)[0]}_metric.exr"
+            )
+            pyexr.write(output_path, metric_moge_depth, channel_names=["Y"])
+        # 阶段3：更新相机参数
+        with open(self.vggt_camera_json_file, 'r') as f:
+            camera_data = json.load(f)
+        # 更新所有帧的平移分量
+        for frame_info in camera_data.values():
+            w2c_matrix = np.array(frame_info['w2c'])
+            w2c_matrix[:3, 3] *= metric_scales_mean  # 直接使用计算好的全局缩放因子
+            frame_info['w2c'] = w2c_matrix.tolist()
+        # 保存更新后的相机参数
+        output_json_path = os.path.join(
+            self.output_metric_camera_json,
+            os.path.basename(self.vggt_camera_json_file)
+        )
+        with open(output_json_path, 'w') as f:
+            json.dump(camera_data, f, indent=4)
+    def load_metirc_camera_parameters(self):  # 修改：增加color_dir参数
+        metric_camera_json = os.path.join(self.output_metric_camera_json, 'colmap_data.json')
+        with open(metric_camera_json, 'r') as f:
+            data = json.load(f)
+        # load metric camera parameters
+        sorted_frames = sorted(data.items(), key=lambda x: int(x[0]))
+        first_frame_key, first_frame_data = sorted_frames[0]
+        self.metric_intrinsic = [np.array(frame['intrinsic']) for frame in data.values()]
+        self.metric_w2c = [np.array(frame['w2c']) for frame in data.values()]
+        # 加载pointmap input rgb 文件路径
+        self.input_color_paths = sorted(
+            [os.path.join(self.input_rgb_dir, f) for f in os.listdir(self.input_rgb_dir) if f.endswith(".png")],
+            key=lambda x: int(os.path.basename(x).split("_")[1].split(".")[0])
+        )
+    def depth_to_pointmap(self):
+        num_frames = len(self.metric_w2c)
+        for frame_index in range(num_frames):
+            exr_path = os.path.join(self.output_metric_depth_dir, f"frame_{frame_index+1:05d}_metric.exr")
+            depth_data = pyexr.read(exr_path).squeeze()
+            depth_tensor = torch.from_numpy(depth_data).to(self.device, torch.float32)
+            # 生成点云
+            height, width = depth_tensor.shape
+            K_tensor = torch.from_numpy(self.metric_intrinsic[frame_index]).to(device=self.device, dtype=torch.float32)
+            w2c = torch.from_numpy(self.metric_w2c[frame_index]).to(device=self.device, dtype=torch.float32)
+            camtoworld = torch.inverse(w2c)
+            # 生成相机坐标系坐标
+            u = torch.arange(width, device=self.device).float()
+            v = torch.arange(height, device=self.device).float()
+            u_grid, v_grid = torch.meshgrid(u, v, indexing='xy')
+            fx, fy = K_tensor[0, 0], K_tensor[1, 1]
+            cx, cy = K_tensor[0, 2], K_tensor[1, 2]
+            x_cam = (u_grid - cx) * depth_tensor / fx
+            y_cam = (v_grid - cy) * depth_tensor / fy
+            z_cam = depth_tensor
+            cam_coords_points = torch.stack([x_cam, y_cam, z_cam], dim=-1)
+            R_cam_to_world = camtoworld[:3, :3]
+            t_cam_to_world = camtoworld[:3, 3]
+            world_coords_points = torch.matmul(cam_coords_points, R_cam_to_world.T) + t_cam_to_world
+            # # 保存带颜色的点云
+            color_numpy = np.array(Image.open(self.input_color_paths[frame_index]))  # 读取为HWC
+            colors_rgb = color_numpy.reshape(-1, 3)  # 转换回HWC并展平
+            vertices_3d = world_coords_points.reshape(-1, 3).cpu().numpy()
+            point_cloud_data = trimesh.PointCloud(vertices=vertices_3d, colors=colors_rgb)
+            point_cloud_data.export(f"{self.output_metric_pointmap_dir}/pcd_{frame_index+1:04d}.ply")
+            # 保存为pointmap npy
+            pointmap_data = world_coords_points.cpu().numpy()
+            np.save(f"{self.output_metric_pointmap_dir}/pointmap_{frame_index+1:04d}.npy", pointmap_data)
+    def render_from_cameras(self):
+        render_output_dir = os.path.join(self.output_root, "rendered_views")
+        os.makedirs(render_output_dir, exist_ok=True)
+        select_frame = 0
+        npy_files = sorted(
+            [f for f in os.listdir(self.output_metric_pointmap_dir) if f.endswith(".npy")],
+            key=lambda x: int(re.findall(r'\d+', x)[0])
+        )
+        npy_path = os.path.join(self.output_metric_pointmap_dir, npy_files[select_frame])
+        # 读取npy_path
+        pointmap = np.load(npy_path)
+        points = pointmap.reshape(-1, 3)
+        color_numpy = np.array(Image.open(self.input_color_paths[select_frame]))  # 读取为HWC
+        colors_rgb = color_numpy.reshape(-1, 3)  # 转换回HWC并展平
+        colors = colors_rgb[:, :3]
+        height, width = cv2.imread(self.input_color_paths[0]).shape[:2]
+        renders, masks, _ = render_from_cameras_videos(
+            points, colors, self.metric_w2c, self.metric_intrinsic, height, width
+        )
+        # 使用imageio保存所有结果
+        for i, (render, mask) in enumerate(zip(renders, masks)):
+            # 保存渲染图
+            render_path = os.path.join(render_output_dir, f"render_{i:04d}.png")
+            imageio.imwrite(render_path, render)
+            # 保存掩码图
+            mask_path = os.path.join(render_output_dir, f"mask_{i:04d}.png")
+            imageio.imwrite(mask_path, mask)
+        print(f"All results saved to: {render_output_dir}")
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser(description="Depth alignment and metric processing.")
+    parser.add_argument('--image_dir', type=str, required=True, help='Input RGB directory')
+    parser.add_argument('--moge_depth_dir', type=str, required=True, help='MOGe depth directory')
+    parser.add_argument('--vggt_depth_dir', type=str, required=True, help='VGGT depth directory')
+    parser.add_argument('--metric3d_depth_dir', type=str, required=True, help='Metric3D depth directory')
+    parser.add_argument('--vggt_camera_json_file', type=str, required=True, help='VGGT camera JSON file')
+    parser.add_argument('--output_dir', type=str, required=True, help='Output root directory')
+    args = parser.parse_args()
+    depth_align_processor = DepthAlignMetric(
+        input_rgb_dir=args.image_dir,
+        moge_depth_dir=args.moge_depth_dir,
+        vggt_depth_dir=args.vggt_depth_dir,
+        metric3d_depth_dir=args.metric3d_depth_dir,
+        vggt_camera_json_file=args.vggt_camera_json_file,
+        output_root=args.output_dir
+    )
+    depth_align_processor.align_depth_scale()
+    depth_align_processor.load_metirc_camera_parameters()
+    depth_align_processor.depth_to_pointmap()
+    depth_align_processor.render_from_cameras()

data_engine/metric3d_infer.py ADDED Viewed

	@@ -0,0 +1,115 @@

+import os
+import cv2
+import argparse
+import torch
+import itertools
+import json
+from pathlib import Path
+from typing import *
+import pyexr
+def main(image_dir, intrinsic_path, output_dir):
+    os.makedirs(output_dir, exist_ok=True)
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    include_suffices = ['jpg', 'png', 'jpeg', 'JPG', 'PNG', 'JPEG']
+    image_paths = sorted(itertools.chain(*(Path(image_dir).rglob(f'*.{suffix}') for suffix in include_suffices)))
+    # load model
+    model = torch.hub.load("Metric3D", 'metric3d_vit_giant2', pretrain=True, source='local')
+    model = model.to(device)
+    model.eval()
+    with open(intrinsic_path, 'r') as f:
+        colmap_data = json.load(f)
+    # Sort JSON keys by frame number (001, 002...109)
+    sorted_frame_ids = sorted(colmap_data.keys(), key=lambda x: int(x))
+    # Generate intrinsic list in order
+    intrinsic_list = [colmap_data[frame_id]['intrinsic'] for frame_id in sorted_frame_ids]
+    if len(image_paths) != len(intrinsic_list):
+        raise ValueError(f"Number of images ({len(image_paths)}) does not match JSON frames ({len(intrinsic_list)})")
+    # Check existing EXR files in output directory
+    output_exr_files = list(Path(output_dir).glob('*.exr'))
+    if len(output_exr_files) >= len(image_paths):
+        return
+    for idx, image_path in enumerate(image_paths):
+        # Get corresponding intrinsic data by index
+        intrinsic_data = intrinsic_list[idx]
+        fx = intrinsic_data[0][0]
+        fy = intrinsic_data[1][1]
+        cx = intrinsic_data[0][2]
+        cy = intrinsic_data[1][2]
+        intrinsic = [fx, fy, cx, cy]
+        # print(f"Processing image {image_path}")
+        # load image
+        rgb_origin = cv2.imread(str(image_path))[:, :, ::-1]
+        # Adjust input size to fit pretrained model
+        input_size = (616, 1064) # for vit model
+        h, w = rgb_origin.shape[:2]
+        scale = min(input_size[0] / h, input_size[1] / w)
+        rgb = cv2.resize(rgb_origin, (int(w * scale), int(h * scale)), interpolation=cv2.INTER_LINEAR)
+        # Remember to scale intrinsic, hold depth
+        intrinsic = [intrinsic[0] * scale, intrinsic[1] * scale, intrinsic[2] * scale, intrinsic[3] * scale]
+        # Padding to input_size
+        padding = [123.675, 116.28, 103.53]
+        h, w = rgb.shape[:2]
+        pad_h = input_size[0] - h
+        pad_w = input_size[1] - w
+        pad_h_half = pad_h // 2
+        pad_w_half = pad_w // 2
+        rgb = cv2.copyMakeBorder(rgb, pad_h_half, pad_h - pad_h_half, \
+            pad_w_half, pad_w - pad_w_half, cv2.BORDER_CONSTANT, value=padding)
+        pad_info = [pad_h_half, pad_h - pad_h_half, pad_w_half, pad_w - pad_w_half]
+        # Normalize
+        mean = torch.tensor([123.675, 116.28, 103.53]).float()[:, None, None]
+        std = torch.tensor([58.395, 57.12, 57.375]).float()[:, None, None]
+        rgb = torch.from_numpy(rgb.transpose((2, 0, 1))).float()
+        rgb = torch.div((rgb - mean), std)
+        rgb = rgb[None, :, :, :].cuda()
+        # Canonical camera space
+        # inference
+        with torch.no_grad():
+            pred_depth, _, _ = model.inference({'input': rgb})
+        # Unpad
+        pred_depth = pred_depth.squeeze()
+        pred_depth = pred_depth[pad_info[0] : pred_depth.shape[0] - pad_info[1], \
+            pad_info[2] : pred_depth.shape[1] - pad_info[3]]
+        # Upsample to original size
+        pred_depth = torch.nn.functional.interpolate(pred_depth[None, None, :, :], \
+            rgb_origin.shape[:2], mode='bilinear').squeeze()
+        # Canonical camera space
+        # De-canonical transform
+        canonical_to_real_scale = intrinsic[0] / 1000.0 # 1000.0 is the focal length of canonical camera
+        pred_depth = pred_depth * canonical_to_real_scale # now the depth is metric
+        depth = pred_depth.cpu().numpy()
+        exr_output_dir = Path(output_dir)
+        exr_output_dir.mkdir(exist_ok=True, parents=True)
+        # Construct filename (use image_path stem directly)
+        filename = f"{image_path.stem}.exr"
+        save_file = exr_output_dir.joinpath(filename)
+        pyexr.write(save_file, depth[..., None], channel_names=["Y"])
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Run metric3d data engine.")
+    parser.add_argument('--image_dir', type=str, required=True, help='Path to input images directory')
+    parser.add_argument('--intrinsic_path', type=str, required=True, help='Path to intrinsic file')
+    parser.add_argument('--output_dir', type=str, required=True, help='Path to output directory')
+    args = parser.parse_args()
+    main(args.image_dir, args.intrinsic_path, args.output_dir)

data_engine/moge_infer.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import os
+os.environ['OPENCV_IO_ENABLE_OPENEXR'] = '1'
+from pathlib import Path
+import sys
+if (_package_root := str(Path(__file__).absolute().parents[2])) not in sys.path:
+    sys.path.insert(0, _package_root)
+from typing import *
+import itertools
+import cv2
+import torch
+original_cwd = os.getcwd()
+moge_dir = os.path.join(original_cwd, 'MoGe')
+try:
+    os.chdir(moge_dir)
+    if moge_dir not in sys.path:
+        sys.path.insert(0, moge_dir)
+    from moge.model.v1 import MoGeModel
+finally:
+    os.chdir(original_cwd)
+def main(image_dir, output_dir):
+    os.makedirs(output_dir, exist_ok=True)
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    # load model
+    model = MoGeModel.from_pretrained("Ruicheng/moge-vitl").to(device)
+    model.eval()
+    include_suffices = ['jpg', 'png', 'jpeg', 'JPG', 'PNG', 'JPEG']
+    image_paths = sorted(itertools.chain(*(Path(image_dir).rglob(f'*.{suffix}') for suffix in include_suffices)))
+    # 检查输出目录中已有的EXR文件数量
+    output_exr_files = list(Path(output_dir).glob('*.exr'))
+    if len(output_exr_files) >= len(image_paths):
+        return
+    for image_path in image_paths:
+        image = cv2.cvtColor(cv2.imread(str(image_path)), cv2.COLOR_BGR2RGB)
+        image_tensor = torch.tensor(image / 255, dtype=torch.float32, device=device).permute(2, 0, 1)
+        # Inference
+        output = model.infer(image_tensor, fov_x=None, resolution_level=9, num_tokens=None, use_fp16=True)
+        depth = output['depth'].cpu().numpy()
+        exr_output_dir = Path(output_dir)
+        exr_output_dir.mkdir(exist_ok=True, parents=True)
+        # 构造文件名（直接使用 image_path 的 stem）
+        filename = f"{image_path.stem}.exr"
+        # 路径拼接（不使用 / 符号）
+        save_file = exr_output_dir.joinpath(filename)
+        # 保存深度图
+        cv2.imwrite(str(save_file), depth, [cv2.IMWRITE_EXR_TYPE, cv2.IMWRITE_EXR_TYPE_FLOAT])
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser(description="Run MoGe depth estimation.")
+    parser.add_argument('--image_dir', type=str, required=True, help='Path to input images directory')
+    parser.add_argument('--output_dir', type=str, required=True, help='Path to output directory')
+    args = parser.parse_args()
+    main(args.image_dir, args.output_dir)

data_engine/requirements.txt ADDED Viewed

	@@ -0,0 +1,16 @@

+torch==2.3.1
+torchvision==0.18.1
+numpy==1.26.1
+Pillow
+scipy
+huggingface_hub
+einops
+safetensors
+opencv-python
+pyexr
+mmengine
+timm
+imageio
+trimesh
+transformers==4.49
+git+https://github.com/EasternJournalist/utils3d.git@c5daf6f6c244d251f252102d09e9b7bcef791a38

data_engine/run.sh ADDED Viewed

	@@ -0,0 +1,27 @@

+#!/bin/bash
+IMAGE_DIR="your_input_path"
+OUTPUT_DIR="your_output_path"
+CUDA_DEVICE=0
+# 1. run vggt.py
+CUDA_VISIBLE_DEVICES=$CUDA_DEVICE python3 vggt_infer.py --image_dir "$IMAGE_DIR" --output_dir "$OUTPUT_DIR/vggt"
+# # 2. run moge.py
+CUDA_VISIBLE_DEVICES=$CUDA_DEVICE python3 moge_infer.py --image_dir "$IMAGE_DIR" --output_dir "$OUTPUT_DIR/moge"
+# # 3. run metric3d.py
+INTRINSIC_PATH="$OUTPUT_DIR/vggt/colmap_data.json"
+CUDA_VISIBLE_DEVICES=$CUDA_DEVICE python3 metric3d_infer.py --image_dir "$IMAGE_DIR" --output_dir "$OUTPUT_DIR/metric3d" --intrinsic_path "$INTRINSIC_PATH"
+# # 4. conduct depth alignment
+MOGE_DEPTH_DIR="$OUTPUT_DIR/moge"
+VGGT_DEPTH_DIR="$OUTPUT_DIR/vggt"
+METRIC3D_DEPTH_DIR="$OUTPUT_DIR/metric3d"
+CUDA_VISIBLE_DEVICES=$CUDA_DEVICE python3 depth_align.py \
+    --image_dir "$IMAGE_DIR" \
+    --moge_depth_dir "$MOGE_DEPTH_DIR" \
+    --vggt_depth_dir "$VGGT_DEPTH_DIR/depth" \
+    --metric3d_depth_dir "$METRIC3D_DEPTH_DIR" \
+    --vggt_camera_json_file "$OUTPUT_DIR/vggt/colmap_data.json" \
+    --output_dir "$OUTPUT_DIR/final"

data_engine/vggt_infer.py ADDED Viewed

	@@ -0,0 +1,242 @@

+import os
+os.environ["OPENCV_IO_ENABLE_OPENEXR"]="1"
+import argparse
+import numpy as np
+import torch
+import glob
+from scipy.spatial.transform import Rotation
+import sys
+from PIL import Image
+import cv2
+import json
+# Store original working directory and add VGGT to path
+original_cwd = os.getcwd()
+vggt_dir = os.path.join(original_cwd, 'vggt')
+try:
+    os.chdir(vggt_dir)
+    if vggt_dir not in sys.path:
+        sys.path.insert(0, vggt_dir)
+    # Import VGGT modules for pose estimation and depth prediction
+    from vggt.models.vggt import VGGT
+    from vggt.utils.load_fn import load_and_preprocess_images
+    from vggt.utils.pose_enc import pose_encoding_to_extri_intri
+    from vggt.utils.geometry import unproject_depth_map_to_point_map
+finally:
+    os.chdir(original_cwd)
+def process_images_with_vggt(info, image_names, model, device):
+    original_images, original_width, original_height = info
+    # Preprocess images for VGGT model input
+    images = load_and_preprocess_images(image_names).to(device)
+    # Use bfloat16 for newer GPUs, float16 for older ones
+    dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] >= 8 else torch.float16
+    # Run inference with automatic mixed precision
+    with torch.no_grad():
+        with torch.cuda.amp.autocast(dtype=dtype):
+            predictions = model(images)
+    # Convert pose encoding to extrinsic and intrinsic matrices
+    extrinsic, intrinsic = pose_encoding_to_extri_intri(predictions["pose_enc"], images.shape[-2:])
+    predictions["extrinsic"] = extrinsic
+    predictions["intrinsic"] = intrinsic
+    # Convert tensors to numpy arrays and remove batch dimension
+    for key in predictions.keys():
+        if isinstance(predictions[key], torch.Tensor):
+            predictions[key] = predictions[key].cpu().numpy().squeeze(0)  # remove batch dimension
+    # Extract depth map and convert to world coordinates
+    depth_map = predictions["depth"]  # (S, H, W, 1)
+    world_points = unproject_depth_map_to_point_map(depth_map, predictions["extrinsic"], predictions["intrinsic"])
+    predictions["world_points_from_depth"] = world_points
+    # Store original images and their metadata
+    predictions["original_images"] = original_images
+    # Normalize images to [0, 1] range and resize to match depth map dimensions
+    S, H, W = world_points.shape[:3]
+    normalized_images = np.zeros((S, H, W, 3), dtype=np.float32)
+    for i, img in enumerate(original_images):
+        resized_img = cv2.resize(img, (W, H))
+        normalized_images[i] = resized_img / 255.0
+    predictions["images"] = normalized_images
+    predictions["original_width"] = original_width
+    predictions["original_height"] = original_height
+    return predictions, image_names
+def process_images(image_dir, model, device):
+    """
+    Process images with VGGT model to extract pose, depth, and camera parameters.
+    Args:
+        image_dir (str): Directory containing input images
+        model: VGGT model instance
+        device: PyTorch device (CPU/GPU)
+    Returns:
+        tuple: (predictions dict, image_names list)
+    """
+    # Find all image files in the directory
+    image_names = glob.glob(os.path.join(image_dir, "*"))
+    image_names = sorted([f for f in image_names if f.lower().endswith(('.png', '.jpg', '.jpeg'))])
+    # Limit to 400 images to prevent memory issues
+    if len(image_names) > 400:
+        image_names = image_names[:400]
+    if len(image_names) == 0:
+        raise ValueError(f"No images found in {image_dir}")
+    # Store original images and their dimensions
+    original_images = []
+    original_width = None
+    original_height = None
+    # Get dimensions from the first image
+    first_image = Image.open(image_names[0])
+    original_width, original_height = first_image.size
+    # Load all images as numpy arrays
+    for img_path in image_names:
+        img = Image.open(img_path).convert('RGB')
+        original_images.append(np.array(img))
+    return process_images_with_vggt((original_images, original_width, original_height), image_names, model, device)
+def extrinsic_to_colmap_format(extrinsics):
+    """
+    Convert extrinsic matrices from VGGT format to COLMAP format.
+    VGGT uses camera-to-world transformation matrices (R|t),
+    while COLMAP uses quaternion + translation format.
+    Args:
+        extrinsics (np.ndarray): Extrinsic matrices in shape (N, 4, 4)
+    Returns:
+        tuple: (quaternions array, translations array)
+    """
+    num_cameras = extrinsics.shape[0]
+    quaternions = []
+    translations = []
+    for i in range(num_cameras):
+        # Extract rotation matrix and translation vector
+        # VGGT's extrinsic is camera-to-world (R|t) format
+        R = extrinsics[i, :3, :3]
+        t = extrinsics[i, :3, 3]
+        # Convert rotation matrix to quaternion
+        # COLMAP quaternion format is [qw, qx, qy, qz]
+        rot = Rotation.from_matrix(R)
+        quat = rot.as_quat()  # scipy returns [x, y, z, w]
+        quat = np.array([quat[3], quat[0], quat[1], quat[2]])  # Convert to [w, x, y, z]
+        quaternions.append(quat)
+        translations.append(t)
+    return np.array(quaternions), np.array(translations)
+def ToR(q):
+    """
+    Convert quaternion to rotation matrix.
+    Args:
+        q (np.ndarray): Quaternion in [w, x, y, z] format
+    Returns:
+        np.ndarray: 3x3 rotation matrix
+    """
+    return np.eye(3) + 2 * np.array((
+        (-q[2] * q[2] - q[3] * q[3],
+        q[1] * q[2] - q[3] * q[0],
+        q[1] * q[3] + q[2] * q[0]),
+        ( q[1] * q[2] + q[3] * q[0],
+        -q[1] * q[1] - q[3] * q[3],
+        q[2] * q[3] - q[1] * q[0]),
+        ( q[1] * q[3] - q[2] * q[0],
+        q[2] * q[3] + q[1] * q[0],
+        -q[1] * q[1] - q[2] * q[2])))
+def main(image_dir, output_dir):
+    """
+    Main function to process images with VGGT and save results in COLMAP format.
+    Args:
+        image_dir (str): Directory containing input images
+        output_dir (str): Directory to save output files
+    """
+    # Create output directories
+    os.makedirs(output_dir, exist_ok=True)
+    os.makedirs(os.path.join(output_dir, 'depth'), exist_ok=True)
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    # Load pre-trained VGGT model
+    model = VGGT.from_pretrained("facebook/VGGT-1B").to(device)
+    model.eval()
+    # Process images to get predictions
+    predictions, image_names = process_images(image_dir, model, device)
+    # Convert extrinsic matrices to COLMAP format
+    quaternions, translations = extrinsic_to_colmap_format(predictions["extrinsic"])
+    save_dict = {}
+    # Extract predictions
+    depth = predictions["depth"]
+    intrinsic = predictions["intrinsic"]
+    height, width = predictions["depth"].shape[1:3]
+    ori_height, ori_width = predictions["original_height"], predictions["original_width"]
+    # Calculate scaling factors for intrinsic matrix adjustment
+    s_height, s_width = ori_height / height, ori_width / width
+    # Process each frame and save results
+    for i, (image_name, depth, intrinsic, quaternion, translation) \
+        in enumerate(zip(image_names, depth, intrinsic, quaternions, translations)):
+        # Convert quaternion back to rotation matrix
+        qw, qx, qy, qz = quaternion
+        rot = ToR(np.array([qw, qx, qy, qz]))
+        trans = translation.reshape(3,1)
+        # Construct world-to-camera transformation matrix
+        bottom = np.array([[0, 0, 0, 1]])
+        w2c = np.concatenate([np.concatenate([rot, trans], 1), bottom], axis=0)
+        # Scale intrinsic matrix to original image dimensions
+        intrinsic[0, :] = intrinsic[0, :] * s_width
+        intrinsic[1, :] = intrinsic[1, :] * s_height
+        # Save depth map as EXR file
+        cv2.imwrite(os.path.join(output_dir, 'depth', f"frame_{(i+1):05d}.exr"), depth, \
+            [cv2.IMWRITE_EXR_TYPE, cv2.IMWRITE_EXR_TYPE_FLOAT])
+        # Store metadata for this frame
+        save_dict[f"{(i+1):03d}"] = {
+            'image_path': image_name,
+            'depth_path': os.path.join(output_dir, 'depth', f"frame_{(i+1):05d}.exr"),
+            'intrinsic': intrinsic.tolist(),
+            'w2c': w2c.tolist()
+        }
+    # Save all metadata to JSON file
+    with open(os.path.join(output_dir, "colmap_data.json"), "w") as f:
+        json.dump(save_dict, f, indent=2, sort_keys=True)
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Run VGGT data engine.")
+    parser.add_argument('--image_dir', type=str, required=True, help='Path to input images directory')
+    parser.add_argument('--output_dir', type=str, required=True, help='Path to output directory')
+    args = parser.parse_args()
+    main(args.image_dir, args.output_dir)

examples/case1/condition.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43037f6ba360f5ba23057915bcde3c30e4fa8243a1eee71a56ed64e5e4e1dbf
+size 1643970

examples/case1/depth_range.json ADDED Viewed

	@@ -0,0 +1 @@

+ [[9.91478993182587e-05, 2.647638951211892], [9.914810411672214e-05, 2.4355530913722396], [9.914830891603162e-05, 2.3077817822460434], [9.914851371618718e-05, 2.194297811262402], [9.91487185171888e-05, 2.196958148950279], [9.914892331903648e-05, 2.2072505367747435], [9.914912812173028e-05, 2.1358896445754723], [9.914933292527014e-05, 2.047063472773168], [9.914953772965609e-05, 2.002349494087814], [9.914974253488813e-05, 1.9712810579735458], [9.914994734096629e-05, 1.9542765140541523], [9.915015214789053e-05, 1.9459478144620017], [9.915035695566091e-05, 1.9334704446874382], [9.91505617642774e-05, 1.9175207106434453], [9.915076657373999e-05, 1.9033502356026064], [9.915097138404873e-05, 1.8968486332301608], [9.915117619520361e-05, 1.8871119904036115], [9.91513810072046e-05, 1.8756899634765285], [9.915158582005176e-05, 1.864566286809656], [9.915179063374506e-05, 1.8588014983352468], [9.91519954482845e-05, 1.8482962660155475], [9.915220026367011e-05, 1.8378977369352547], [9.915240507990189e-05, 1.8292827854210325], [9.915260989697982e-05, 1.8225532686417305], [9.915281471490394e-05, 1.8168845699173484], [9.915301953367424e-05, 1.8049296168769355], [9.915322435329072e-05, 1.7979497614950548], [9.91534291737534e-05, 1.7899648952690277], [9.915363399506226e-05, 1.7831444061130879], [9.915383881721732e-05, 1.77311570913456], [9.91540436402186e-05, 1.7608935808988886], [9.91542484640661e-05, 1.7496406485611566], [9.915445328875979e-05, 1.7404270656010208], [9.915465811429972e-05, 1.7232678913959096], [9.915486294068587e-05, 1.718055030436657], [9.915506776791825e-05, 1.7060874697098474], [9.915527259599688e-05, 1.7015925585539982], [9.915547742492175e-05, 1.698395584543132], [9.915568225469284e-05, 1.6881041196009434], [9.915588708531022e-05, 1.675175538019994], [9.915609191677385e-05, 1.6656212871015514], [9.915629674908372e-05, 1.7131719886227728], [9.915650158223988e-05, 1.7684776113947345], [9.915670641624231e-05, 1.8252192219306747], [9.915691125109102e-05, 1.8831473435605108], [9.915711608678602e-05, 1.9464383136952426], [9.91573209233273e-05, 2.011410073075329], [9.915752576071487e-05, 2.0713420149009756], [9.915773059894876e-05, 2.129099831803688]]

examples/case1/prompt.txt ADDED Viewed