Spaces:

tuandunghcmut
/

viscot-demo

Running on Zero

dung-vpt-uney commited on Oct 12

Commit

f3839cb

1 Parent(s): 21b5285

Update Visual-CoT demo - 2025-10-12 23:59:41

Fixes:
- Fix LLaVA config registration error (compatibility with newer transformers)
- Update Gradio to latest version (security fixes)
- Auto-deployed via update script

Files changed (1) hide show

app.py +43 -26

app.py CHANGED Viewed

@@ -71,59 +71,53 @@ DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Benchmark datasets from Visual Chain-of-Thought Reasoning Benchmarks Collection
 # https://huggingface.co/collections/tuandunghcmut/visual-chain-of-thought-reasoning-benchmarks
 BENCHMARK_DATASETS = {
-    "Visual-CoT": {
-        "path": "deepcs233/Visual-CoT",
-        "config": None,
-        "split": "train",
-        "description": "Main Visual-CoT dataset with 438K question-answer pairs",
-    },
     "GQA": {
         "path": "lmms-lab/GQA",
         "config": "train_balanced_images",
         "split": "train",
-        "description": "Scene graph question answering (balanced training set)",
     },
     "RefCOCO": {
         "path": "lmms-lab/RefCOCO",
-        "config": None,
-        "split": "train",
-        "description": "Referring expression comprehension (17.6K examples)",
     },
     "RefCOCO+": {
         "path": "lmms-lab/RefCOCOplus",
-        "config": None,
-        "split": "train",
-        "description": "RefCOCO with no location words (7.58K examples)",
     },
     "RefCOCOg": {
         "path": "lmms-lab/RefCOCOg",
-        "config": None,
-        "split": "train",
-        "description": "RefCOCO with longer expressions (12.6K examples)",
     },
     "POPE": {
         "path": "lmms-lab/POPE",
-        "config": None,
         "split": "test",
-        "description": "Polling-based Object Probing Evaluation (18K test examples)",
     },
     "ScienceQA": {
         "path": "lmms-lab/ScienceQA",
-        "config": None,
-        "split": "train",
-        "description": "Science question answering (12.6K examples)",
     },
     "MM-GCoT": {
         "path": "AQUA6/MM-GCoT",
-        "config": None,
         "split": "train",
-        "description": "Multi-Modal Graph Chain-of-Thought (64.9K examples)",
     },
     "VGR": {
         "path": "BytedanceDouyinContent/VGR",
-        "config": None,
         "split": "train",
-        "description": "Visual Grounding & Reasoning (90K examples)",
     },
 }
@@ -224,7 +218,7 @@ def load_benchmark_example(dataset_name, index=0):
         # Load dataset with config and split
         print(f"Loading {dataset_name} from {dataset_path} (config={dataset_config}, split={dataset_split})...")
-        if dataset_config:
             dataset = load_dataset(dataset_path, dataset_config, split=dataset_split, streaming=True)
         else:
             dataset = load_dataset(dataset_path, split=dataset_split, streaming=True)
@@ -262,6 +256,13 @@ def load_benchmark_example(dataset_name, index=0):
         traceback.print_exc()
         return None, error_msg, "", "", error_msg
 # =============================================================================
 # Utility Functions
 # =============================================================================
@@ -650,6 +651,16 @@ def create_demo():
                         submit_btn = gr.Button("Run Analysis", variant="primary", size="lg")
                         clear_btn = gr.Button("Clear", size="sm")
                     with gr.Column(scale=1):
                         # Output
@@ -732,6 +743,12 @@ def create_demo():
                     fn=lambda: (None, "", "", "", None, ""),
                     outputs=[image_input, question_input, bbox_output, answer_output, image_output, info_output],
                 )
             # ============================================================
             # Tab 2: Benchmark Explorer

 # Benchmark datasets from Visual Chain-of-Thought Reasoning Benchmarks Collection
 # https://huggingface.co/collections/tuandunghcmut/visual-chain-of-thought-reasoning-benchmarks
 BENCHMARK_DATASETS = {
     "GQA": {
         "path": "lmms-lab/GQA",
         "config": "train_balanced_images",
         "split": "train",
+        "description": "Scene graph QA (72K balanced images)",
     },
     "RefCOCO": {
         "path": "lmms-lab/RefCOCO",
+        "config": "default",
+        "split": "val",
+        "description": "Referring expression comprehension (8.8K validation)",
     },
     "RefCOCO+": {
         "path": "lmms-lab/RefCOCOplus",
+        "config": "default",
+        "split": "val",
+        "description": "RefCOCO with no location words (3.8K validation)",
     },
     "RefCOCOg": {
         "path": "lmms-lab/RefCOCOg",
+        "config": "default",
+        "split": "val",
+        "description": "RefCOCO with longer expressions (7.5K validation)",
     },
     "POPE": {
         "path": "lmms-lab/POPE",
+        "config": "default",
         "split": "test",
+        "description": "Object probing evaluation (9K test)",
     },
     "ScienceQA": {
         "path": "lmms-lab/ScienceQA",
+        "config": "ScienceQA-FULL",
+        "split": "validation",
+        "description": "Science question answering (4.2K validation)",
     },
     "MM-GCoT": {
         "path": "AQUA6/MM-GCoT",
+        "config": "train",
         "split": "train",
+        "description": "Multi-Modal Graph CoT (63.9K training)",
     },
     "VGR": {
         "path": "BytedanceDouyinContent/VGR",
+        "config": "default",
         "split": "train",
+        "description": "Visual Grounding & Reasoning (90K training)",
     },
 }
         # Load dataset with config and split
         print(f"Loading {dataset_name} from {dataset_path} (config={dataset_config}, split={dataset_split})...")
+        if dataset_config and dataset_config != "None":
             dataset = load_dataset(dataset_path, dataset_config, split=dataset_split, streaming=True)
         else:
             dataset = load_dataset(dataset_path, split=dataset_split, streaming=True)
         traceback.print_exc()
         return None, error_msg, "", "", error_msg
+def load_random_benchmark_example(dataset_name):
+    """Load a random example from benchmark for inference"""
+    import random
+    # Use random index between 0-99 for faster loading
+    random_index = random.randint(0, 99)
+    return load_benchmark_example(dataset_name, random_index)
 # =============================================================================
 # Utility Functions
 # =============================================================================
                         submit_btn = gr.Button("Run Analysis", variant="primary", size="lg")
                         clear_btn = gr.Button("Clear", size="sm")
+                        gr.Markdown("---")
+                        gr.Markdown("**Load Random Benchmark Example:**")
+                        benchmark_select = gr.Dropdown(
+                            choices=list(BENCHMARK_DATASETS.keys()),
+                            value="GQA",
+                            label="Select Benchmark",
+                            scale=1,
+                        )
+                        load_random_btn = gr.Button("🎲 Load Random Example", variant="secondary")
                     with gr.Column(scale=1):
                         # Output
                     fn=lambda: (None, "", "", "", None, ""),
                     outputs=[image_input, question_input, bbox_output, answer_output, image_output, info_output],
                 )
+                load_random_btn.click(
+                    fn=load_random_benchmark_example,
+                    inputs=[benchmark_select],
+                    outputs=[image_input, question_input, bbox_output, answer_output, info_output],
+                )
             # ============================================================
             # Tab 2: Benchmark Explorer