Efficient-Large-Model
/

VILA15-13b-hf-preview

Text Generation

feature-extraction

Model card Files Files and versions

Ligeng-Zhu commited on Feb 25

Commit

d89f304

·

verified ·

1 Parent(s): a6447a4

Upload files with `vila-upload`.

Upload mm_utils.py
Upload siglip_encoder.py

Files changed (2) hide show

mm_utils.py +1 -1
siglip_encoder.py +6 -2

mm_utils.py CHANGED Viewed

@@ -26,7 +26,7 @@ import torch
 from PIL import Image
 from transformers import StoppingCriteria
-from llava.constants import DEFAULT_IMAGE_TOKEN
 def get_frame_from_vcap(vidcap, num_frames=10, max_fps=0.0, fps=None, frame_count=None, video_file_name=None):

 from PIL import Image
 from transformers import StoppingCriteria
+from .constants import DEFAULT_IMAGE_TOKEN
 def get_frame_from_vcap(vidcap, num_frames=10, max_fps=0.0, fps=None, frame_count=None, video_file_name=None):

siglip_encoder.py CHANGED Viewed

@@ -19,12 +19,16 @@ import torch.nn as nn
 import torch.nn.functional as F
 from accelerate.hooks import add_hook_to_module
 from einops import rearrange
-from s2wrapper import forward as multiscale_forward
 from transformers import AutoConfig, PretrainedConfig, PreTrainedModel, SiglipImageProcessor
 from transformers.image_processing_utils import BaseImageProcessor
-from transformers.integrations.deepspeed import is_deepspeed_zero3_enabled
 from transformers.models.siglip import SiglipVisionModel
 class VisionTower(nn.Module):
     def __init__(self, vision_tower, args, delay_load=False):

 import torch.nn.functional as F
 from accelerate.hooks import add_hook_to_module
 from einops import rearrange
 from transformers import AutoConfig, PretrainedConfig, PreTrainedModel, SiglipImageProcessor
 from transformers.image_processing_utils import BaseImageProcessor
 from transformers.models.siglip import SiglipVisionModel
+from s2wrapper import forward as multiscale_forward
+# from transformers.integrations.deepspeed import is_deepspeed_zero3_enabled
+def is_deepspeed_zero3_enabled():
+    return False
 class VisionTower(nn.Module):
     def __init__(self, vision_tower, args, delay_load=False):