[Bug Fix] Update demo code to work with the latest transformers library version

The current demo code fails to run correctly with newer versions of the transformers library.

First, the `audios` parameter in the `__call__` method of `Qwen2AudioProcessor` has been renamed to `audio` starting from transformers v4.54.0. While this doesn't throw an explicit error, the model silently fails to receive audio input. This is particularly confusing for beginners, who may mistakenly assume the model itself is corrupted rather than identifying the parameter mismatch.

Second, the existing GPU migration code (`inputs.input_ids = inputs.input_ids.to("cuda")`) causes a device mismatch error: `RuntimeError: Expected all tensors to be on the same device, but got index is on cpu, different from other tensors on cuda:0 (when checking argument in method wrapper_CUDA__index_select)`. This can be fixed by moving the entire `inputs` object to CUDA instead of just `input_ids`.

This PR updates the demo code to address both issues, ensuring compatibility with the latest transformers versions .

Files changed (1) hide show

README.md +6 -6

README.md CHANGED Viewed

@@ -68,8 +68,8 @@ for message in conversation:
                     sr=processor.feature_extractor.sampling_rate)[0]
                 )
-inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
-inputs.input_ids = inputs.input_ids.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]
@@ -116,8 +116,8 @@ for message in conversation:
                         sr=processor.feature_extractor.sampling_rate)[0]
                 )
-inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
-inputs.input_ids = inputs.input_ids.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]
@@ -171,9 +171,9 @@ for conversation in conversations:
                             sr=processor.feature_extractor.sampling_rate)[0]
                     )
-inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
 inputs['input_ids'] = inputs['input_ids'].to("cuda")
-inputs.input_ids = inputs.input_ids.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]

                     sr=processor.feature_extractor.sampling_rate)[0]
                 )
+inputs = processor(text=text, audio=audios, return_tensors="pt", padding=True)
+inputs = inputs.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]
                         sr=processor.feature_extractor.sampling_rate)[0]
                 )
+inputs = processor(text=text, audio=audios, return_tensors="pt", padding=True)
+inputs = inputs.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]
                             sr=processor.feature_extractor.sampling_rate)[0]
                     )
+inputs = processor(text=text, audio=audios, return_tensors="pt", padding=True)
 inputs['input_ids'] = inputs['input_ids'].to("cuda")
+inputs = inputs.to("cuda")
 generate_ids = model.generate(**inputs, max_length=256)
 generate_ids = generate_ids[:, inputs.input_ids.size(1):]