ctheodoris
/

Geneformer

Model card Files Files and versions

ricomnl commited on Aug 4, 2023

Commit

5cb733f

·

1 Parent(s): b6ca566

Generalized

Files changed (1) hide show

geneformer/tokenizer.py +1 -4

geneformer/tokenizer.py CHANGED Viewed

@@ -288,10 +288,7 @@ class TranscriptomeTokenizer:
         # create dataset
         def dict_generator():
             for i in range(len(tokenized_cells)):
-                yield {
-                    'input_ids': dataset_dict['input_ids'][i],
-                    'cell_type': dataset_dict['cell_type'][i]
-                }
         output_dataset = Dataset.from_generator(dict_generator, num_proc=self.nproc)
         # truncate dataset

         # create dataset
         def dict_generator():
             for i in range(len(tokenized_cells)):
+                yield {k: dataset_dict[k][i] for k in dataset_dict.keys()}
         output_dataset = Dataset.from_generator(dict_generator, num_proc=self.nproc)
         # truncate dataset