Update model

Files changed (10) hide show

README.md +456 -0
meta.yaml +8 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/data/fsd50k/token_list +202 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/RESULTS.md +16 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/config.yaml +404 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_0/events.out.tfevents.1742423411.gh015.hsn.cm.delta.internal.ncsa.edu.1268224.0 +3 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_0/hparams.yaml +207 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_1/events.out.tfevents.1742442145.gh096.hsn.cm.delta.internal.ncsa.edu.1929255.0 +3 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_1/hparams.yaml +208 -0
work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/valid.epoch_mAP.ave_1best.pth +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,456 @@

+---
+tags:
+- espnet
+- audio
+- classification
+datasets:
+- fsd50k
+license: cc-by-4.0
+---
+## ESPnet2 CLS model
+### `espnet/OpenBEATS-Base-i2-fsd50k`
+This model was trained by Shikhar Bharadwaj using fsd50k recipe in [espnet](https://github.com/espnet/espnet/).
+## CLS config
+<details><summary>expand</summary>
+```
+config: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/earbasei2/conf/ear_base/fsd50k.yaml
+print_config: false
+log_level: INFO
+drop_last_iter: false
+dry_run: false
+iterator_type: sequence
+valid_iterator_type: null
+output_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+ngpu: 0
+seed: 0
+num_workers: 8
+num_att_plot: 0
+dist_backend: nccl
+dist_init_method: env://
+dist_world_size: null
+dist_rank: null
+local_rank: null
+dist_master_addr: null
+dist_master_port: null
+dist_launcher: null
+multiprocessing_distributed: false
+unused_parameters: true
+sharded_ddp: false
+use_deepspeed: false
+deepspeed_config: null
+gradient_as_bucket_view: true
+ddp_comm_hook: null
+cudnn_enabled: true
+cudnn_benchmark: false
+cudnn_deterministic: true
+use_tf32: false
+collect_stats: false
+write_collected_feats: false
+max_epoch: 105
+patience: null
+val_scheduler_criterion:
+- valid
+- loss
+early_stopping_criterion:
+- valid
+- loss
+- min
+best_model_criterion:
+-   - valid
+    - epoch_mAP
+    - max
+keep_nbest_models: 5
+nbest_averaging_interval: 0
+grad_clip: 1
+grad_clip_type: 2.0
+grad_noise: false
+accum_grad: 1
+no_forward_run: false
+resume: true
+train_dtype: float32
+use_amp: false
+log_interval: null
+use_matplotlib: true
+use_tensorboard: true
+create_graph_in_tensorboard: false
+use_wandb: true
+wandb_project: audioverse
+wandb_id: null
+wandb_entity: shikhar
+wandb_name: fsd50k.earbasei2
+wandb_model_log_interval: -1
+detect_anomaly: false
+use_adapter: false
+adapter: lora
+save_strategy: all
+adapter_conf: {}
+pretrain_path: null
+init_param: []
+ignore_init_mismatch: false
+freeze_param: []
+num_iters_per_epoch: null
+batch_size: 20
+valid_batch_size: null
+batch_bins: 3000000
+valid_batch_bins: null
+category_sample_size: 10
+train_shape_file:
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/speech_shape
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/label_shape
+valid_shape_file:
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/speech_shape
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/label_shape
+batch_type: numel
+valid_batch_type: null
+fold_length:
+- 160000
+- 200
+sort_in_batch: descending
+shuffle_within_batch: false
+sort_batch: descending
+multiple_iterator: false
+utt2weight_file: null
+chunk_length: 500
+chunk_shift_ratio: 0.5
+num_cache_chunks: 1024
+chunk_excluded_key_prefixes: []
+chunk_default_fs: null
+chunk_max_abs_length: null
+chunk_discard_short_samples: true
+train_data_path_and_name_and_type:
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/wav.scp
+    - speech
+    - sound
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/text
+    - label
+    - text
+valid_data_path_and_name_and_type:
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/wav.scp
+    - speech
+    - sound
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/text
+    - label
+    - text
+multi_task_dataset: false
+allow_variable_data_keys: false
+max_cache_size: 0.0
+max_cache_fd: 32
+allow_multi_rates: false
+valid_max_cache_size: null
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+optim: adamw
+optim_conf:
+    lr: 3.0e-05
+    weight_decay: 0.01
+    betas:
+    - 0.9
+    - 0.98
+scheduler: cosineannealingwarmuprestarts
+scheduler_conf:
+    first_cycle_steps: 95000
+    warmup_steps: 8000
+    max_lr: 3.0e-05
+    min_lr: 5.0e-06
+lightning_conf:
+    log_every_n_steps: 250
+    max_epochs: 105
+    strategy: ddp
+    strategy_conf:
+        find_unused_parameters: true
+    best_model_criterion:
+    -   - valid/epoch_mAP
+        - max
+        - 1
+    devices: 1
+    num_nodes: 1
+    default_root_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+token_list:
+- Music
+- Musical_instrument
+- Domestic_sounds_and_home_sounds
+- Human_voice
+- Animal
+- Percussion
+- Wind_instrument_and_woodwind_instrument
+- Vehicle
+- Bowed_string_instrument
+- Plucked_string_instrument
+- Guitar
+- Wild_animals
+- Speech
+- Keyboard_(musical)
+- Water
+- Motor_vehicle_(road)
+- Alarm
+- Bird
+- Drum
+- Liquid
+- Explosion
+- Mechanisms
+- Domestic_animals_and_pets
+- Door
+- Laughter
+- Brass_instrument
+- Glass
+- Engine
+- Respiratory_sounds
+- Tools
+- Bell
+- Piano
+- Dog
+- Human_group_actions
+- Snare_drum
+- Car
+- Cymbal
+- Rail_transport
+- Trumpet
+- Telephone
+- Hands
+- Singing
+- Fart
+- Acoustic_guitar
+- Bird_vocalization_and_bird_call_and_bird_song
+- Rain
+- Livestock_and_farm_animals_and_working_animals
+- Electric_guitar
+- Breathing
+- Thunderstorm
+- Thunder
+- Hi-hat
+- Coin_(dropping)
+- Fire
+- Bark
+- Shatter
+- Female_speech_and_woman_speaking
+- Fireworks
+- Insect
+- Male_speech_and_man_speaking
+- Squeak
+- Applause
+- Clapping
+- Walk_and_footsteps
+- Splash_and_splatter
+- Slam
+- Gunshot_and_gunfire
+- Drum_kit
+- Train
+- Dishes_and_pots_and_pans
+- Bass_guitar
+- Organ
+- Wood
+- Cat
+- Subway_and_metro_and_underground
+- Thump_and_thud
+- Typing
+- Camera
+- Mallet_percussion
+- Wind
+- Zipper_(clothing)
+- Sink_(filling_or_washing)
+- Water_tap_and_faucet
+- Cough
+- Clock
+- Crowd
+- Tearing
+- Whoosh_and_swoosh_and_swish
+- Knock
+- Cutlery_and_silverware
+- Rattle_(instrument)
+- Writing
+- Screaming
+- Chink_and_clink
+- Ocean
+- Run
+- Tap
+- Fowl
+- Scratching_(performance_technique)
+- Drip
+- Bicycle
+- Tambourine
+- Burping_and_eructation
+- Crackle
+- Shout
+- Bass_drum
+- Bus
+- Stream
+- Crash_cymbal
+- Cheering
+- Toilet_flush
+- Gong
+- Crumpling_and_crinkling
+- Aircraft
+- Sliding_door
+- Chirp_and_tweet
+- Crushing
+- Strum
+- Chime
+- Chewing_and_mastication
+- Marimba_and_xylophone
+- Harp
+- Cricket
+- Cowbell
+- Meow
+- Motorcycle
+- Keys_jangling
+- Whispering
+- Power_tool
+- Waves_and_surf
+- Boom
+- Drill
+- Hammer
+- Harmonica
+- Accelerating_and_revving_and_vroom
+- Hiss
+- Child_speech_and_kid_speaking
+- Rattle
+- Drawer_open_or_close
+- Bathtub_(filling_or_washing)
+- Trickle_and_dribble
+- Pour
+- Microwave_oven
+- Traffic_noise_and_roadway_noise
+- Engine_starting
+- Yell
+- Chicken_and_rooster
+- Female_singing
+- Finger_snapping
+- Computer_keyboard
+- Car_passing_by
+- Gurgling
+- Raindrop
+- Crack
+- Sawing
+- Vehicle_horn_and_car_horn_and_honking
+- Truck
+- Crying_and_sobbing
+- Idling
+- Doorbell
+- Scissors
+- Boat_and_Water_vehicle
+- Fixed-wing_aircraft_and_airplane
+- Giggle
+- Printer
+- Cupboard_open_or_close
+- Tick-tock
+- Ringtone
+- Fill_(with_liquid)
+- Skateboard
+- Male_singing
+- Screech
+- Church_bell
+- Buzz
+- Siren
+- Crow
+- Sigh
+- Race_car_and_auto_racing
+- Growling
+- Frog
+- Gull_and_seagull
+- Packing_tape_and_duct_tape
+- Bicycle_bell
+- Frying_(food)
+- Chatter
+- Boiling
+- Wind_chime
+- Sneeze
+- Mechanical_fan
+- Purr
+- Speech_synthesizer
+- Conversation
+- Ratchet_and_pawl
+- Gasp
+- Chuckle_and_chortle
+- Glockenspiel
+- Accordion
+- Tabla
+- Typewriter
+- Tick
+- <blank>
+- <unk>
+text_token_list: null
+text_bpemodel: null
+init: xavier_normal
+input_size: 1
+use_preprocessor: true
+frontend: null
+frontend_conf: {}
+specaug: null
+specaug_conf: {}
+normalize: null
+normalize_conf: {}
+preencoder: null
+preencoder_conf: {}
+encoder: beats
+encoder_conf:
+    beats_ckpt_path: /work/nvme/bbjs/sbharadwaj/model_checkpoints/ear_base/beats_iter1_base.tune_lr5e-4_warmup40000_bins1600000_totalsteps400000/epoch59.pt
+    beats_config:
+        layer_wise_gradient_decay_ratio: 0.3
+        encoder_layerdrop: 0.1
+        dropout: 0.0
+    use_weighted_representation: false
+    specaug_config:
+        apply_time_warp: true
+        apply_freq_mask: false
+        apply_time_mask: true
+        time_mask_width_ratio_range:
+        - 0
+        - 0.06
+        num_time_mask: 1
+    roll_augment: true
+    roll_interval: 1
+text_encoder: null
+text_encoder_conf: {}
+embedding_fusion: null
+embedding_fusion_conf: {}
+decoder: linear
+decoder_conf: {}
+model: espnet
+model_conf:
+    classification_type: multi-label
+    mixup_probability: 0.2
+    lsm_weight: 0.0
+    log_epoch_metrics: true
+user_callbacks:
+- mAP_logging
+required:
+- output_dir
+- token_list
+task: cls
+```
+</details>
+### Citations
+```BibTex
+@article{bharadwaj2025openbeats,
+  title={OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder},
+  author={Bharadwaj, Shikhar and Cornell, Samuele and Choi, Kwanghee and Fukayama, Satoru and Shim, Hye-jin and Deshmukh, Soham and Watanabe, Shinji},
+  journal={arXiv preprint arXiv:2507.14129},
+  year={2025}
+}
+@inproceedings{watanabe2018espnet,
+  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
+  title={{ESPnet}: End-to-End Speech Processing Toolkit},
+  year={2018},
+  booktitle={Proceedings of Interspeech},
+  pages={2207--2211},
+  doi={10.21437/Interspeech.2018-1456},
+  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
+}
+```

meta.yaml ADDED Viewed

	@@ -0,0 +1,8 @@

+espnet: '202503'
+files:
+  classification_model_file: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/valid.epoch_mAP.ave_1best.pth
+python: "3.9.18 | packaged by conda-forge | (main, Dec 23 2023, 17:20:25) \n[GCC 12.3.0]"
+timestamp: 1763330803.045668
+torch: 2.1.2
+yaml_files:
+  classification_train_config: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/config.yaml

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/data/fsd50k/token_list ADDED Viewed

	@@ -0,0 +1,202 @@

+Music
+Musical_instrument
+Domestic_sounds_and_home_sounds
+Human_voice
+Animal
+Percussion
+Wind_instrument_and_woodwind_instrument
+Vehicle
+Bowed_string_instrument
+Plucked_string_instrument
+Guitar
+Wild_animals
+Speech
+Keyboard_(musical)
+Water
+Motor_vehicle_(road)
+Alarm
+Bird
+Drum
+Liquid
+Explosion
+Mechanisms
+Domestic_animals_and_pets
+Door
+Laughter
+Brass_instrument
+Glass
+Engine
+Respiratory_sounds
+Tools
+Bell
+Piano
+Dog
+Human_group_actions
+Snare_drum
+Car
+Cymbal
+Rail_transport
+Trumpet
+Telephone
+Hands
+Singing
+Fart
+Acoustic_guitar
+Bird_vocalization_and_bird_call_and_bird_song
+Rain
+Livestock_and_farm_animals_and_working_animals
+Electric_guitar
+Breathing
+Thunderstorm
+Thunder
+Hi-hat
+Coin_(dropping)
+Fire
+Bark
+Shatter
+Female_speech_and_woman_speaking
+Fireworks
+Insect
+Male_speech_and_man_speaking
+Squeak
+Applause
+Clapping
+Walk_and_footsteps
+Splash_and_splatter
+Slam
+Gunshot_and_gunfire
+Drum_kit
+Train
+Dishes_and_pots_and_pans
+Bass_guitar
+Organ
+Wood
+Cat
+Subway_and_metro_and_underground
+Thump_and_thud
+Typing
+Camera
+Mallet_percussion
+Wind
+Zipper_(clothing)
+Sink_(filling_or_washing)
+Water_tap_and_faucet
+Cough
+Clock
+Crowd
+Tearing
+Whoosh_and_swoosh_and_swish
+Knock
+Cutlery_and_silverware
+Rattle_(instrument)
+Writing
+Screaming
+Chink_and_clink
+Ocean
+Run
+Tap
+Fowl
+Scratching_(performance_technique)
+Drip
+Bicycle
+Tambourine
+Burping_and_eructation
+Crackle
+Shout
+Bass_drum
+Bus
+Stream
+Crash_cymbal
+Cheering
+Toilet_flush
+Gong
+Crumpling_and_crinkling
+Aircraft
+Sliding_door
+Chirp_and_tweet
+Crushing
+Strum
+Chime
+Chewing_and_mastication
+Marimba_and_xylophone
+Harp
+Cricket
+Cowbell
+Meow
+Motorcycle
+Keys_jangling
+Whispering
+Power_tool
+Waves_and_surf
+Boom
+Drill
+Hammer
+Harmonica
+Accelerating_and_revving_and_vroom
+Hiss
+Child_speech_and_kid_speaking
+Rattle
+Drawer_open_or_close
+Bathtub_(filling_or_washing)
+Trickle_and_dribble
+Pour
+Microwave_oven
+Traffic_noise_and_roadway_noise
+Engine_starting
+Yell
+Chicken_and_rooster
+Female_singing
+Finger_snapping
+Computer_keyboard
+Car_passing_by
+Gurgling
+Raindrop
+Crack
+Sawing
+Vehicle_horn_and_car_horn_and_honking
+Truck
+Crying_and_sobbing
+Idling
+Doorbell
+Scissors
+Boat_and_Water_vehicle
+Fixed-wing_aircraft_and_airplane
+Giggle
+Printer
+Cupboard_open_or_close
+Tick-tock
+Ringtone
+Fill_(with_liquid)
+Skateboard
+Male_singing
+Screech
+Church_bell
+Buzz
+Siren
+Crow
+Sigh
+Race_car_and_auto_racing
+Growling
+Frog
+Gull_and_seagull
+Packing_tape_and_duct_tape
+Bicycle_bell
+Frying_(food)
+Chatter
+Boiling
+Wind_chime
+Sneeze
+Mechanical_fan
+Purr
+Speech_synthesizer
+Conversation
+Ratchet_and_pawl
+Gasp
+Chuckle_and_chortle
+Glockenspiel
+Accordion
+Tabla
+Typewriter
+Tick
+<blank>
+<unk>

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/RESULTS.md ADDED Viewed

	@@ -0,0 +1,16 @@

+<!-- Generated by scripts/utils/show_cls_result.sh -->
+# RESULTS
+## Environments
+- date: `Wed Mar 19 22:56:10 CDT 2025`
+- python version: `3.9.18 | packaged by conda-forge | (main, Dec 23 2023, 17:20:25)  [GCC 12.3.0]`
+- espnet version: `espnet 202412`
+- pytorch version: `pytorch 2.6.0.dev20241210+cu124`
+- Git hash: `0e83599887130b7c351074669974ed8642016651`
+  - Commit date: `Wed Mar 19 20:32:11 2025 -0500`
+## cls_earbasei2
+|Split|mean_acc|mAP|mean_auc|n_labels|n_instances|
+|---|---|---|---|---|---|
+cls_test|43.43|55.84|94.82|200.00|10231.00
+cls_val|45.26|58.59|96.81|200.00|4165.00

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/config.yaml ADDED Viewed

	@@ -0,0 +1,404 @@

+config: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/earbasei2/conf/ear_base/fsd50k.yaml
+print_config: false
+log_level: INFO
+drop_last_iter: false
+dry_run: false
+iterator_type: sequence
+valid_iterator_type: null
+output_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+ngpu: 0
+seed: 0
+num_workers: 8
+num_att_plot: 0
+dist_backend: nccl
+dist_init_method: env://
+dist_world_size: null
+dist_rank: null
+local_rank: null
+dist_master_addr: null
+dist_master_port: null
+dist_launcher: null
+multiprocessing_distributed: false
+unused_parameters: true
+sharded_ddp: false
+use_deepspeed: false
+deepspeed_config: null
+gradient_as_bucket_view: true
+ddp_comm_hook: null
+cudnn_enabled: true
+cudnn_benchmark: false
+cudnn_deterministic: true
+use_tf32: false
+collect_stats: false
+write_collected_feats: false
+max_epoch: 105
+patience: null
+val_scheduler_criterion:
+- valid
+- loss
+early_stopping_criterion:
+- valid
+- loss
+- min
+best_model_criterion:
+-   - valid
+    - epoch_mAP
+    - max
+keep_nbest_models: 5
+nbest_averaging_interval: 0
+grad_clip: 1
+grad_clip_type: 2.0
+grad_noise: false
+accum_grad: 1
+no_forward_run: false
+resume: true
+train_dtype: float32
+use_amp: false
+log_interval: null
+use_matplotlib: true
+use_tensorboard: true
+create_graph_in_tensorboard: false
+use_wandb: true
+wandb_project: audioverse
+wandb_id: null
+wandb_entity: shikhar
+wandb_name: fsd50k.earbasei2
+wandb_model_log_interval: -1
+detect_anomaly: false
+use_adapter: false
+adapter: lora
+save_strategy: all
+adapter_conf: {}
+pretrain_path: null
+init_param: []
+ignore_init_mismatch: false
+freeze_param: []
+num_iters_per_epoch: null
+batch_size: 20
+valid_batch_size: null
+batch_bins: 3000000
+valid_batch_bins: null
+category_sample_size: 10
+train_shape_file:
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/speech_shape
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/label_shape
+valid_shape_file:
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/speech_shape
+- /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/label_shape
+batch_type: numel
+valid_batch_type: null
+fold_length:
+- 160000
+- 200
+sort_in_batch: descending
+shuffle_within_batch: false
+sort_batch: descending
+multiple_iterator: false
+utt2weight_file: null
+chunk_length: 500
+chunk_shift_ratio: 0.5
+num_cache_chunks: 1024
+chunk_excluded_key_prefixes: []
+chunk_default_fs: null
+chunk_max_abs_length: null
+chunk_discard_short_samples: true
+train_data_path_and_name_and_type:
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/wav.scp
+    - speech
+    - sound
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/text
+    - label
+    - text
+valid_data_path_and_name_and_type:
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/wav.scp
+    - speech
+    - sound
+-   - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/text
+    - label
+    - text
+multi_task_dataset: false
+allow_variable_data_keys: false
+max_cache_size: 0.0
+max_cache_fd: 32
+allow_multi_rates: false
+valid_max_cache_size: null
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+optim: adamw
+optim_conf:
+    lr: 3.0e-05
+    weight_decay: 0.01
+    betas:
+    - 0.9
+    - 0.98
+scheduler: cosineannealingwarmuprestarts
+scheduler_conf:
+    first_cycle_steps: 95000
+    warmup_steps: 8000
+    max_lr: 3.0e-05
+    min_lr: 5.0e-06
+lightning_conf:
+    log_every_n_steps: 250
+    max_epochs: 105
+    strategy: ddp
+    strategy_conf:
+        find_unused_parameters: true
+    best_model_criterion:
+    -   - valid/epoch_mAP
+        - max
+        - 1
+    devices: 1
+    num_nodes: 1
+    default_root_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+token_list:
+- Music
+- Musical_instrument
+- Domestic_sounds_and_home_sounds
+- Human_voice
+- Animal
+- Percussion
+- Wind_instrument_and_woodwind_instrument
+- Vehicle
+- Bowed_string_instrument
+- Plucked_string_instrument
+- Guitar
+- Wild_animals
+- Speech
+- Keyboard_(musical)
+- Water
+- Motor_vehicle_(road)
+- Alarm
+- Bird
+- Drum
+- Liquid
+- Explosion
+- Mechanisms
+- Domestic_animals_and_pets
+- Door
+- Laughter
+- Brass_instrument
+- Glass
+- Engine
+- Respiratory_sounds
+- Tools
+- Bell
+- Piano
+- Dog
+- Human_group_actions
+- Snare_drum
+- Car
+- Cymbal
+- Rail_transport
+- Trumpet
+- Telephone
+- Hands
+- Singing
+- Fart
+- Acoustic_guitar
+- Bird_vocalization_and_bird_call_and_bird_song
+- Rain
+- Livestock_and_farm_animals_and_working_animals
+- Electric_guitar
+- Breathing
+- Thunderstorm
+- Thunder
+- Hi-hat
+- Coin_(dropping)
+- Fire
+- Bark
+- Shatter
+- Female_speech_and_woman_speaking
+- Fireworks
+- Insect
+- Male_speech_and_man_speaking
+- Squeak
+- Applause
+- Clapping
+- Walk_and_footsteps
+- Splash_and_splatter
+- Slam
+- Gunshot_and_gunfire
+- Drum_kit
+- Train
+- Dishes_and_pots_and_pans
+- Bass_guitar
+- Organ
+- Wood
+- Cat
+- Subway_and_metro_and_underground
+- Thump_and_thud
+- Typing
+- Camera
+- Mallet_percussion
+- Wind
+- Zipper_(clothing)
+- Sink_(filling_or_washing)
+- Water_tap_and_faucet
+- Cough
+- Clock
+- Crowd
+- Tearing
+- Whoosh_and_swoosh_and_swish
+- Knock
+- Cutlery_and_silverware
+- Rattle_(instrument)
+- Writing
+- Screaming
+- Chink_and_clink
+- Ocean
+- Run
+- Tap
+- Fowl
+- Scratching_(performance_technique)
+- Drip
+- Bicycle
+- Tambourine
+- Burping_and_eructation
+- Crackle
+- Shout
+- Bass_drum
+- Bus
+- Stream
+- Crash_cymbal
+- Cheering
+- Toilet_flush
+- Gong
+- Crumpling_and_crinkling
+- Aircraft
+- Sliding_door
+- Chirp_and_tweet
+- Crushing
+- Strum
+- Chime
+- Chewing_and_mastication
+- Marimba_and_xylophone
+- Harp
+- Cricket
+- Cowbell
+- Meow
+- Motorcycle
+- Keys_jangling
+- Whispering
+- Power_tool
+- Waves_and_surf
+- Boom
+- Drill
+- Hammer
+- Harmonica
+- Accelerating_and_revving_and_vroom
+- Hiss
+- Child_speech_and_kid_speaking
+- Rattle
+- Drawer_open_or_close
+- Bathtub_(filling_or_washing)
+- Trickle_and_dribble
+- Pour
+- Microwave_oven
+- Traffic_noise_and_roadway_noise
+- Engine_starting
+- Yell
+- Chicken_and_rooster
+- Female_singing
+- Finger_snapping
+- Computer_keyboard
+- Car_passing_by
+- Gurgling
+- Raindrop
+- Crack
+- Sawing
+- Vehicle_horn_and_car_horn_and_honking
+- Truck
+- Crying_and_sobbing
+- Idling
+- Doorbell
+- Scissors
+- Boat_and_Water_vehicle
+- Fixed-wing_aircraft_and_airplane
+- Giggle
+- Printer
+- Cupboard_open_or_close
+- Tick-tock
+- Ringtone
+- Fill_(with_liquid)
+- Skateboard
+- Male_singing
+- Screech
+- Church_bell
+- Buzz
+- Siren
+- Crow
+- Sigh
+- Race_car_and_auto_racing
+- Growling
+- Frog
+- Gull_and_seagull
+- Packing_tape_and_duct_tape
+- Bicycle_bell
+- Frying_(food)
+- Chatter
+- Boiling
+- Wind_chime
+- Sneeze
+- Mechanical_fan
+- Purr
+- Speech_synthesizer
+- Conversation
+- Ratchet_and_pawl
+- Gasp
+- Chuckle_and_chortle
+- Glockenspiel
+- Accordion
+- Tabla
+- Typewriter
+- Tick
+- <blank>
+- <unk>
+text_token_list: null
+text_bpemodel: null
+init: xavier_normal
+input_size: 1
+use_preprocessor: true
+frontend: null
+frontend_conf: {}
+specaug: null
+specaug_conf: {}
+normalize: null
+normalize_conf: {}
+preencoder: null
+preencoder_conf: {}
+encoder: beats
+encoder_conf:
+    beats_ckpt_path: /work/nvme/bbjs/sbharadwaj/model_checkpoints/ear_base/beats_iter1_base.tune_lr5e-4_warmup40000_bins1600000_totalsteps400000/epoch59.pt
+    beats_config:
+        layer_wise_gradient_decay_ratio: 0.3
+        encoder_layerdrop: 0.1
+        dropout: 0.0
+    use_weighted_representation: false
+    specaug_config:
+        apply_time_warp: true
+        apply_freq_mask: false
+        apply_time_mask: true
+        time_mask_width_ratio_range:
+        - 0
+        - 0.06
+        num_time_mask: 1
+    roll_augment: true
+    roll_interval: 1
+text_encoder: null
+text_encoder_conf: {}
+embedding_fusion: null
+embedding_fusion_conf: {}
+decoder: linear
+decoder_conf: {}
+model: espnet
+model_conf:
+    classification_type: multi-label
+    mixup_probability: 0.2
+    lsm_weight: 0.0
+    log_epoch_metrics: true
+user_callbacks:
+- mAP_logging
+required:
+- output_dir
+- token_list
+task: cls

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_0/events.out.tfevents.1742423411.gh015.hsn.cm.delta.internal.ncsa.edu.1268224.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f8960e055b1598586dd9c02d57f0c17c79a7c412d546647c6bd8278f7334e7f
+size 157218

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_0/hparams.yaml ADDED Viewed

	@@ -0,0 +1,207 @@

+args: !!python/object:argparse.Namespace
+  accum_grad: 1
+  adapter: lora
+  adapter_conf: {}
+  allow_multi_rates: false
+  allow_variable_data_keys: false
+  batch_bins: 3000000
+  batch_size: 20
+  batch_type: numel
+  best_model_criterion:
+  - - valid
+    - epoch_mAP
+    - max
+  category_sample_size: 10
+  chunk_default_fs: null
+  chunk_discard_short_samples: true
+  chunk_excluded_key_prefixes: []
+  chunk_length: 500
+  chunk_max_abs_length: null
+  chunk_shift_ratio: 0.5
+  collect_stats: false
+  config: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/earbasei2/conf/ear_base/fsd50k.yaml
+  create_graph_in_tensorboard: false
+  cudnn_benchmark: false
+  cudnn_deterministic: true
+  cudnn_enabled: true
+  ddp_comm_hook: null
+  decoder: linear
+  decoder_conf: {}
+  deepspeed_config: null
+  detect_anomaly: false
+  dist_backend: nccl
+  dist_init_method: env://
+  dist_launcher: null
+  dist_master_addr: null
+  dist_master_port: null
+  dist_rank: null
+  dist_world_size: null
+  drop_last_iter: false
+  dry_run: false
+  early_stopping_criterion: !!python/tuple
+  - valid
+  - loss
+  - min
+  embedding_fusion: null
+  embedding_fusion_conf: {}
+  encoder: beats
+  encoder_conf:
+    beats_ckpt_path: /work/nvme/bbjs/sbharadwaj/model_checkpoints/ear_base/beats_iter1_base.tune_lr5e-4_warmup40000_bins1600000_totalsteps400000/epoch59.pt
+    beats_config:
+      dropout: 0.0
+      encoder_layerdrop: 0.1
+      layer_wise_gradient_decay_ratio: 0.3
+    roll_augment: true
+    roll_interval: 1
+    specaug_config:
+      apply_freq_mask: false
+      apply_time_mask: true
+      apply_time_warp: true
+      num_time_mask: 1
+      time_mask_width_ratio_range:
+      - 0
+      - 0.06
+    use_weighted_representation: false
+  exclude_weight_decay: false
+  exclude_weight_decay_conf: {}
+  fold_length:
+  - 160000
+  - 200
+  freeze_param: []
+  frontend: null
+  frontend_conf:
+    fs: 16k
+  grad_clip: 1
+  grad_clip_type: 2.0
+  grad_noise: false
+  gradient_as_bucket_view: true
+  ignore_init_mismatch: false
+  init: xavier_normal
+  init_param: []
+  input_size: 1
+  iterator_type: sequence
+  keep_nbest_models: 5
+  lightning_conf:
+    best_model_criterion:
+    - - valid/epoch_mAP
+      - max
+      - 1
+    default_root_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+    devices: 1
+    log_every_n_steps: 250
+    num_nodes: 1
+    strategy: ddp
+    strategy_conf:
+      find_unused_parameters: true
+  local_rank: null
+  log_interval: null
+  log_level: INFO
+  max_cache_fd: 32
+  max_cache_size: 0.0
+  max_epoch: 60
+  model: espnet
+  model_conf:
+    classification_type: multi-label
+    log_epoch_metrics: true
+    lsm_weight: 0.0
+    mixup_probability: 0.2
+  multi_task_dataset: false
+  multiple_iterator: false
+  multiprocessing_distributed: false
+  nbest_averaging_interval: 0
+  ngpu: 0
+  no_forward_run: false
+  normalize: null
+  normalize_conf: {}
+  num_att_plot: 0
+  num_cache_chunks: 1024
+  num_iters_per_epoch: null
+  num_workers: 8
+  optim: adamw
+  optim_conf:
+    betas:
+    - 0.9
+    - 0.98
+    lr: 3.0e-05
+    weight_decay: 0.01
+  output_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+  patience: null
+  preencoder: null
+  preencoder_conf: {}
+  pretrain_path: null
+  print_config: false
+  required:
+  - output_dir
+  - token_list
+  resume: true
+  save_strategy: all
+  scheduler: cosineannealingwarmuprestarts
+  scheduler_conf:
+    first_cycle_steps: 95000
+    max_lr: 3.0e-05
+    min_lr: 5.0e-06
+    warmup_steps: 8000
+  seed: 0
+  sharded_ddp: false
+  shuffle_within_batch: false
+  sort_batch: descending
+  sort_in_batch: descending
+  specaug: null
+  specaug_conf: {}
+  task: cls
+  text_bpemodel: null
+  text_encoder: null
+  text_encoder_conf: {}
+  text_token_list: null
+  token_list: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/data/fsd50k/token_list
+  train_data_path_and_name_and_type:
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/wav.scp
+    - speech
+    - sound
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/text
+    - label
+    - text
+  train_dtype: float32
+  train_shape_file:
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/speech_shape
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/label_shape
+  unused_parameters: true
+  use_adapter: false
+  use_amp: false
+  use_deepspeed: false
+  use_matplotlib: true
+  use_preprocessor: true
+  use_tensorboard: true
+  use_tf32: false
+  use_wandb: true
+  user_callbacks:
+  - mAP_logging
+  utt2weight_file: null
+  val_scheduler_criterion: !!python/tuple
+  - valid
+  - loss
+  valid_batch_bins: null
+  valid_batch_size: null
+  valid_batch_type: null
+  valid_data_path_and_name_and_type:
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/wav.scp
+    - speech
+    - sound
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/text
+    - label
+    - text
+  valid_iterator_type: null
+  valid_max_cache_size: null
+  valid_shape_file:
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/speech_shape
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/label_shape
+  wandb_entity: shikhar
+  wandb_id: null
+  wandb_model_log_interval: -1
+  wandb_name: fsd50k.earbasei2
+  wandb_project: audioverse
+  write_collected_feats: false

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_1/events.out.tfevents.1742442145.gh096.hsn.cm.delta.internal.ncsa.edu.1929255.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71dfd792f5cea27e78bdf8a04ba6d04d9a350855a900e27cb886a0a23f0d2cc4
+size 17146

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/lightning_logs/version_1/hparams.yaml ADDED Viewed

	@@ -0,0 +1,208 @@

+args: !!python/object:argparse.Namespace
+  accum_grad: 1
+  adapter: lora
+  adapter_conf: {}
+  allow_multi_rates: false
+  allow_variable_data_keys: false
+  batch_bins: 3000000
+  batch_size: 20
+  batch_type: numel
+  best_model_criterion:
+  - - valid
+    - epoch_mAP
+    - max
+  category_sample_size: 10
+  chunk_default_fs: null
+  chunk_discard_short_samples: true
+  chunk_excluded_key_prefixes: []
+  chunk_length: 500
+  chunk_max_abs_length: null
+  chunk_shift_ratio: 0.5
+  collect_stats: false
+  config: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/earbasei2/conf/ear_base/fsd50k.yaml
+  create_graph_in_tensorboard: false
+  cudnn_benchmark: false
+  cudnn_deterministic: true
+  cudnn_enabled: true
+  ddp_comm_hook: null
+  decoder: linear
+  decoder_conf: {}
+  deepspeed_config: null
+  detect_anomaly: false
+  dist_backend: nccl
+  dist_init_method: env://
+  dist_launcher: null
+  dist_master_addr: null
+  dist_master_port: null
+  dist_rank: null
+  dist_world_size: null
+  drop_last_iter: false
+  dry_run: false
+  early_stopping_criterion: !!python/tuple
+  - valid
+  - loss
+  - min
+  embedding_fusion: null
+  embedding_fusion_conf: {}
+  encoder: beats
+  encoder_conf:
+    beats_ckpt_path: /work/nvme/bbjs/sbharadwaj/model_checkpoints/ear_base/beats_iter1_base.tune_lr5e-4_warmup40000_bins1600000_totalsteps400000/epoch59.pt
+    beats_config:
+      dropout: 0.0
+      encoder_layerdrop: 0.1
+      layer_wise_gradient_decay_ratio: 0.3
+    roll_augment: true
+    roll_interval: 1
+    specaug_config:
+      apply_freq_mask: false
+      apply_time_mask: true
+      apply_time_warp: true
+      num_time_mask: 1
+      time_mask_width_ratio_range:
+      - 0
+      - 0.06
+    use_weighted_representation: false
+  exclude_weight_decay: false
+  exclude_weight_decay_conf: {}
+  fold_length:
+  - 160000
+  - 200
+  freeze_param: []
+  frontend: null
+  frontend_conf:
+    fs: 16k
+  grad_clip: 1
+  grad_clip_type: 2.0
+  grad_noise: false
+  gradient_as_bucket_view: true
+  ignore_init_mismatch: false
+  init: xavier_normal
+  init_param: []
+  input_size: 1
+  iterator_type: sequence
+  keep_nbest_models: 5
+  lightning_conf:
+    best_model_criterion:
+    - - valid/epoch_mAP
+      - max
+      - 1
+    default_root_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+    devices: 1
+    log_every_n_steps: 250
+    max_epochs: 105
+    num_nodes: 1
+    strategy: ddp
+    strategy_conf:
+      find_unused_parameters: true
+  local_rank: null
+  log_interval: null
+  log_level: INFO
+  max_cache_fd: 32
+  max_cache_size: 0.0
+  max_epoch: 105
+  model: espnet
+  model_conf:
+    classification_type: multi-label
+    log_epoch_metrics: true
+    lsm_weight: 0.0
+    mixup_probability: 0.2
+  multi_task_dataset: false
+  multiple_iterator: false
+  multiprocessing_distributed: false
+  nbest_averaging_interval: 0
+  ngpu: 0
+  no_forward_run: false
+  normalize: null
+  normalize_conf: {}
+  num_att_plot: 0
+  num_cache_chunks: 1024
+  num_iters_per_epoch: null
+  num_workers: 8
+  optim: adamw
+  optim_conf:
+    betas:
+    - 0.9
+    - 0.98
+    lr: 3.0e-05
+    weight_decay: 0.01
+  output_dir: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2
+  patience: null
+  preencoder: null
+  preencoder_conf: {}
+  pretrain_path: null
+  print_config: false
+  required:
+  - output_dir
+  - token_list
+  resume: true
+  save_strategy: all
+  scheduler: cosineannealingwarmuprestarts
+  scheduler_conf:
+    first_cycle_steps: 95000
+    max_lr: 3.0e-05
+    min_lr: 5.0e-06
+    warmup_steps: 8000
+  seed: 0
+  sharded_ddp: false
+  shuffle_within_batch: false
+  sort_batch: descending
+  sort_in_batch: descending
+  specaug: null
+  specaug_conf: {}
+  task: cls
+  text_bpemodel: null
+  text_encoder: null
+  text_encoder_conf: {}
+  text_token_list: null
+  token_list: /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/data/fsd50k/token_list
+  train_data_path_and_name_and_type:
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/wav.scp
+    - speech
+    - sound
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/train/text
+    - label
+    - text
+  train_dtype: float32
+  train_shape_file:
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/speech_shape
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/train/label_shape
+  unused_parameters: true
+  use_adapter: false
+  use_amp: false
+  use_deepspeed: false
+  use_matplotlib: true
+  use_preprocessor: true
+  use_tensorboard: true
+  use_tf32: false
+  use_wandb: true
+  user_callbacks:
+  - mAP_logging
+  utt2weight_file: null
+  val_scheduler_criterion: !!python/tuple
+  - valid
+  - loss
+  valid_batch_bins: null
+  valid_batch_size: null
+  valid_batch_type: null
+  valid_data_path_and_name_and_type:
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/wav.scp
+    - speech
+    - sound
+  - !!python/tuple
+    - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/dump/fsd50k/val/text
+    - label
+    - text
+  valid_iterator_type: null
+  valid_max_cache_size: null
+  valid_shape_file:
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/speech_shape
+  - /work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_stats_16k/valid/label_shape
+  wandb_entity: shikhar
+  wandb_id: null
+  wandb_model_log_interval: -1
+  wandb_name: fsd50k.earbasei2
+  wandb_project: audioverse
+  write_collected_feats: false

work/nvme/bbjs/sbharadwaj/espnet/egs2/audioverse/v1/exp/fsd50k/cls_earbasei2/valid.epoch_mAP.ave_1best.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90921e2db74c8209b4b06e9bccc3466a3fe0b41165bd82132675ca280da0dda0
+size 362120410