pipeline-parallelism-with-controllable-memory

Running

App Files Files Community

QPHutu commited on Jul 3, 2024

Commit

790f4eb

1 Parent(s): eff388a

Fix the calculation of bubble rate

Browse files

Files changed (2) hide show

app.py +15 -7
description1.md +5 -5

app.py CHANGED Viewed

@@ -58,12 +58,16 @@ def get_schedule_image(result, max_time):
 def calculate(p, m, f, b, w, c, mem):
   baseline_result = hand_schedule.get_hand_schedule(p, m, f, b + w, 0, c)
   baseline_result = [
       list(filter(lambda x: x.type in {'F', 'B'}, r)) for r in baseline_result
   ]
   baseline_time = get_schedule_time(baseline_result)
-  baseline_bubble=percentage(baseline_time/(f+b+w)/m - 1)
   baseline_mem = get_memory_usage(baseline_result)
   baseline_acceleration=percentage(0)
@@ -76,7 +80,8 @@ def calculate(p, m, f, b, w, c, mem):
   adapt_time = get_schedule_time(adapt_result)
   adapt_mem = get_memory_usage(adapt_result) / 2
-  adapt_bubble=percentage(adapt_time/(f+b+w)/m - 1)
   adapt_acceleration=percentage(baseline_time/adapt_time - 1) if baseline_time is not None else None
   schedule1f1bv_result = schedule1f1bv.schedule(
@@ -87,7 +92,8 @@ def calculate(p, m, f, b, w, c, mem):
   schedule1f1bv_time = get_schedule_time(schedule1f1bv_result)
   schedule1f1bv_mem = get_memory_usage(schedule1f1bv_result) / 2
-  schedule1f1bv_bubble=percentage(schedule1f1bv_time/(f+b+w)/m - 1)
   schedule1f1bv_acceleration=percentage(baseline_time/schedule1f1bv_time - 1) if baseline_time is not None else None
   type2_result = type2.schedule(
@@ -98,7 +104,8 @@ def calculate(p, m, f, b, w, c, mem):
   type2_time = get_schedule_time(type2_result)
   type2_mem = get_memory_usage(type2_result)
-  type2_bubble=percentage(type2_time/(f+b+w)/m - 1)
   type2_acceleration=percentage(baseline_time/type2_time - 1) if baseline_time is not None else None
   interleaved_result = interleaved_variant.get_interleaved_variation(
@@ -109,7 +116,8 @@ def calculate(p, m, f, b, w, c, mem):
   interleaved_time = get_schedule_time(interleaved_result)
   interleaved_mem = get_memory_usage(interleaved_result) / 2
-  interleaved_bubble=percentage(interleaved_time/(f+b+w)/m - 1)
   interleaved_acceleration=percentage(baseline_time/interleaved_time - 1) if baseline_time is not None else None
@@ -218,7 +226,7 @@ with gr.Blocks() as demo:
       with gr.Column(scale=1):
         type2_acceleration=gr.Textbox("", label="Acceleration compared to 1F1B")
         type2_mem=gr.Textbox("", label="Maximum memory usage")
-        type2_bubble=gr.Textbox("", label="Bubble Rate. Calculated as (1 - longest stage time/(F+B+W)/m).")
       with gr.Column(scale=4):
         type2_image=gr.Image(None, interactive=False, label="Schedule Image", show_label=False)
   with gr.Group():
@@ -227,7 +235,7 @@ with gr.Blocks() as demo:
       with gr.Column(scale=1):
         interleaved_acceleration=gr.Textbox("", label="Acceleration compared to 1F1B")
         interleaved_mem=gr.Textbox("", label="Maximum memory usage")
-        interleaved_bubble=gr.Textbox("", label="Bubble Rate. Calculated as (1 - longest stage time/(F+B+W)/m).")
       with gr.Column(scale=4):
         interleaved_image=gr.Image(None, interactive=False, label="Schedule Image", show_label=False)
     button.click(calculate, inputs=[p, m, f, b, w, c, mem], outputs=[baseline_acceleration, baseline_mem, baseline_bubble, baseline_image,

 def calculate(p, m, f, b, w, c, mem):
+  def get_bubble_rate(_time):
+    return 1 - ((f + b + w) * m / _time)
   baseline_result = hand_schedule.get_hand_schedule(p, m, f, b + w, 0, c)
   baseline_result = [
       list(filter(lambda x: x.type in {'F', 'B'}, r)) for r in baseline_result
   ]
   baseline_time = get_schedule_time(baseline_result)
+  # baseline_bubble=percentage(baseline_time/(f+b+w)/m - 1)
+  baseline_bubble=percentage(get_bubble_rate(baseline_time))
   baseline_mem = get_memory_usage(baseline_result)
   baseline_acceleration=percentage(0)
   adapt_time = get_schedule_time(adapt_result)
   adapt_mem = get_memory_usage(adapt_result) / 2
+  # adapt_bubble=percentage(adapt_time/(f+b+w)/m - 1)
+  adapt_bubble=percentage(get_bubble_rate(adapt_time))
   adapt_acceleration=percentage(baseline_time/adapt_time - 1) if baseline_time is not None else None
   schedule1f1bv_result = schedule1f1bv.schedule(
   schedule1f1bv_time = get_schedule_time(schedule1f1bv_result)
   schedule1f1bv_mem = get_memory_usage(schedule1f1bv_result) / 2
+  # schedule1f1bv_bubble=percentage(schedule1f1bv_time/(f+b+w)/m - 1)
+  schedule1f1bv_bubble=percentage(get_bubble_rate(schedule1f1bv_time))
   schedule1f1bv_acceleration=percentage(baseline_time/schedule1f1bv_time - 1) if baseline_time is not None else None
   type2_result = type2.schedule(
   type2_time = get_schedule_time(type2_result)
   type2_mem = get_memory_usage(type2_result)
+  # type2_bubble=percentage(type2_time/(f+b+w)/m - 1)
+  type2_bubble=percentage(get_bubble_rate(type2_time))
   type2_acceleration=percentage(baseline_time/type2_time - 1) if baseline_time is not None else None
   interleaved_result = interleaved_variant.get_interleaved_variation(
   interleaved_time = get_schedule_time(interleaved_result)
   interleaved_mem = get_memory_usage(interleaved_result) / 2
+  # interleaved_bubble=percentage(interleaved_time/(f+b+w)/m - 1)
+  interleaved_bubble=percentage(get_bubble_rate(interleaved_time))
   interleaved_acceleration=percentage(baseline_time/interleaved_time - 1) if baseline_time is not None else None
       with gr.Column(scale=1):
         type2_acceleration=gr.Textbox("", label="Acceleration compared to 1F1B")
         type2_mem=gr.Textbox("", label="Maximum memory usage")
+        type2_bubble=gr.Textbox("", label="Bubble Rate")
       with gr.Column(scale=4):
         type2_image=gr.Image(None, interactive=False, label="Schedule Image", show_label=False)
   with gr.Group():
       with gr.Column(scale=1):
         interleaved_acceleration=gr.Textbox("", label="Acceleration compared to 1F1B")
         interleaved_mem=gr.Textbox("", label="Maximum memory usage")
+        interleaved_bubble=gr.Textbox("", label="Bubble Rate")
       with gr.Column(scale=4):
         interleaved_image=gr.Image(None, interactive=False, label="Schedule Image", show_label=False)
     button.click(calculate, inputs=[p, m, f, b, w, c, mem], outputs=[baseline_acceleration, baseline_mem, baseline_bubble, baseline_image,

description1.md CHANGED Viewed

@@ -7,10 +7,10 @@ From our findings, we need approximately 1/3 memory under ideal conditions (F, B
 Check out our paper at [Arxiv](https://arxiv.org/abs/2405.15362).
-| Comparison assuming T_F=T_B=T_W                       | 1F1B    | V-Min  | V-Half     | V-ZB |
-| ----------------------------------------------------- | ------- |------- | ---------- | ---- |
-| Bubble Rate                                           | (p-1)/m |  ~ 2p/3m     |  ~ p/ 2m    |   0  |
-| Activation Memory <br> (Compared to 1F1B)             |    p   |  (p+4)/3 | (p+2)/2 |   p  |
-Bubble Rate here is calculated as (1 - longest stage time/(F+B+W)/m).

 Check out our paper at [Arxiv](https://arxiv.org/abs/2405.15362).
+| Comparison assuming T_F=T_B=T_W                       | 1F1B  | V-Min  | V-Half     | V-ZB |
+| ----------------------------------------------------- |-------|------- | ---------- | ---- |
+| Bubble Rate                                           | ~ p/m |  ~ 2p/3m     |  ~ p/ 2m    |   0  |
+| Activation Memory <br> (Compared to 1F1B)             |   p   |  (p+4)/3 | (p+2)/2 |   p  |
+Bubble Rate here is calculated as `1 - (F+B+W)*m / longest_stage_time`.