Spaces:

AIM-Harvard
/

rabbits-leaderboard

Running

magilogi commited on Jun 14, 2024

Commit

8599bf2

1 Parent(s): 0b20d0d

robustness test

Files changed (1) hide show

app.py CHANGED Viewed

@@ -58,8 +58,8 @@ df.rename(columns={
 df['Average Accuracy (Original and G2B)'] = (df['Average G2B Accuracy'] + df['Average Original Accuracy']) / 2
-df['Adjusted Robustness Score'] = df['Average Accuracy (Original and G2B)'] - 0.25 - df['Average Difference'].abs()
-df['Adjusted Robustness Score'] = df['Adjusted Robustness Score'].round(2)
@@ -73,8 +73,13 @@ df['DrugMatchQA'] = df['DrugMatchQA'].apply(lambda x: None if x == 0 else x)
 #Defining functions for filtering and plotting
@@ -318,7 +323,7 @@ with gr.Blocks(css="custom.css") as demo:
                 elem_classes="markdown-text"
             )
     with gr.Row():
         bar3 = gr.Plot(
@@ -326,7 +331,8 @@ with gr.Blocks(css="custom.css") as demo:
             elem_id="bar3"
         )
         bar4 = gr.Plot(
-            value=create_bar_plot_adjusted(df, "Adjusted Robustness Score", "Which LLMs are most robust to drug name synonym substitution?"),
             elem_id="bar4"
         )

 df['Average Accuracy (Original and G2B)'] = (df['Average G2B Accuracy'] + df['Average Original Accuracy']) / 2
+#df['Adjusted Robustness Score'] = df['Average Accuracy (Original and G2B)'] - 0.25 - df['Average Difference'].abs()
+#df['Adjusted Robustness Score'] = df['Adjusted Robustness Score'].round(2)
+def remove_rows_with_strings(df, column, strings):
+    for string in strings:
+        df = df[~df[column].str.contains(string)]
+    return df
+models_to_remove = ['microsoft-phi-1', 'microsoft-phi-1_5', 'meta-llama-Llama-2-7b-hf']
+non_random_df = remove_rows_with_strings(df, 'Model', models_to_remove)
 #Defining functions for filtering and plotting
                 elem_classes="markdown-text"
             )
     with gr.Row():
         bar3 = gr.Plot(
             elem_id="bar3"
         )
         bar4 = gr.Plot(
+            #remove model in model column
+            value=create_bar_plot_adjusted(non_random_df, "Average Difference", "Which LLMs are most robust to drug name synonym substitution?"),
             elem_id="bar4"
         )