align notebooks

diehlbw · diehlbw · commit 1d19e6d8368f · 2025-07-21T11:07:10.000Z
diff --git a/src/evaluation_instruments/instruments/epic_draft_appeal/Draft_Appeal.ipynb b/src/evaluation_instruments/instruments/epic_draft_appeal/Draft_Appeal.ipynb
@@ -28,7 +28,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 1,
    "id": "fb6539a1",
    "metadata": {},
    "outputs": [],
@@ -60,7 +60,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 2,
    "id": "edaee0f2",
    "metadata": {},
    "outputs": [],
@@ -99,10 +99,18 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 3,
    "id": "604d7a61",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "DEBUG:evaluation:Set up with log_enabled=True and capacity 10000\n"
+     ]
+    }
+   ],
    "source": [
     "from draft_appeal_prompt import to_prompt\n",
     "import evaluation_instruments as ev\n",
@@ -146,10 +154,19 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 4,
    "id": "4db685fe",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "DEBUG:evaluation:000-Completed evaluation\n",
+      "INFO:evaluation:Dumped raw content to None\n"
+     ]
+    }
+   ],
    "source": [
     "output = evaluator.run_dataset(input_df, model='gpt-4o-mini')"
    ]
@@ -164,10 +181,79 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 5,
    "id": "7b248b1e-9ef8-4add-b057-d06de4f07f39",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>TextQuality</th>\n",
+       "      <th>MedicalTerminology</th>\n",
+       "      <th>Grammar</th>\n",
+       "      <th>TextFormat</th>\n",
+       "      <th>Tone</th>\n",
+       "      <th>References</th>\n",
+       "      <th>RelevantReferences</th>\n",
+       "      <th>MedicalNecessity</th>\n",
+       "      <th>FalseReasoning</th>\n",
+       "      <th>Opposition</th>\n",
+       "      <th>FactualAccuracy</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>000</th>\n",
+       "      <td>4</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>4</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "      <td>5</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "     TextQuality  MedicalTerminology  Grammar  TextFormat  Tone  References  \\\n",
+       "000            4                   5        5           4     5           5   \n",
+       "\n",
+       "     RelevantReferences  MedicalNecessity  FalseReasoning  Opposition  \\\n",
+       "000                   5                 5               5           5   \n",
+       "\n",
+       "     FactualAccuracy  \n",
+       "000                5  "
+      ]
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
     "grades = ev.frame_from_evals(output[0])\n",
     "grades.xs('score', axis=1, level=1)"
@@ -178,16 +264,31 @@
    "execution_count": null,
    "id": "ec27374a",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "ename": "KeyError",
+     "evalue": "\"['evidence'] not in index\"",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[31m---------------------------------------------------------------------------\u001b[39m",
+      "\u001b[31mKeyError\u001b[39m                                  Traceback (most recent call last)",
+      "\u001b[36mCell\u001b[39m\u001b[36m \u001b[39m\u001b[32mIn[6]\u001b[39m\u001b[32m, line 2\u001b[39m\n\u001b[32m      1\u001b[39m \u001b[38;5;28;01mwith\u001b[39;00m pd.option_context(\u001b[33m'\u001b[39m\u001b[33mdisplay.max_colwidth\u001b[39m\u001b[33m'\u001b[39m, \u001b[38;5;28;01mNone\u001b[39;00m):\n\u001b[32m----> \u001b[39m\u001b[32m2\u001b[39m     display(\u001b[43mgrades\u001b[49m\u001b[43m[\u001b[49m\u001b[33;43m'\u001b[39;49m\u001b[33;43mMedicalNecessity\u001b[39;49m\u001b[33;43m'\u001b[39;49m\u001b[43m]\u001b[49m\u001b[43m[\u001b[49m\u001b[43m[\u001b[49m\u001b[33;43m'\u001b[39;49m\u001b[33;43mscore\u001b[39;49m\u001b[33;43m'\u001b[39;49m\u001b[43m,\u001b[49m\u001b[33;43m'\u001b[39;49m\u001b[33;43mevidence\u001b[39;49m\u001b[33;43m'\u001b[39;49m\u001b[43m]\u001b[49m\u001b[43m]\u001b[49m)\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/workspace/local/venv/lib/python3.12/site-packages/pandas/core/frame.py:4108\u001b[39m, in \u001b[36mDataFrame.__getitem__\u001b[39m\u001b[34m(self, key)\u001b[39m\n\u001b[32m   4106\u001b[39m     \u001b[38;5;28;01mif\u001b[39;00m is_iterator(key):\n\u001b[32m   4107\u001b[39m         key = \u001b[38;5;28mlist\u001b[39m(key)\n\u001b[32m-> \u001b[39m\u001b[32m4108\u001b[39m     indexer = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mcolumns\u001b[49m\u001b[43m.\u001b[49m\u001b[43m_get_indexer_strict\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[33;43m\"\u001b[39;49m\u001b[33;43mcolumns\u001b[39;49m\u001b[33;43m\"\u001b[39;49m\u001b[43m)\u001b[49m[\u001b[32m1\u001b[39m]\n\u001b[32m   4110\u001b[39m \u001b[38;5;66;03m# take() does not accept boolean indexers\u001b[39;00m\n\u001b[32m   4111\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mgetattr\u001b[39m(indexer, \u001b[33m\"\u001b[39m\u001b[33mdtype\u001b[39m\u001b[33m\"\u001b[39m, \u001b[38;5;28;01mNone\u001b[39;00m) == \u001b[38;5;28mbool\u001b[39m:\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/workspace/local/venv/lib/python3.12/site-packages/pandas/core/indexes/base.py:6200\u001b[39m, in \u001b[36mIndex._get_indexer_strict\u001b[39m\u001b[34m(self, key, axis_name)\u001b[39m\n\u001b[32m   6197\u001b[39m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[32m   6198\u001b[39m     keyarr, indexer, new_indexer = \u001b[38;5;28mself\u001b[39m._reindex_non_unique(keyarr)\n\u001b[32m-> \u001b[39m\u001b[32m6200\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_raise_if_missing\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkeyarr\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mindexer\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis_name\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m   6202\u001b[39m keyarr = \u001b[38;5;28mself\u001b[39m.take(indexer)\n\u001b[32m   6203\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(key, Index):\n\u001b[32m   6204\u001b[39m     \u001b[38;5;66;03m# GH 42790 - Preserve name from an Index\u001b[39;00m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m~/workspace/local/venv/lib/python3.12/site-packages/pandas/core/indexes/base.py:6252\u001b[39m, in \u001b[36mIndex._raise_if_missing\u001b[39m\u001b[34m(self, key, indexer, axis_name)\u001b[39m\n\u001b[32m   6249\u001b[39m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mKeyError\u001b[39;00m(\u001b[33mf\u001b[39m\u001b[33m\"\u001b[39m\u001b[33mNone of [\u001b[39m\u001b[38;5;132;01m{\u001b[39;00mkey\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m] are in the [\u001b[39m\u001b[38;5;132;01m{\u001b[39;00maxis_name\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m]\u001b[39m\u001b[33m\"\u001b[39m)\n\u001b[32m   6251\u001b[39m not_found = \u001b[38;5;28mlist\u001b[39m(ensure_index(key)[missing_mask.nonzero()[\u001b[32m0\u001b[39m]].unique())\n\u001b[32m-> \u001b[39m\u001b[32m6252\u001b[39m \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mKeyError\u001b[39;00m(\u001b[33mf\u001b[39m\u001b[33m\"\u001b[39m\u001b[38;5;132;01m{\u001b[39;00mnot_found\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m not in index\u001b[39m\u001b[33m\"\u001b[39m)\n",
+      "\u001b[31mKeyError\u001b[39m: \"['evidence'] not in index\""
+     ]
+    }
+   ],
    "source": [
     "with pd.option_context('display.max_colwidth', None):\n",
-    "    display(grades['MedicalNecessity'][['score','evidence']])"
+    "    display(grades['MedicalNecessity'][['score','explanation']])"
    ]
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": ".venv",
+   "display_name": "Python 3 (ipykernel)",
    "language": "python",
    "name": "python3"
   },
diff --git a/src/evaluation_instruments/instruments/epic_summary_of_care/Summary_of_Care.ipynb b/src/evaluation_instruments/instruments/epic_summary_of_care/Summary_of_Care.ipynb
@@ -181,7 +181,7 @@
    "outputs": [],
    "source": [
     "with pd.option_context('display.max_colwidth', None):\n",
-    "    display(grades['TextQuality'][['score','evidence']])"
+    "    display(grades['TextQuality'][['score','explanation']])"
    ]
   }
  ],
diff --git a/src/evaluation_instruments/instruments/pdsqi_9/PDSQI_annotated.ipynb b/src/evaluation_instruments/instruments/pdsqi_9/PDSQI_annotated.ipynb
@@ -173,7 +173,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "grades = pd.DataFrame.from_dict(output[0], orient='index')"
+    "grades = ev.frame_from_evals(output[0])"
    ]
   },
   {

Original file line number	Diff line number	Diff line change
`@@ -181,7 +181,7 @@`
`181`	`181`	`"outputs": [],`
`182`	`182`	`"source": [`
`183`	`183`	`"with pd.option_context('display.max_colwidth', None):\n",`
`184`		`- " display(grades['TextQuality'][['score','evidence']])"`
	`184`	`+ " display(grades['TextQuality'][['score','explanation']])"`
`185`	`185`	`]`
`186`	`186`	`}`
`187`	`187`	`],`
Original file line number	Diff line number	Diff line change
`@@ -173,7 +173,7 @@`
`173`	`173`	`"metadata": {},`
`174`	`174`	`"outputs": [],`
`175`	`175`	`"source": [`
`176`		`- "grades = pd.DataFrame.from_dict(output[0], orient='index')"`
	`176`	`+ "grades = ev.frame_from_evals(output[0])"`
`177`	`177`	`]`
`178`	`178`	`},`
`179`	`179`	`{`