mlcommons · rogthefrog · Mar 31, 2026 · Mar 17, 2026 · Mar 30, 2026 · Mar 30, 2026
@@ -99,7 +99,7 @@ dev = [
     "pytest-mock>=3.12.0,<4.0.0",
     "pytest-timeout>=2.3.1,<3.0.0",
     "mypy>=1.7.1,<2.0.0",
-    "black>=25.1.0,<26.0.0",
+    "black>=25.1.0,<27.0.0",
     "beautifulsoup4>=4.12.3,<5.0.0",
     "flaky>=3.8.1,<4.0.0",
     "types-beautifulsoup4>=4.12.0.20240229,<5.0.0",

@@ -17,7 +17,6 @@
 )
 from modelgauge.sut import PromptResponseSUT, SUTResponse
 
-
 # in their own file to solve circular import problems
 
 

@@ -11,7 +11,6 @@
 from modelgauge.secret_values import RequiredSecret, SecretDescription
 from modelgauge.sut import SUTResponse
 
-
 _CHEVAL_SCOPE = "cheval"
 
 

@@ -3,7 +3,6 @@
 from modelgauge.annotators.cheval.ids import SAFETY_ANNOTATOR_V1_1_UID, SECURITY_ANNOTATOR_V0_5_UID
 from modelgauge.secret_values import InjectSecret
 
-
 ANNOTATORS.register(
     ChevalAnnotator,
     SAFETY_ANNOTATOR_V1_1_UID,

@@ -1,7 +1,6 @@
 from abc import ABC, abstractmethod
 from typing import Optional
 
-
 # The first value is the preferred name.
 PROMPT_UID_COLS = ["prompt_uid", "release_prompt_id"]
 PROMPT_TEXT_COLS = ["prompt_text"]

@@ -3,7 +3,6 @@
 
 from modelgauge.annotation import SafetyAnnotation
 
-
 T = TypeVar("T", bound=SafetyAnnotation)
 
 

@@ -1,9 +1,9 @@
 from abc import ABC, abstractmethod
 from typing import List, Optional
 
-import requests  # type:ignore
+import requests  # type: ignore
 from pydantic import BaseModel
-from requests.adapters import HTTPAdapter, Retry  # type:ignore
+from requests.adapters import HTTPAdapter, Retry  # type: ignore
 
 from modelgauge.general import APIException
 from modelgauge.prompt import TextPrompt

@@ -1,6 +1,6 @@
 from typing import List, Optional
 
-import requests  # type:ignore
+import requests  # type: ignore
 from httpx import Timeout
 from llama_api_client import LlamaAPIClient
 from llama_api_client.types import CreateChatCompletionResponse, MessageTextContentItem, ModerationCreateResponse
@@ -14,7 +14,7 @@
 from modelgauge.sut_decorator import modelgauge_sut
 from modelgauge.sut_registry import SUTS
 from pydantic import BaseModel
-from requests.adapters import HTTPAdapter, Retry  # type:ignore
+from requests.adapters import HTTPAdapter, Retry  # type: ignore
 
 
 class MetaLlamaApiKey(RequiredSecret):

@@ -14,7 +14,6 @@
 from modelgauge.sut_decorator import modelgauge_sut
 from modelgauge.sut_registry import SUTS
 
-
 BASE_URL = "https://integrate.api.nvidia.com/v1"
 
 

@@ -1,10 +1,10 @@
 import time
 from typing import List, Optional
 
-import requests  # type:ignore
+import requests  # type: ignore
 from airrlogger.log_config import get_logger
 from pydantic import BaseModel
-from requests.adapters import HTTPAdapter, Retry  # type:ignore
+from requests.adapters import HTTPAdapter, Retry  # type: ignore
 
 from modelgauge.auth.together_key import TogetherApiKey
 from modelgauge.general import APIException

@@ -14,7 +14,6 @@
 from modelgauge.prompt import TextPrompt
 from modelgauge.typed_data import is_typeable
 
-
 FAKE_MODEL_NAME = "xyzzy"
 
 

@@ -165,9 +165,7 @@ def test_google_genai_translate_response_finish_reason_other(google_default_sut,
 
 
 def test_google_genai_translate_response_no_completions(google_default_sut, some_request):
-    no_completions = GenerateContentResponse(
-        **json.loads(
-            """{
+    no_completions = GenerateContentResponse(**json.loads("""{
   "candidates": [],
   "usage_metadata": {
     "prompt_token_count": 19,
@@ -176,18 +174,14 @@ def test_google_genai_translate_response_no_completions(google_default_sut, some
     "candidates_token_count": 0
   }
 }
-"""
-        )
-    )
+"""))
     response = google_default_sut.translate_response(some_request, no_completions)
 
     assert response == SUTResponse(text=REFUSAL_RESPONSE)
 
 
 def test_google_genai_translate_response_none_completions(google_default_sut, some_request):
-    no_completions = GenerateContentResponse(
-        **json.loads(
-            """{
+    no_completions = GenerateContentResponse(**json.loads("""{
   "candidates": null,
   "usage_metadata": {
     "prompt_token_count": 19,
@@ -196,9 +190,7 @@ def test_google_genai_translate_response_none_completions(google_default_sut, so
     "candidates_token_count": 0
   }
 }
-"""
-        )
-    )
+"""))
     response = google_default_sut.translate_response(some_request, no_completions)
 
     assert response == SUTResponse(text=REFUSAL_RESPONSE)
@@ -7,7 +7,7 @@
 from modelgauge.model_options import ModelOptions
 from modelgauge.suts.meta_llama_client import InputMessage, MetaLlamaApiKey, MetaLlamaChatRequest, MetaLlamaSUT
 from pytest import fixture
-from requests import HTTPError  # type:ignore
+from requests import HTTPError  # type: ignore
 
 llama_chat_response_text = """
 {

@@ -30,8 +30,7 @@ def test_openai_chat_translate_response():
         messages=[],
     )
     # response is base on openai request: https://platform.openai.com/docs/api-reference/chat/create
-    response = ChatCompletion.model_validate_json(
-        """\
+    response = ChatCompletion.model_validate_json("""\
 {
   "id": "chatcmpl-123",
   "object": "chat.completion",
@@ -53,7 +52,6 @@ def test_openai_chat_translate_response():
     "total_tokens": 21
   }
 }
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(text="Hello there, how may I assist you today?", top_logprobs=None)
@@ -50,7 +50,7 @@ def test_openai_constructor():
     with_client = OpenAIChat(
         uid="test-model",
         model="some-model",
-        client=client,  # type:ignore
+        client=client,  # type: ignore
     )
 
     # these should all fail
@@ -114,8 +114,7 @@ def test_openai_chat_translate_response():
         messages=[],
     )
     # Pulled from https://platform.openai.com/docs/api-reference/chat/create
-    response = ChatCompletion.model_validate_json(
-        """\
+    response = ChatCompletion.model_validate_json("""\
 {
   "id": "chatcmpl-123",
   "object": "chat.completion",
@@ -137,8 +136,7 @@ def test_openai_chat_translate_response():
     "total_tokens": 21
   }
 }
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(text="Hello there, how may I assist you today?", top_logprobs=None)
 
@@ -151,8 +149,7 @@ def test_openai_chat_translate_response_logprobs():
         logprobs=True,
     )
     # Copied from a real response.
-    response = ChatCompletion.model_validate_json(
-        """\
+    response = ChatCompletion.model_validate_json("""\
 {
   "id": "made-this-fake",
   "choices": [
@@ -234,8 +231,7 @@ def test_openai_chat_translate_response_logprobs():
     "total_tokens": 11
   }
 }
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(
         text="Hello!",

@@ -1,7 +1,7 @@
 from unittest.mock import patch, MagicMock
 
 import pytest
-from requests import HTTPError  # type:ignore
+from requests import HTTPError  # type: ignore
 import json
 
 from modelgauge.general import APIException
@@ -186,8 +186,7 @@ def test_together_completions_translate_response():
         prompt="My favorite colors are red and ",
         max_tokens=2,
     )
-    response = TogetherCompletionsResponse.model_validate_json(
-        """\
+    response = TogetherCompletionsResponse.model_validate_json("""\
 {
     "id": "87cc221c3b411064-ORD",
     "object": "text.completion",
@@ -209,8 +208,7 @@ def test_together_completions_translate_response():
     }
 } 
 
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(text=" blue.", top_logprobs=None)
 
@@ -223,8 +221,7 @@ def test_together_completions_translate_response_logprobs():
         max_tokens=2,
         logprobs=1,
     )
-    response = TogetherCompletionsResponse.model_validate_json(
-        """\
+    response = TogetherCompletionsResponse.model_validate_json("""\
 {
     "id": "87cc221c3b411064-ORD",
     "object": "text.completion",
@@ -259,8 +256,7 @@ def test_together_completions_translate_response_logprobs():
         "total_tokens": 10
     }
 } 
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(
         text=" blue.",
@@ -302,8 +298,7 @@ def test_together_chat_translate_response_logprobs():
         max_tokens=2,
         logprobs=1,
     )
-    response = TogetherChatResponse.model_validate_json(
-        """\
+    response = TogetherChatResponse.model_validate_json("""\
 {
     "id": "87ca703b9c6710af-ORD",
     "object": "chat.completion",
@@ -332,8 +327,7 @@ def test_together_chat_translate_response_logprobs():
         "total_tokens": 7
     }
 } 
-"""
-    )
+""")
     result = client.translate_response(request, response)
     assert result == SUTResponse(
         text="Some response",

@@ -33,7 +33,6 @@
 from modelgauge_tests.fake_ensemble_strategy import FakeEnsembleStrategy
 from modelgauge_tests.test_prompt_pipeline import FakePromptInput
 
-
 PROMPT_RESPONSE_SCHEMA = PromptResponseSchema.default()
 
 

@@ -72,12 +72,10 @@ def test_load_secrets_works_with_file_path(tmpdir):
     os.makedirs(config_dir)
     secrets_file = config_dir.join("secrets.toml")
     with open(secrets_file, "w") as f:
-        f.write(
-            """\
+        f.write("""\
         [scope]
         api_key = "12345"
-        """
-        )
+        """)
     secrets = load_secrets_from_config(secrets_file)
     assert secrets == {"scope": {"api_key": "12345"}}
 
@@ -113,15 +111,12 @@ def test_raise_if_missing_from_config_single():
         raise_if_missing_from_config([missing], config_path="some/path.toml")
 
     absolute_path = str(pathlib.Path("some/path.toml").absolute())
-    assert (
-        str(err_info.value)
-        == f"""\
+    assert str(err_info.value) == f"""\
 To perform this run you need to add the following values to your secrets file '{absolute_path}':
 [some-scope]
 # some-instructions
 some-key="<value>"
 """
-    )
 
 
 def test_raise_if_missing_from_config_combines():
@@ -139,9 +134,7 @@ def test_raise_if_missing_from_config_combines():
 
     absolute_path = str(pathlib.Path("some/path.toml").absolute())
 
-    assert (
-        str(err_info.value)
-        == f"""\
+    assert str(err_info.value) == f"""\
 To perform this run you need to add the following values to your secrets file '{absolute_path}':
 [scope1]
 # instructions1
@@ -153,4 +146,3 @@ def test_raise_if_missing_from_config_combines():
 # instructions3
 key1="<value>"
 """
-    )
@@ -8,7 +8,6 @@
 
 from tenacity import wait_none
 
-
 WebDataMockResponse = namedtuple("WebDataMockResponse", ("ok", "content"))
 GDriveFileToDownload = namedtuple("GDriveFileToDownload", ("id", "path"))
Original file line number	Diff line number	Diff line change
Expand Up		@@ -17,7 +17,6 @@
		)
		from modelgauge.sut import PromptResponseSUT, SUTResponse


		# in their own file to solve circular import problems


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -11,7 +11,6 @@
		from modelgauge.secret_values import RequiredSecret, SecretDescription
		from modelgauge.sut import SUTResponse


		_CHEVAL_SCOPE = "cheval"


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -3,7 +3,6 @@

		from modelgauge.annotation import SafetyAnnotation


		T = TypeVar("T", bound=SafetyAnnotation)


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -14,7 +14,6 @@
		from modelgauge.sut_decorator import modelgauge_sut
		from modelgauge.sut_registry import SUTS


		BASE_URL = "https://integrate.api.nvidia.com/v1"


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -14,7 +14,6 @@
		from modelgauge.prompt import TextPrompt
		from modelgauge.typed_data import is_typeable


		FAKE_MODEL_NAME = "xyzzy"


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -33,7 +33,6 @@
		from modelgauge_tests.fake_ensemble_strategy import FakeEnsembleStrategy
		from modelgauge_tests.test_prompt_pipeline import FakePromptInput


		PROMPT_RESPONSE_SCHEMA = PromptResponseSchema.default()


Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -8,7 +8,6 @@

		from tenacity import wait_none


		WebDataMockResponse = namedtuple("WebDataMockResponse", ("ok", "content"))
		GDriveFileToDownload = namedtuple("GDriveFileToDownload", ("id", "path"))

Expand Down