schedule-optimization/topic_modeling.py at main · citec-spbu/schedule-optimization · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
from __future__ import annotations

from typing import Any

import numpy as np
from bertopic import BERTopic
from hdbscan import HDBSCAN
from sklearn.feature_extraction.text import CountVectorizer
from umap import UMAP


def _normalize(x: np.ndarray) -> np.ndarray:
    # Нормализует вектор или строки матрицы по L2-норме.
    x = np.asarray(x, dtype=float)
    if x.ndim == 1:
        norm = np.linalg.norm(x)
        return x / norm if norm > 0 else x
    norms = np.linalg.norm(x, axis=1, keepdims=True)
    norms[norms == 0.0] = 1.0
    return x / norms


def _aggregate_segment(x: np.ndarray, aggregation: str) -> np.ndarray:
    # Превращает эмбеддинги одного сегмента в один итоговый вектор.
    x = np.asarray(x, dtype=float)

    if x.ndim == 1:
        return _normalize(x)

    if x.ndim != 2 or x.shape[0] == 0:
        raise ValueError("Сегмент должен быть вектором или матрицей shape=(n_sentences, dim).")

    if aggregation == "mean":
        return _normalize(x.mean(axis=0))
    if aggregation == "median":
        return _normalize(np.median(x, axis=0))

    raise ValueError("aggregation должен быть 'mean' или 'median'.")


def _flatten_segments(
    segmented_embeddings: dict[str, list[np.ndarray]],
    segmented_texts: dict[str, list[str]],
    aggregation: str,
) -> tuple[np.ndarray, list[str], list[dict[str, int | str]]]:
    # Разворачивает корпус сегментов всех занятий в плоские списки векторов, текстов и метаданных.
    if not segmented_embeddings:
        raise ValueError("segmented_embeddings пуст.")
    if set(segmented_embeddings) != set(segmented_texts):
        raise ValueError("Ключи segmented_embeddings и segmented_texts должны совпадать.")

    vectors: list[np.ndarray] = []
    texts: list[str] = []
    meta: list[dict[str, int | str]] = []

    for lesson_name, lesson_segments in segmented_embeddings.items():
        lesson_texts = segmented_texts[lesson_name]
        if len(lesson_segments) != len(lesson_texts):
            raise ValueError(
                f"Для занятия '{lesson_name}' число сегментов embeddings и texts не совпадает."
            )

        for segment_id, (segment_embs, segment_text) in enumerate(zip(lesson_segments, lesson_texts)):
            x = np.asarray(segment_embs)
            vectors.append(_aggregate_segment(x, aggregation))
            texts.append(segment_text)
            meta.append(
                {
                    "lesson_name": lesson_name,
                    "segment_id": segment_id,
                    "n_sentences": int(x.shape[0]) if x.ndim == 2 else 1,
                    "n_tokens": len(segment_text.split()),
                }
            )

    if not vectors:
        raise ValueError("Корпус сегментов пуст.")

    return np.vstack(vectors), texts, meta


def _fit_topics(
    texts: list[str],
    vectors: np.ndarray,
    *,
    min_topic_size: int,
    top_n_words: int,
    ngram_range: tuple[int, int],
    stop_words: list[str] | str | None,
    language: str,
    nr_topics: int | str | None,
    umap_n_neighbors: int,
    umap_n_components: int,
    umap_min_dist: float,
    umap_metric: str,
    hdbscan_min_cluster_size: int | None,
    hdbscan_min_samples: int | None,
    random_state: int,
) -> tuple[np.ndarray, BERTopic | None]:
    # Запускает BERTopic на сегментах и возвращает метки тем и саму обученную модель.
    x = np.asarray(vectors, dtype=float)

    if len(texts) != x.shape[0]:
        raise ValueError("Число текстов сегментов должно совпадать с числом векторов.")

    if x.shape[0] == 1:
        return np.array([0], dtype=int), None

    if hdbscan_min_cluster_size is None:
        hdbscan_min_cluster_size = min_topic_size

    model = BERTopic(
        language=language,
        embedding_model=None,
        umap_model=UMAP(
            n_neighbors=min(umap_n_neighbors, max(2, x.shape[0] - 1)),
            n_components=min(umap_n_components, max(2, x.shape[0] - 1)),
            min_dist=umap_min_dist,
            metric=umap_metric,
            random_state=random_state,
        ),
        hdbscan_model=HDBSCAN(
            min_cluster_size=hdbscan_min_cluster_size,
            min_samples=hdbscan_min_samples,
            metric="euclidean",
            cluster_selection_method="eom",
            prediction_data=False,
        ),
        vectorizer_model=CountVectorizer(
            stop_words=stop_words,
            ngram_range=ngram_range,
        ),
        top_n_words=top_n_words,
        min_topic_size=min_topic_size,
        calculate_probabilities=False,
        nr_topics=nr_topics,
        verbose=False,
    )

    labels, _ = model.fit_transform(documents=texts, embeddings=x)
    return np.asarray(labels, dtype=int), model


def _build_topic_info(topic_model: BERTopic | None, labels: np.ndarray) -> dict[int, dict[str, Any]]:
    # Собирает краткую информацию по каждой найденной теме: имя, ключевые слова и размер.
    labels = np.asarray(labels, dtype=int)

    if topic_model is None:
        return {
            0: {
                "topic_id": 0,
                "topic_name": "topic_0",
                "keywords": [],
                "size": int(len(labels)),
            }
        }

    info_df = topic_model.get_topic_info()
    result: dict[int, dict[str, Any]] = {}

    for topic_id in sorted(set(labels.tolist())):
        topic_id = int(topic_id)
        row = info_df[info_df["Topic"] == topic_id]
        topic_name = "outlier_topic" if topic_id == -1 else f"topic_{topic_id}"

        if not row.empty and "Name" in row.columns:
            topic_name = str(row.iloc[0]["Name"])

        keywords = []
        if topic_id != -1:
            keywords = [(str(word), float(score)) for word, score in (topic_model.get_topic(topic_id) or [])]

        result[topic_id] = {
            "topic_id": topic_id,
            "topic_name": topic_name,
            "keywords": keywords,
            "size": int(np.sum(labels == topic_id)),
        }

    return result


def _build_lesson_profiles(
    labels: np.ndarray,
    meta: list[dict[str, int | str]],
    *,
    weight_mode: str,
    ignore_outliers: bool,
) -> dict[str, dict[int, float]]:
    # Строит профиль каждого занятия как распределение весов по темам.
    weights: dict[str, dict[int, float]] = {}

    for label, item in zip(labels, meta):
        topic_id = int(label)
        if ignore_outliers and topic_id == -1:
            continue

        lesson_name = str(item["lesson_name"])

        if weight_mode == "token_count":
            weight = float(max(1, int(item["n_tokens"])))
        elif weight_mode == "sentence_count":
            weight = float(max(1, int(item["n_sentences"])))
        elif weight_mode == "segment_count":
            weight = 1.0
        else:
            raise ValueError("weight_mode должен быть 'token_count', 'sentence_count' или 'segment_count'.")

        weights.setdefault(lesson_name, {})
        weights[lesson_name][topic_id] = weights[lesson_name].get(topic_id, 0.0) + weight

    result: dict[str, dict[int, float]] = {}
    for lesson_name, topic_weights in weights.items():
        total = sum(topic_weights.values()) + 1e-12
        result[lesson_name] = {topic_id: w / total for topic_id, w in topic_weights.items()}

    return result


def _restore_assignments(
    labels: np.ndarray,
    meta: list[dict[str, int | str]],
    segmented_texts: dict[str, list[str]],
) -> dict[str, list[dict[str, Any]]]:
    # Восстанавливает вложенную структуру: для каждого занятия список его сегментов с присвоенными темами.
    result = {lesson_name: [] for lesson_name in segmented_texts}

    for label, item in zip(labels, meta):
        lesson_name = str(item["lesson_name"])
        segment_id = int(item["segment_id"])

        result[lesson_name].append(
            {
                "segment_id": segment_id,
                "topic_id": int(label),
                "text": segmented_texts[lesson_name][segment_id],
                "n_sentences": int(item["n_sentences"]),
                "n_tokens": int(item["n_tokens"]),
            }
        )

    for lesson_name in result:
        result[lesson_name].sort(key=lambda x: x["segment_id"])

    return result


def topicize_segmented_corpus(
    segmented_embeddings: dict[str, list[np.ndarray]],
    segmented_texts: dict[str, list[str]],
    *,
    aggregation: str = "mean",
    normalize_segment_vectors: bool = True,
    min_topic_size: int = 2,
    top_n_words: int = 8,
    ngram_range: tuple[int, int] = (1, 2),
    stop_words: list[str] | str | None = None,
    language: str = "multilingual",
    calculate_probabilities: bool = False,
    nr_topics: int | str | None = None,
    umap_n_neighbors: int = 15,
    umap_n_components: int = 5,
    umap_min_dist: float = 0.0,
    umap_metric: str = "cosine",
    hdbscan_min_cluster_size: int | None = None,
    hdbscan_min_samples: int | None = None,
    lesson_profile_weight_mode: str = "token_count",
    ignore_outliers_in_profiles: bool = True,
    random_state: int = 42,
) -> dict[str, Any]:
    # Полный пайплайн тематизации: сворачивает сегменты, обучает BERTopic и возвращает темы и профили занятий.
    segment_vectors, flat_texts, meta = _flatten_segments(
        segmented_embeddings=segmented_embeddings,
        segmented_texts=segmented_texts,
        aggregation=aggregation,
    )

    if normalize_segment_vectors:
        segment_vectors = _normalize(segment_vectors)

    labels, topic_model = _fit_topics(
        texts=flat_texts,
        vectors=segment_vectors,
        min_topic_size=min_topic_size,
        top_n_words=top_n_words,
        ngram_range=ngram_range,
        stop_words=stop_words,
        language=language,
        nr_topics=nr_topics,
        umap_n_neighbors=umap_n_neighbors,
        umap_n_components=umap_n_components,
        umap_min_dist=umap_min_dist,
        umap_metric=umap_metric,
        hdbscan_min_cluster_size=hdbscan_min_cluster_size,
        hdbscan_min_samples=hdbscan_min_samples,
        random_state=random_state,
    )

    return {
        "segment_topic_assignments": _restore_assignments(labels, meta, segmented_texts),
        "lesson_topic_profiles": _build_lesson_profiles(
            labels,
            meta,
            weight_mode=lesson_profile_weight_mode,
            ignore_outliers=ignore_outliers_in_profiles,
        ),
        "topic_info": _build_topic_info(topic_model, labels),
    }