WDMN/data_utils.py at master · RayXu14/WDMN · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
import random


class CRMatchingDataset:

    def __init__(self, contexts, responses, labels=None, batch_size=20, shuffle=False):

        self.contexts = contexts
        self.responses = responses
        self.labels = labels
        self.batch_size = batch_size
        self.index = 0

        assert len(contexts) == len(responses) == len(labels)
        #assert len(labels) % self.batch_size == 0

        if shuffle:
            tmp = list(zip(self.contexts, self.responses, self.labels))
            random.shuffle(tmp)
            self.contexts[:], self.responses[:], self.labels[:] = zip(*tmp)

    def next(self):
        contexts = self.contexts[self.index:self.index + self.batch_size]
        responses = self.responses[self.index:self.index + self.batch_size]
        labels = self.labels[self.index:self.index + self.batch_size]
        if self.index + self.batch_size >= len(self.labels):
            self.index = 0
        else:
            self.index += self.batch_size
        return contexts, responses, labels

    def __len__(self):
        return len(self.labels)

    def batches(self):
        return int((len(self.labels) + self.batch_size - 1) / self.batch_size)


if __name__ == '__main__':
    path = '../../data/msn-version/ubuntu_data/'

    # import pickle as pkl
    # train_contexts, train_responses, train_labels = pkl.load(file=open(path + "train.pkl", 'rb'))
    # dev_contexts, dev_responses, dev_labels = pkl.load(file=open(path + "dev.pkl", 'rb'))
    # vocab, word_embeddings = pkl.load(file=open(path + "vocab_and_embeddings.pkl", 'rb'))

    # breakpoint() # glance data structure