image_recognition/optimizer.py at master · Kenta57/image_recognition · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
import numpy as np


class SGD:
    def __init__(self, mu=0.01):
        self.mu = mu

    def update(self, param, grad):
        param = param - self.mu*grad
        return param

class Momentum:
    def __init__(self, eta=0.01, alpha=0.9):
        self.eta = eta
        self.alpha = alpha

        self.count = -1

        self.alphas = []
        self.deltaWs = []

    def update(self, param, grad, index):
        if self.count < index:
            self.count += 1
            self.alphas.append(self.alpha)
            self.deltaWs.append(np.zeros_like(param))

        self.deltaWs[index] = self.alphas[index]*self.deltaWs[index] - self.eta*grad
        param = param + self.deltaWs[index]
        return param

class AdaGrad:
    def __init__(self, eta=0.001, h=1e-8):
        self.eta = eta
        self.h = h

        self.count = -1

        self.etas = []
        self.hs = []

    def update(self, param, grad, index):
        if self.count < index:
            self.count += 1
            self.etas.append(self.eta)
            self.hs.append(self.h)

        self.hs[index] = self.hs[index] + grad*grad
        param = param - self.etas[index]*self.hs[index]**(-1/2)*grad
        return param

class RMSProp:
    def __init__(self, h=0, eta=0.001, rho=0.9, epsilon=1e-8):
        self.h = h
        self.eta = eta
        self.rho = rho
        self.epsilon = epsilon

        self.count = -1

        self.hs = []
        self.etas = []
        self.rhos = []
        self.epsilons = []

    def update(self, param, grad, index):
        if self.count < index:
            self.count += 1
            self.hs.append(self.h)
            self.etas.append(self.eta)
            self.rhos.append(self.rho)
            self.epsilons.append(self.epsilon)

        self.hs[index] = self.rhos[index]*self.hs[index] + (1-self.rhos[index])*grad*grad
        param = param - self.etas[index]/(self.hs[index]**(1/2)+self.epsilons[index])*grad
        return param

class AdaDelta:
    def __init__(self, rho=0.95, epsilon=1e-6):
        self.h = 0
        self.s = 0
        self.rho = rho
        self.epsilon = epsilon

        self.count = -1

        self.hs = []
        self.ss = []
        self.rhos = []
        self.epsilons = []

    def update(self, param, grad, index):
        if self.count < index:
            self.count += 1
            self.hs.append(self.h)
            self.ss.append(self.s)
            self.rhos.append(self.rho)
            self.epsilons.append(self.epsilon)

        self.hs[index] = self.rhos[index]*self.hs[index] + (1-self.rhos[index])*grad*grad
        deltaW = -(self.ss[index]+self.epsilons[index])**(1/2)/(self.hs[index]+self.epsilons[index])**(1/2)*grad
        self.ss[index] = self.rhos[index]*self.ss[index] + (1-self.rhos[index])*deltaW*deltaW
        param = param + deltaW
        return param

class Adam:
    def __init__(self, alpha=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
        self.alpha = alpha
        self.beta1 = beta1
        self.beta2 = beta2
        self.epsilon = epsilon
        self.t = 0
        self.m = 0
        self.v = 0

        self.count = -1

        self.alphas = []
        self.beta1s = []
        self.beta2s = []
        self.epsilons = []
        self.ts = []
        self.ms = []
        self.vs = []

    def update(self, param, grad, index):
        if self.count < index:
            self.count += 1
            self.alphas.append(self.alpha)
            self.beta1s.append(self.beta1)
            self.beta2s.append(self.beta2)
            self.epsilons.append(self.epsilon)
            self.ts.append(self.t)
            self.ms.append(self.m)
            self.vs.append(self.v)

        self.ts[index] = self.ts[index] + 1
        self.ms[index] = self.beta1s[index]*self.ms[index] + (1-self.beta1s[index])*grad
        self.vs[index] = self.beta2s[index]*self.vs[index] + (1-self.beta2s[index])*grad*grad
        m_conv = self.ms[index]/(1-self.beta1s[index]**self.ts[index])
        v_conv = self.vs[index]/(1-self.beta2s[index]**self.ts[index])
        param = param - self.alphas[index]*m_conv/(v_conv**(1/2)+self.epsilons[index])
        return param