This repository has been archived by the owner on Jan 2, 2023. It is now read-only.
forked from ashimko/hse_workshop_classification
-
Notifications
You must be signed in to change notification settings - Fork 0
/
dvc.lock
314 lines (314 loc) · 10.7 KB
/
dvc.lock
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
schema: '2.0'
stages:
load_data:
cmd: python -m src.data.make_dataset --config=params.yaml
deps:
- path: data/raw/test.csv
md5: f4088e849b8f561eb3e9055a4251567a
size: 248941
- path: data/raw/train.csv
md5: 3fe5dc9c07027b120ea0ff061018594d
size: 399312
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/data/make_dataset.py
md5: 8e188b5adce78cfe30cf72cb266e9c44
size: 1188
- path: src/data/preprocess.py
md5: 364f2697d29ba1d8242267019e661036
size: 1475
- path: src/utils.py
md5: a63e9fc88f67423ded9b88dcd49a34f6
size: 375
params:
params.yaml:
load_data:
data_train_path: data/raw/train.csv
data_test_path: data/raw/test.csv
preprocess_data:
cols:
TARGET_COLS:
- Артериальная гипертензия
- ОНМК
- Стенокардия, ИБС, инфаркт миокарда
- Сердечная недостаточность
- Прочие заболевания сердца
ID_COL: ID
EDU_COL: Образование
SEX_COL: Пол
FREQ_COL: Частота пасс кур
CAT_COLS:
- Пол
- Семья
- Этнос
- Национальность
- Религия
- Образование
- Профессия
- Статус Курения
- Частота пасс кур
- Алкоголь
- Время засыпания
- Время пробуждения
OHE_COLS:
- Вы работаете?
- Выход на пенсию
- Прекращение работы по болезни
- Сахарный диабет
- Гепатит
- Онкология
- Хроническое заболевание легких
- Бронжиальная астма
- 'Туберкулез легких '
- ВИЧ/СПИД
- Регулярный прим лекарственных средств
- Травмы за год
- Переломы
- Пассивное курение
- Сон после обеда
- Спорт, клубы
- Религия, клубы
REAL_COLS:
- Возраст курения
- Сигарет в день
- Возраст алког
paths:
preprocessed_train_data_pkl: data/interim/train_data.pkl
preprocessed_target_data_pkl: data/interim/target_data.pkl
preprocessed_test_data_pkl: data/interim/test_data.pkl
outs:
- path: data/interim/test_data.pkl
md5: edeefe115658b8aa683ee2acb4b82d2a
size: 43142
- path: data/interim/train_data.pkl
md5: 8e9f23906108618d7b9f95323ba6ae33
size: 99796
generate_features:
cmd: python -m src.features.build_features --config=params.yaml
deps:
- path: data/interim/test_data.pkl
md5: edeefe115658b8aa683ee2acb4b82d2a
size: 43142
- path: data/interim/train_data.pkl
md5: 8e9f23906108618d7b9f95323ba6ae33
size: 99796
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/features/build_features.py
md5: 8e439f7f77fb7c8daaa41c3d5c1d47bf
size: 1232
- path: src/features/features.py
md5: f9e49793825db16ccadb19e21d4c5ecb
size: 1150
- path: src/utils.py
md5: a63e9fc88f67423ded9b88dcd49a34f6
size: 375
params:
params.yaml:
generate_features:
cols:
WAKE_UP_TIME_COL: Время пробуждения
FALL_ASLEEP_COL: Время засыпания
SLEEP_BEHAVIORS_COL: Жаворонок/Сова/Воробей
SLEEP_DURATION_COL: Длительность сна (ч.)
paths:
featurized_train_data_pkl: data/interim/featurized_train_data_pkl
featurized_test_data_pkl: data/interim/featurized_test_data_pkl
outs:
- path: data/interim/featurized_test_data_pkl
md5: fdf588f669a46f17dff05cf6eb7e9b1b
size: 49447
- path: data/interim/featurized_train_data_pkl
md5: 3ee7a6628f8a5885585f2260258a9951
size: 109589
train_catboost:
cmd: python -m src.models.catboost.train_model --config=params.yaml
deps:
- path: data/interim/featurized_train_data_pkl
md5: 3ee7a6628f8a5885585f2260258a9951
size: 109589
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/models/catboost/train_model.py
md5: 64eb42aa3c2110aa9dec82020e5aca3c
size: 2093
- path: src/models/utils.py
md5: 21db3c423470fb2f150bd23e43a30c2b
size: 1950
params:
params.yaml:
train:
CAT_COLS:
- Пол
- Семья
- Этнос
- Национальность
- Религия
- Образование
- Профессия
- Статус Курения
- Частота пасс кур
- Алкоголь
- Жаворонок/Сова/Воробей
hyperopt:
best_model_file: models/hyperopt_best_model.joblib
catboost:
iterations: 250
loss_function: MultiLogloss
eval_metric: MultiLogloss
learning_rate: 0.01
bootstrap_type: Bayesian
boost_from_average: false
ctr_leaf_count_limit: 1
leaf_estimation_iterations: 1
leaf_estimation_method: Gradient
catboost_best_model_path: models/catboost_best_model.joblib
outs:
- path: catboost_info/learn_error.tsv
md5: 27537dfa9ed938f959ea409b9cd35f2b
size: 4130
- path: models/catboost_best_model.joblib
md5: 35acce2ceeb6b79b36c9098028b63b2e
size: 1040740
pred_eval_catboost:
cmd: python -m src.models.catboost.predict_model --config=params.yaml
deps:
- path: data/interim/featurized_test_data_pkl
md5: fdf588f669a46f17dff05cf6eb7e9b1b
size: 49447
- path: data/interim/featurized_train_data_pkl
md5: 3ee7a6628f8a5885585f2260258a9951
size: 109589
- path: models/catboost_best_model.joblib
md5: 35acce2ceeb6b79b36c9098028b63b2e
size: 1040740
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/models/catboost/predict_model.py
md5: a884df084055de6ec8a4231e07bc1df1
size: 1638
- path: src/models/catboost/train_model.py
md5: 64eb42aa3c2110aa9dec82020e5aca3c
size: 2093
- path: src/models/predict_utils.py
md5: ef6a906de2fff4d672ad5e77d0f5380f
size: 804
- path: src/models/utils.py
md5: 21db3c423470fb2f150bd23e43a30c2b
size: 1950
params:
params.yaml:
predict:
hyperopt:
metrics: reports/hyperopt_metrics.json
inference_predict: data/processed/hyperopt_predict.csv
catboost:
metrics: reports/catboost_metrics.json
inference_predict: data/processed/catboost_predict.csv
outs:
- path: data/processed/catboost_predict.csv
md5: 7fb0d32cf344c5debd1162551dfe6d71
size: 79750
- path: reports/catboost_metrics.json
md5: 2c3e673e5c2daa9bc6708aac3eecc60a
size: 227
train_hyperopt:
cmd: python -m src.models.hyperopt.train_model --config=params.yaml
deps:
- path: data/interim/featurized_train_data_pkl
md5: 3ee7a6628f8a5885585f2260258a9951
size: 109589
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/models/hyperopt/find_best_model.py
md5: bc3b0e6fcf09395077e1b122287fd35c
size: 731
- path: src/models/hyperopt/pipelines.py
md5: b7ae575ce0c2a26f3f2967ffb48cca90
size: 457
- path: src/models/hyperopt/train_model.py
md5: 8d68eaa8300c267734421341639b5556
size: 1746
- path: src/models/utils.py
md5: 21db3c423470fb2f150bd23e43a30c2b
size: 1950
params:
params.yaml:
train:
CAT_COLS:
- Пол
- Семья
- Этнос
- Национальность
- Религия
- Образование
- Профессия
- Статус Курения
- Частота пасс кур
- Алкоголь
- Жаворонок/Сова/Воробей
hyperopt:
best_model_file: models/hyperopt_best_model.joblib
catboost:
iterations: 250
loss_function: MultiLogloss
eval_metric: MultiLogloss
learning_rate: 0.01
bootstrap_type: Bayesian
boost_from_average: false
ctr_leaf_count_limit: 1
leaf_estimation_iterations: 1
leaf_estimation_method: Gradient
catboost_best_model_path: models/catboost_best_model.joblib
outs:
- path: models/hyperopt_best_model.joblib
md5: c459ac140d02aa563324d6d0092f76bd
size: 8749488
pred_eval_hyperopt:
cmd: python -m src.models.hyperopt.predict_model --config=params.yaml
deps:
- path: data/interim/featurized_test_data_pkl
md5: fdf588f669a46f17dff05cf6eb7e9b1b
size: 49447
- path: data/interim/featurized_train_data_pkl
md5: 3ee7a6628f8a5885585f2260258a9951
size: 109589
- path: models/hyperopt_best_model.joblib
md5: c459ac140d02aa563324d6d0092f76bd
size: 8749488
- path: src/config.py
md5: f7eab9f5f533667a1213170b7ee66140
size: 2808
- path: src/models/hyperopt/predict_model.py
md5: bf9ac09c18631fc56be0918557350c66
size: 1648
- path: src/models/hyperopt/train_model.py
md5: 8d68eaa8300c267734421341639b5556
size: 1746
- path: src/models/predict_utils.py
md5: ef6a906de2fff4d672ad5e77d0f5380f
size: 804
- path: src/models/utils.py
md5: 21db3c423470fb2f150bd23e43a30c2b
size: 1950
params:
params.yaml:
predict:
hyperopt:
metrics: reports/hyperopt_metrics.json
inference_predict: data/processed/hyperopt_predict.csv
catboost:
metrics: reports/catboost_metrics.json
inference_predict: data/processed/catboost_predict.csv
outs:
- path: data/processed/hyperopt_predict.csv
md5: f826c2556c1f27aac42a20409daf1c6e
size: 79750
- path: reports/hyperopt_metrics.json
md5: cef2fbe4d7e01138a3f66b0b6c147895
size: 232