Conversation
|
Build Documentation скорее всего упадет, но это не страшно. Сегодня гитхаб барахлит |
There was a problem hiding this comment.
все ок, только лучше добавлять все сгенерированные тексты в какой-то один сплит, название которого передается как аргумент
There was a problem hiding this comment.
В такой постановке возможна следующая ситуация: пользователь отдельно генерирует данные для трейна и теста, но, есть вероятность, что в обе части могут попасть одинаковые высказывания, особенно для интентов с малым количеством регулярок.
Подойдет ли такой вариант: добавлю функцию, которая генерирует высказывания и все складывает в сплит заданный пользователем, а текущий вариант оставим как есть?
There was a problem hiding this comment.
проблему одинаковых семплов пользователь будет решать тем что можно сначала сгенерировать, а потом уже разделить на сплиты
а поддерживать добавление сразу во все сплиты сложно потому что у нас поддерживается много конфигураций датасетов:
- train
- train val
- train test
- train val test
- train_0 train_1 val_0 val_1 test
и наверное еще какие-то
поэтому чтобы внутри функции не разбираться какая конфигурация попала нам в руки, лучше отдать все это под ответственность пользователя, который укажет имя сплита
There was a problem hiding this comment.
Готово.
Только есть проблема, мы не можем создавать датасет если в нем нет train сплита, вылетает exception.
Грубо говоря, параметр с именем сплита бесполезен.
voorhs
left a comment
There was a problem hiding this comment.
мне видится что этот функционал должен не создавать новый датасет, а дополнять тот, который пришел на вход; например в текущей реализации в новом датасете не сохраняется информация об имеющихся сплитах
хотелось бы чтобы split_name обозначал имя сплита который и надо дополнить
еще я предлагаю оформить этот функционал в виде класса, как это сделано тут и тут, т.е. должен быть метод augment который принимает на вход датасет, имя сплита и любые доп аргументы какие понадобятся
пока что текущая часть нашей библиотеки (autointent.generation) оформлена не совсем консистентно, а немного даже хаотично, поэтому я понимаю почему все это было не очевидно и прошу прощения что сразу не объяснил все в подробностях
Временно закомиттил часть либы exrex (согласовано с Ильей). Подождем пока автор примет мои исправления.
Если все затянется, сделаем релиз собственного форка.