Вот есть наброски к перспективному (на мой вкус и кругозор) подходу
Weak Supervision: A New Programming Paradigm for Machine Learninghttp://ai.stanford.edu/blog/weak-supervision/В последние годы реальное влияние машинного обучения (ML) росло как на дрожжах. Во многом это связано с появлением моделей глубокого обучения, которые позволяют практикующим врачам получать самые современные оценки по наборам эталонных данных без каких-либо ручных функций. Принимая во внимание наличие нескольких платформ ML с открытым исходным кодом, таких как TensorFlow и PyTorch, и обилие доступных современных моделей, можно утверждать, что высококачественные модели ML в настоящее время являются почти коммодитизированным ресурсом. Однако здесь есть скрытый подвох: опора этих моделей на массивные наборы обучающих данных, помеченных вручную.
Эти обучающие комплекты с ручной маркировкой являются дорогостоящими и требуют много времени на создание - на их сборку, очистку и отладку часто требуются человеко-месяцы или годы, особенно когда требуется опыт в данной области. Помимо этого, задачи часто меняются и развиваются в реальном мире. Например, рекомендации по маркировке, детализации или последующие варианты использования часто меняются, что требует повторной маркировки (например, вместо того, чтобы классифицировать обзоры только как положительные или отрицательные, вводя нейтральную категорию). По всем этим причинам практикующие врачи все чаще обращаются к более слабым формам надзора, таким как эвристическая генерация обучающих данных с использованием внешних баз знаний, шаблонов / правил или других классификаторов. По сути, это все способы программного генерирования обучающих данных или, более кратко, программирования обучающих данных.
Мы начнем с обзора областей ML, которые мотивированы проблемой маркировки обучающих данных, а затем опишем наши исследования по моделированию и интеграции разнообразных источников наблюдения. Мы также обсуждаем наше видение построения систем управления данными для массового многозадачного режима, в котором десятки или сотни слабо контролируемых динамических задач взаимодействуют сложным и разнообразным образом. Посетите наш исследовательский блог для подробного обсуждения этих тем и многого другого.