机器学习从业者面临的各种挑战是什么?
尽管机器学习发展迅速,但仍有很长的路要走。这背后的原因是机器学习从业者在开发应用程序时面临的各种挑战。让我们来看看这些挑战-
数据收集-数据在开发任何机器学习应用程序中起着最重要的作用。ML从业者的大部分工作在于收集高质量的数据。如果您是初学者并想尝试机器学习,您可以从Kaggle或UCIMLRepository中找到数据集。但是如果你想实现真实的案例场景或需要解决业务问题,你需要通过网络抓取或从客户端收集数据。收集后,应将数据结构化并存储在数据库中。为此,机器学习从业者需要额外的大数据知识。
训练数据质量-收集数据后,机器学习工程师需要做两件事。一种是为机器学习项目选择合适的学习算法,另一种是使用一些获取的数据来训练模型。这里最大的挑战是选择高质量的训练数据。训练数据的质量很重要,因为使用低质量数据会导致与数据预处理和特征提取相关的问题。
Non-representativetrainingdata-训练数据应该具有代表性,即它也应该对新案例(将要发生的案例)很好地概括。寻找有代表性的训练数据对每个ML从业者来说都是一个严峻的挑战,因为使用非代表性的训练数据会导致错误的预测。
选择相关特征-如果我们使用包含大量不相关特征的训练数据,我们的ML模型将永远不会给出预期的结果。特征选择,即为ML项目的成功选择好的特征,是ML从业者应该克服的重要方面之一,也是另一个关键挑战。
过拟合和欠拟合训练数据-当ML模型在训练数据中提取噪声并将其作为概念学习时,就会发生过拟合问题。而顾名思义,欠拟合的问题发生在它既不对训练数据建模也没有推广到新数据时。ML从业者的目标应该是在欠拟合和过拟合之间的最佳位置选择模型。
模型部署-许多ML从业者面临的另一个最大挑战是成功部署他们的ML应用程序。这可能是由于依赖问题、对业务问题或底层模型的理解不足、ML模型不稳定等。