调查发现大量 AI 研究采用资料库标签混乱

调查发现大量 AI 研究采用资料库标签混乱

人工智慧的机器学习训练而言,优质资料库是制作有效模型的关键,但有研究发现,不少 AI 研究使用的标签多不统一,研究效率降低、造成错误。

最近《Quantitative Science Studies》杂志的研究,谘询公司 Webster Pacific 和加州大学圣地亚哥分校和柏克莱分校研究人员调查 AI 研究论文遵循资料库标记最佳实践状况,发现很多研究都没有注明到底是谁标记资料库,或资料库来源。建立资料库的过程容易发生人为错误,而导致比较训练进度时采用的资料库子集有问题。

MIT 最近研究也发现,训练商用模型的资料库有几千到几百万个错误标记,这些问题有可能导致研究人员最后选择劣质模型。研究呼吁人工标记应采用单一方案,重复使用资料库也要更谨慎,避免偏见蔓延,确保最后训练出来的模型不会有相同问题。

  • Data labeling for AI research is highly inconsistent, study finds

(本文由 Unwire Pro 授权转载;首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。