调查发现大量 AI 研究采用资料库标签混乱

AI与大数据 57分钟前 0

▼

对人工智慧的机器学习训练而言，优质资料库是制作有效模型的关键，但有研究发现，不少 AI 研究使用的标签多不统一，研究效率降低、造成错误。

最近《Quantitative Science Studies》杂志的研究，谘询公司 Webster Pacific 和加州大学圣地亚哥分校和柏克莱分校研究人员调查 AI 研究论文遵循资料库标记最佳实践状况，发现很多研究都没有注明到底是谁标记资料库，或资料库来源。建立资料库的过程容易发生人为错误，而导致比较训练进度时采用的资料库子集有问题。

MIT 最近研究也发现，训练商用模型的资料库有几千到几百万个错误标记，这些问题有可能导致研究人员最后选择劣质模型。研究呼吁人工标记应采用单一方案，重复使用资料库也要更谨慎，避免偏见蔓延，确保最后训练出来的模型不会有相同问题。

Data labeling for AI research is highly inconsistent, study finds

（本文由 Unwire Pro 授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 人工智慧

相关文章