扫码阅读
手机扫码阅读

领英是如何利用机器学习解决内容相关威胁和滥用问题

45 2024-07-04

领英工程师Shubham Agarwal和Rishi Gupta介绍了领英如何使用自研的AutoML框架来发现并移除违反其标准政策的内容。这个框架可以并行训练分类器并试验多种模型架构,将模型训练时间从数月减少到数天,并减轻了开发新模型的负担。

内容审核的挑战包括持续执行和调整以应对规避审核的新手段,适应数据漂移、全球事件带来的变化,以及对抗性威胁如欺诈和欺瞒行为。AutoML,作为领英的自动化机器学习工具,通过在新数据上不断训练和微调模型以及参数来提升性能。

AutoML简化了以往复杂的流程,使领英工程师能够自动化数据准备和特征转换,包括降噪、降维和特征工程,创建高质量的训练数据集。此外,AutoML通过搜索一系列超参数和优化方法,对比不同分类器架构生成的模型性能。

最终,AutoML自动化地将新训练的模型部署到生产服务器。尽管这套工具在速度和效率方面尚需改进以便更广泛应用,Agarwal和Gupta认为使用生成式AI来减少标签噪声并生成合成数据是一个有前途的领域,以提高数据集质量。

尽管不是所有组织都有领英的资源,但Agarwal和Gupta指出,他们的方法可以在小规模上复制,减轻机器学习工程师的重复性工作。

原文链接:How LinkedIn Uses Machine Learning to Address Content-Related Threats and Abuse

声明:本文为 InfoQ 翻译,未经许可禁止转载。

想要了解更多,点击 查看原文

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。

94 篇文章
浏览 3968
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线