扫码阅读
手机扫码阅读

AI时代,中文终将会消失

183 2025-02-15

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:AI时代,中文终将会消失
文章来源:
3分钟数据和存储课堂
扫码关注公众号
人工智能发展的三个重要要素摘要

人工智能发展的三个重要要素摘要

人工智能(AI)发展的核心围绕三个要素:算法、算力和数据。算法的竞争依赖于极少数顶尖人才的智商,而中国勤奋的特性和庞大的人口数量意味着算法的竞争最终能达到国际水平。算力虽然短期内可能存在问题,但长期来看是有解决方案的,关键在于能否生产出被市场接受和使用的产品。

然而,在这三要素中,数据问题最为棘手。AI模型训练依赖大量优质、公开的数据,特别是中文数据。根据w3techs.com的统计,中文在互联网上的信息占比从2013年的4.3%下降至2024年的1.2%,这反映了公开中文数据的减少。中国虽然人口众多,但普通人创建能被所有人访问的网站存在诸多限制,导致公开数据稀缺。私人数据如社交媒体上的内容,由于隐私权保护,不能用于AI训练。

高质量中文社区的减少也在影响数据质量。例如,豆瓣、知乎等社区非但数量减少,而且内容质量下降,甚至出现基于AI生成的无用答案。作者通过一个实验,使用RPA机器人和AI自动在知乎生成和发布回答,结果轻松获得高等级和认可,这表明AI生成内容已经在中文社区中扮演角色,进一步降低了数据质量。

相比之下,以英语为主的AI模型训练数据量巨大且开放,涵盖了各个领域的高质量内容,如学术论文、编程库、数据集等。西方的开放科学和共享知识传统为AI模型训练提供了丰富素材。因此,英文数据驱动的AI模型通常在智商和表现上优于中文数据训练的模型。随着模型迭代的加速,使用优质数据的模型在各领域的表现越来越突出。

这种差距可能看似微小,但从AI模型的进化角度来看,可能会导致未来不同语言体系模型间的巨大能力鸿沟。优质数据支持的模型像进化竞赛中的先发优势物种,能够更快速学习和进步。一旦差距形成,未来可能会进一步加剧,这不仅关乎技术领先,还将影响全球科技发展、商业竞争和文化传播。

想要了解更多内容?

查看原文:AI时代,中文终将会消失
文章来源:
3分钟数据和存储课堂
扫码关注公众号