1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。
这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”
大模型训练语料短缺问题严重
科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。
虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。
值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。
中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。
上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。
高质量语料应具备七大特征
那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。
邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。
同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。
此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。
“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。
完善相关机制提高语料质量
记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”
“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。
正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。
同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。
除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。(记者 罗云鹏)
【环球科技网】摄像头、可视门铃、行车记录仪等安防产品已被人们熟知,这些产品虽然技术成熟,应用广泛,但面临的挑战是如何“破局”——如何进化产品,如何提升用户体验,如何加大“To B”端的应用深度,这些都是厂商需要解决的问题;与被人熟知的安防产品相比,人工... [阅读]
2023年10月18日,我国在第三届“一带一路”国际合作高峰论坛期间发布《全球人工智能治理倡议》,围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案。 近年来,全球人工智能技术快速发展,成为推动科技和产业加速发展的重要力量,对经济社会发展和人类文明进步产生深远影响。人工智能技术发展现状如何... [阅读]
【环球科技网】1月5日,“2023年风马牛年终秀”上,三六零(601360.SH,下称“360”)集团创始人周鸿祎分享了对2024年大模型发展趋势的十大预测,呼吁企业树立AI信仰,All in AI。他认为,创新才能破局,未来最大的创新机会在大模型。 &nb... [阅读]
【环球科技网】12月28日,360集团创始人周鸿祎应“抖音知识大V进校园”活动之邀走进清华大学,与清华校友和访问学者等交流人工智能技术发展趋势。 交流中,周鸿祎对2024年大模型发展做出几点预判。他认为大模型不会被垄断,不会像操作系统一样全世界只有几套,其发展路径更像电脑,未来会无... [阅读]
2024-11-19
2024-11-18
2024-11-15
2024-11-11
2024-11-05
2024-11-19
2024-11-18
2024-11-15
2024-11-11
2024-11-05