当前位置: 首页  >> 智能环球  >> 查看详情

大模型发展亟需高质量“教材”相伴

来源: 科技日报   日期:2024-01-15  责编: 殷绪江  
分享:

   1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。

  这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”

  大模型训练语料短缺问题严重

  科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。

  虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。

  值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。

  中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。

  上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。

  高质量语料应具备七大特征

  那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。

  邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。

  同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。

  此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。

  “高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。

  完善相关机制提高语料质量

  记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”

  “人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。

  正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。

  同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。

  除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。(记者 罗云鹏)




 

【免责声明】: 凡注明 “环球科技网” 字样的图片或文字内容均属于本网站专稿,如需转载图片请保留 “环球科技网” 水印,转载文字内容请注明来源“环球科技网”;凡本网注明“来源:XXX(非环球科技网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其作品内容的实质真实性负责,转载信息版权属于原媒体及作者。如转载内容涉及版权或者其他问题,请投诉至邮箱;1978751725@qq.com 
 
本网公告
环球科技网从不发布负面新闻资讯,也绝不会发布负面信息。如发现负面信息链接请甄别是否为环球科技网所发。
本网系北京伯乐传媒广告有限公司主办、所有。本网唯一域名(www.hqkjw.cn),其它域名链接均为假冒。望广大网民及企业主认真甄别。


咨询、采访、合作、投稿等请致电:13911566744(含微信)

     
 


 

相关文章

  • 新华三与浙江移动宣布共同探索大模型应用开发 新华三与浙江移动宣布共同探索大模型应用开发 2024-01-09 17:08:51

       1月9日消息,紫光股份旗下新华三集团与中国移动浙江公司于日前签订战略合作协议,进一步深化战略合作,开启合作共赢新篇章。双方将在既有基础通信、技术创新等合作基础上,本着“立足长远、优势互补、资源共享、协同创新、互利共赢”的原则,面向国际信息通信技术前沿和产业趋势,聚焦科技创新、AI算力创新中心、标准化产品、DI... [阅读]

  • “安防+大模型”,360智慧生活发力人工智能,用“智见”守护用户安全 “安防+大模型”,360智慧生活发力人工智能,用“智见”守护用户安全 2024-01-09 10:28:14

       【环球科技网】摄像头、可视门铃、行车记录仪等安防产品已被人们熟知,这些产品虽然技术成熟,应用广泛,但面临的挑战是如何“破局”——如何进化产品,如何提升用户体验,如何加大“To B”端的应用深度,这些都是厂商需要解决的问题;与被人熟知的安防产品相比,人工... [阅读]

  • 报告:CES 2024引领人工智能科技创新风向 报告:CES 2024引领人工智能科技创新风向 2024-01-08 16:53:02

       CES 2024(2024年国际消费电子展)于2024年1月9日至12日在美国拉斯维加斯举办。中信建投证券发布的研究报告称,预期CES 2024将引领人工智能领域的科技创新风向,看好AI多领域融合下的人工智能行业发展前景。    本次展会主题为“ALL TOGETHER. ALL ON.”... [阅读]

  • 要大力推进新型工业化加快推动人工智能发展 要大力推进新型工业化加快推动人工智能发展 2024-01-08 10:44:23

       2023年10月18日,我国在第三届“一带一路”国际合作高峰论坛期间发布《全球人工智能治理倡议》,围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案。   近年来,全球人工智能技术快速发展,成为推动科技和产业加速发展的重要力量,对经济社会发展和人类文明进步产生深远影响。人工智能技术发展现状如何... [阅读]

新闻排行榜