当前位置: 首页  >> 智能环球  >> 查看详情

大模型企业闯进“纯视觉时代”

来源: 中国高新技术产业导报   日期:2025-02-26  责编: 殷绪江  
分享:
   视频生成有望成为通用知识学习方法,在现实世界充当“人工大脑”。近日,豆包大模型团队宣布其携手北京交通大学与中国科学技术大学共同研发的视频生成实验模型“VideoWorld”正式开源,首次实现无需依赖语言模型即可认知世界。民生证券发布研报称,豆包开源视频大模型“VideoWorld”的发布,让视频生成成为通用知识学习方法,在现实世界充当“人工大脑”,仅靠“视觉”即可学习知识,并“理解”因果关系,“预测”未来,有望激活“视觉市场”为其打开增长空间。
仅靠“视觉”即可预测未来
   目前,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言作为一种表达工具,其局限性在于无法全面捕捉真实世界中的所有复杂信息。
   据了解,VideoWorld摒弃语言模型,通过纯视觉信号进行统一的理解、执行和推理。同时,VideoWorld基于一种潜在动态模型,可高效压缩视频连续帧间的变化信息,显著提升知识学习效率和效果。“视觉模型在处理连续帧变化时能够捕捉动态信息。这在理解动作序列、预测未来状态等方面有独特优势。”资深人工智能专家郭涛认为,这类模型能够直接处理和理解图像或视频数据,不需要先转换成文本描述再进行理解,因此在图像识别、场景理解方面更为直观和准确。此外,视觉信息本身含有丰富的细节和上下文,可为自动驾驶过程中的实时路况判断、医疗影像的精确分析等特殊场景提供更精细的判断依据。“这种视频生成模型不依赖语言模型,进一步减少了对数据标注和预训练的依赖,降低了开发成本和难度。”北京市社会科学院副研究员王鹏说。“这无疑大大提升了模型的学习效率;此外,这种大模型不需要中间的语言转换,更符合人类的直观认知方式。”科方得智库研究负责人张新原认为。
为AI应用带来新的可能性
   业界专家表示,VideoWorld的发布,也为人工智能领域带来新的可能性。比如,在医疗影像分析中,模型能够通过学习大量医学影像数据,辅助医生进行诊断和治疗;在娱乐产业,可用于电影特效制作、虚拟偶像生成等;在教育领域,能够创建互动式学习材料;在零售行业则可应用于商品展示和虚拟现实购物体验等。民生证券发布的研究报告认为,视觉认知世界的能力有望激活“视觉市场”。“这些应用场景只是‘冰山一角’,随着技术进步,更多创意应用将会涌现。”郭涛说。
依赖文本大模型有危机
   “随着多模态技术的发展,结合文本和图像的综合模型将成为趋势,单一依赖文本的大模型可能会逐渐失去竞争力。”在郭涛看来,这并不意味着语言大模型会被淘汰,而是促使其向更高级、更综合的方向发展,比如增强对图像的理解能力或与视觉模型更好地协同工作。此次豆包大模型团队选择开源VideoWorld,或许希望通过此举让更多的研究者和开发者可以接触并使用VideoWorld,以推动纯视觉认知技术的快速发展和应用。从长远看,作为首个无需依赖语言模型的视觉认知模型,VideoWorld的开源有助于其成为行业标准,影响未来相关技术的发展方向。VideoWorld的开源,为研究者提供了一个强大的基准模型,有助于探索更多基于视觉的学习方法和算法。“随着更多开发者的加入,有望围绕VideoWorld形成一个新的技术社区和生态系统,促进不同领域间交叉合作和技术融合,进一步拓展人工智能的应用边界。”郭涛说。关于开源面临的一些挑战,业界人士认为,开源使得竞争对手可以轻松获取技术细节,可能加剧市场竞争。当然还有社区管理方面的挑战,维护一个活跃且健康的开源社区需要投入大量资源,包括技术支持、文档维护等。




 

【免责声明】:
   凡注明 “环球科技网” 字样的图片或文字内容均属于本网站专稿,如需转载图片请保留 “环球科技网” 水印,转载文字内容请注明来源“环球科技网”;凡本网注明“来源:XXX(非环球科技网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其作品内容的实质真实性负责,转载信息版权属于原媒体及作者。如转载内容涉及版权或者其他问题,请投诉至邮箱;1978751725@qq.com 
本网公告
环球科技网从不发布负面新闻资讯,也绝不会发布负面信息。如发现负面信息链接请甄别是否为环球科技网所发。
本网系北京伯乐传媒广告有限公司主办、所有。本网唯一域名(www.hqkjw.cn),其它域名链接均为假冒。望广大网民及企业主认真甄别。


咨询、采访、合作、投稿等请致电:13911566744(含微信)

     
 
 


 

相关文章

  • 周鸿祎为首批幸运车交付车钥匙  现场聘用“纳米AI搜索推广大使” 周鸿祎为首批幸运车交付车钥匙  现场聘用“纳米AI搜索推广大使” 2025-02-24 17:06:53

       【环球科技网】2月23日,由360集团创始人周鸿祎发起的“刺激消费 推广国产品牌——纳米AI搜索新能源汽车活动首批幸运车主面对面”线下活动在京举办并全程直播。周鸿祎表示,渴望拥有一辆新能源智能网联车几乎是每个人的梦想,幸运车主的积极努力也代表了大多数人追求美好生活的想法。周鸿祎为来自五... [阅读]

  • 国产大模型加速迭代 开源渐成“必选项” 国产大模型加速迭代 开源渐成“必选项” 2025-02-24 12:52:55

       2025全球开发者先锋大会正在上海举行,一批国内外头部人工智能企业发布了多项重磅技术与解决方案,共同探讨人工智能产业的发展之路。作为人工智能领域中一个重要技术和应用分支,大模型的发展成为本次大会的热门话题。国产大模型有哪些发展新趋势?记者就此采访了多位业内人士。 AI大模型应用“百花齐放”   &n... [阅读]

  • 国产大模型加速迭代 开源渐成“必选项” 国产大模型加速迭代 开源渐成“必选项” 2025-02-24 12:43:50

       2025全球开发者先锋大会正在上海举行,一批国内外头部人工智能企业发布了多项重磅技术与解决方案,共同探讨人工智能产业的发展之路。作为人工智能领域中一个重要技术和应用分支,大模型的发展成为本次大会的热门话题。国产大模型有哪些发展新趋势?记者就此采访了多位业内人士。   AI大模型应用“百花齐放”   可跟随使用... [阅读]

  • DeepSeek,激荡AI行业的“一股清流” DeepSeek,激荡AI行业的“一股清流” 2025-02-21 10:00:10

       近期,外媒纷纷将聚光灯投向中国初创企业深度求索公司,其自主研发的人工智能(AI)大语言模型“深度求索”(DeepSeek)凭借“好用、开源、免费”三大特点,在全球范围内引发热烈反响。这一创新成果不仅在中国本土大放异彩,更是在大洋彼岸的美国乃至全球科技界激起了广泛讨论并受到高度评价,被视... [阅读]

新闻排行榜