全国首个上手机的AI视频通话来了《黑神话:悟空》经文也能破译
栏目:学术交流 发布时间:2024-09-01

  之前B站Up主“女流姐”在直播《黑神话:悟空》的时候,科普游戏内的经文被大家津津乐道。

  这便是智谱AI最新推出的类GPT-4o视频通话的功能——让AI边看世界边和你聊天。

  而且已经在自家App智谱清言里上线了,是全国首个正式开放的那种(一部分人先用起来,再逐步完全开放)。

  它能直接辅导小孩做作业。不仅能直接看到、看懂题目,还会循循善诱,一步步引导小孩自己思考找到正确答案。

  总结来说,新增的AI视频通话能力,让智谱清言不用仅仅依赖打字、语音这种人类主动输入的形式了解世界,只要打开摄像头,咱们看到的画面,AI也能了解。

  这样一来,AI的能力立马提升了一个维度。具备跨文本、音频、视频实时推理能力后,AI也在交互上变得更加灵活、亲切。

  而且是敢在KDD国际数据挖掘与知识发现大会上发布的那种。今年以来,智谱以“国产之光”的形象频繁在ICLR等国际舞台上露脸亮相,向外展示中国大模型当下最前沿进展。

  首先,在语言文本能力方面,GLM-4-Plus已经取得与GPT4o及405B参数量的Llama3.1相当的成绩。

  在图像和视频理解能力方面,GLM-4-Plus也取得了较为突出的成绩;而且还是可以理解网页内容,并将其转换为HTML代码的那种。

  据了解,该模型将上线开放平台(,智谱AI还将提供国内首个通用视频理解模型的API!

  GLM-4V-Plus在看完视频之后,便可以对其内容做理解并回答用户的问题。

  GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。

  GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

  由此,也就不难理解智谱清言上的AI视频通话功能为什么可以做到如此丝滑了。

  不仅仅是这次上线的AI视频通话是全国首个,更早之前的每一个“大动作”也都是属于领先的梯队。

  比如年初发布的新一代基座模型GLM-4,全面对标GPT-4;7月发布的类Sora视频生成模型CogVideoX;以及文生图模型迎来最新版本CogView-3-Plus,其效果接近目前最佳的MJ-V6及FLUX等模型,并支持图片编辑功能。

  也是在这两天,智谱AI的CogVideoX-5B宣布开源。它能在低门槛条件下带来更好的视频生成效果。

  那么你觉得智谱AI的视频通话功能如何呢?欢迎体验过后在评论区留言讨论哦~

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。银河官方官网


本文由:银河国际科学研究院提供