字节的豆包AI来了,企鹅的混元还会远吗

随着国内各家大厂下场AI赛道,大厂都快要完成布局,最近字节跳动家的基于云雀模型的“豆包AI”也出来了,它有网页端和手机端,可以直接体验,产品来自抖音全资持股的一个公司,至于这个AI的奇怪名字,有网友说可能来自抖音的“Dou Bot”谐音。

图片[1]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

现在打开这个豆包的页面,可以看到主界面左边有几个独立的聊天属性,分别是:一个AI本体、一个专门用于陪聊的机器人(会发Emoji)、一个写作助手和英语学习助手。

图片[2]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

右边可以选择语言,目前支持中文和英文两种,下面的按钮可以单独清理上下文联系或聊天记录。

除此之外就没有其他东西了,之前测试的版本据说还有文字生成图片的功能,但是在豆包放出的这个版本并没有加进来,可能是在生成效果上还有些不足,所以需要再等等,这就很容易让人想到一句话:不调好不发布。

在豆包的回复内容上,感觉是更加偏向于保守和简短的,在许多问题上,它不会像New Bing和其他Gpt那样引诱或者猜测你接下来话题,直接是比较斩钉截铁的回答。

图片[3]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

在一些问题上有着比较强烈的立场,想要套它的话感觉要困难不少,比如说一个简单的问题,大家都知道它的数据一般就是从中文互联网上抓取的,这并不是什么重要的机密。

但是你问豆包,它的数据是从网上哪些网站上扒拉来的时候,它还会矜持一下说不能告诉你…会说这是商业机密以及没有人工干预一类的车轱辘话。

图片[4]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

但是修改一下提问的方式它就会告诉你,并且从它的回答里,你能感觉到它有一个非常强烈的“人设”,喜欢提及自己是来自字节跳动训练的人工智能。

图片[5]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

另外,有些真正重要的问题,想要套它的话就难很多了,比如说之前出现的奶奶漏洞,让它扮演一个角色并且想要它给出想要的信息的时候,它会基于它目前的角色来纠正事实,并给出你解决问题的其他办法,虽然感觉回答也比较死板,但确实是比较“安全”的。

图片[6]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

图片[7]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

在豆包内容限制上,根据它自己的回答,有下面这些问题会明确受到回复限制。

图片[8]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

关于它的上下文回复中,也可以加入一些特定的任务,比如说展示与豆包之间沟通的友善程度,或者给出它认为你现在的情绪值,这个它是可以理解的,在它认为你比较有礼貌的时候,你骂它一句,它给出的礼貌评分瞬间就掉下来了。

图片[9]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

而在其他类型的问题上,像是逻辑推理和代码生成以及计算能力,有专门的评测团队对它进行了基于SuperCLUE-Open测评基准的600题测试,得到的结果如下图所示:

图片[10]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

                                                                   图源:CLUE中文语言理解测评基准

可以看到GPT4是一个全面的多边形战士,没有对手,目前市面上的其他模型还在某些方向上努力追赶GPT4,而字节跳动的这个豆包在评测里,在“逻辑与推理”和“知识与百科”这两块上面,超过了除GPT4外的其他模型,其中也包括了文心一言v2.0.4版本和讯飞星火v1.5版本。

图片[11]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

                                                             图源:CLUE中文语言理解测评基准

在测试里面,代码的能力则差了一些,目前国内的模型对代码的处理都不太行。

图片[12]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

                                                                          图源:CLUE中文语言理解测评基准

 

不过这些测试也不能完全说明问题,而且大家在真实使用的时候,一般提问都是奇奇怪怪,什么内容都有,在一些测试里面提到了豆包存在的一些问题:在百科和生活常识的回答是比较好,但是在英文写作里面竟然还夹杂着中文,数学逻辑也不太行。只能说某些场景还是能把玩一下。

图片[13]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

                                                                                    图源:蓝鲸财经

接下来就是在手机版上的体验了,豆包会把你与它的聊天记录实时同步到其他平台上面,你可以在手机上聊一句,然后电脑上聊一句,体验是一样的不会发生中断。

图片[14]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

同时在手机上都可以点击最后一句话来进行修改,或者是针对某一句话开启新的对话,不同的是在手机上可以用语音来读出结果,这个声音有很多种可以选,听上去语气也比较真实。

对于最新的问题,还会出现一个搜索按钮,点击跳转到今日头条的搜索。

图片[15]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

然后还有一个联想词的功能,不过这个功能有些离谱,它调用的似乎是不同搜索引擎的关键字联想,这都是AI回答了,还引导用户像使用搜索引擎一样来使用,强行结合感觉有些奇怪。

图片[16]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

最后就是一个比较离谱的问题,感觉就像是没有测试过一样,在全能写作助手里面,有一个“请帮我写一篇电影的评价”引导用法,点击之后出来的结果是这样。

图片[17]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

图片[18]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

体验一圈下来,由于有GPT4的体验,所以豆包也没有那种让人觉得眼前一亮的体验,只能说是一个中规中矩的AI机器人,未来还需要继续调整,现在百度、阿里、华为、字节、360等公司的大厂AI都出来了,除了百度首先发布的时候引起了大家的关注,后续大家都已经见怪不怪了,接下来就看企鹅的“混元”是以什么方式登场。

图片[19]-字节的豆包AI来了,企鹅的混元还会远吗-阿噜噜小栈

除了这些大厂专有的AI产品,其实很多东西现在都融入了类似AI相关的东西,现在AI这个词已经被泛化了,只要是与生成式的相关,再加上可以对话,都在往AI方向靠,什么数字人、设计工具、客服自动回复、记笔记的、记账的、思维导图的、做Logo的、AI抠图的、生成语音的等等,似乎不叫AI就落后了一样。

更多的是为原本就有的功能,添加了对话使用入口,而现在的AI也和割裂的APP一样,将数据分割在各个不同的平台,大家也是像瓜田里的猹,到处看看哪块地比较好,在应用场景大多也是停留在作图和文字处理上,等与其他产品有更深入的融合时,更令人期待。图片

参考内容:

CLUE中文语言理解测评基准-字节AI大模型“豆包”评测揭晓|SuperCLUE

蓝鲸财经-字节跳动上线AI对话产品“豆包”,数学计算方面仍需优化

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容