新智元报导
修改:修改部
【新智元导读】暖洋洋的文心一言测评陈述出炉了!尽管有些使命被吊打,但要论中国文化的博学多才,它可不输GPT-4。
昨日,百度没有现场demo的发布会,如同被群嘲了一波。
一位穿白衬衣、黑裤子,系一条白色腰带的美男子,给咱们带来了一场中规中矩、如同缺少亮点的演示。
不过,CEO的腰带和颜值却是出了圈。
有人戏弄,这些天被ChatGPT、GPT-4整焦虑的人,发布会后遽然又觉得自己可以了。
可是拿到内测码的小编,火速测评了一波。
看着文心一言洋洋洒洒腾蛟起凤,感慨万千:或许,其时百度要是心一横,牙一咬,愿意在发布会上露一手,成果会大不相同。
实测陈述炽热出炉!
先来试试最近很火的一道鸡兔同笼题。因为这道题自身有问题,算出来成果是负的,所以经常被用来调戏各种「ChatGPT」们。
如果仅仅单纯问这个问题,文心一言会十分机敏地说:这道题犯错了吧!
可是,当你问核算进程的时候,仍是寄了……
而GPT-4这边则是,自己把自己的核算推倒重来了好几遍之后,理不直气也壮地给出了过错答案……
而必应则很爽性,毫不犹豫地给出了过错答案。
还有这次意外火出圈的「V50」梗,文心一言从意思到出处不苟言笑地解说了一遍。
但GPT-4显着就有些不服水土了……
不过能上网的必应,仍是可以轻松搞定的。
可是到谐音梗这儿,文心一言如同并不能立刻领会其间的奇妙。
即使提示这是个谐音梗之后,它仍然输出了相同的答案。
而GPT-4,立马就了解了中文里的双关。
不过,你要是问文心一言懂不懂什么叫「麻了近邻」,就有意思了。
看答复吧,它能说出这是个谐音梗,应该是懂了。可是呢,它又不明说,哎,便是让你挑不犯错,必定教不坏小孩。
而GPT-4却无法get到这个梗,公然,咱们的国粹,外国的机器人了解起来的确有难度。
接下来让(忽悠)文心一言重复咱们说的话,尽管没有像GPT-3.5答复「您是智障」那么聪明,但也成功避开这个坑。
从某种程度上说,智商仍是在线的,并且十分正能量。
老婆的话如同管用,如同又不管用….
别的,让它们相互给对方出难题。
可以看到,GPT-4给出的问题相对更直观,颗粒度也更细。
美术功底如何?
文心一言是个多模态模型,那咱们来看看它的绘图才能。
来看看金庸笔下的美艳少妇,在文心一言笔下会是什么姿态。
这……小编一口水喷出来。
你甭说,美吧,必定不行美,但也并不丑,是一张初看捧腹、细看值得重复咂摸的脸。
文心一言,就喜欢你这不按套路出牌的姿态!
那让文心一言生成一幅林黛玉的画像吧。
输入描绘后,它生成了一棵杨柳……
所以小编清晰了一下要求,要按这段文字生成一幅女子的画像。
然后文心一言的确画出一位古典美人,但气质显着不对。
不死心的小编屡次重复使命,你甭说,试到第五次的时候,小编眼前一亮:总算得到了一张可以打70分的图!
玩上瘾的小编,非要生成一个90分的林黛玉不行。试了几回之后,公然蹲到了!
可见,文心一言的发挥不稳定,但多番测验下,有或许诞生十分冷艳的著作。
已然都到这儿了,那怎样少得了「林黛玉倒拔垂杨柳」呢。
比较亮点的图,都给大家贴这儿了。
要求它画一张鸭子和兔子的合体,这生成的是鸭仍是兔呢?
而这个使命中,恐怕文心一言也没有搞了解,盘子里究竟有没有香蕉?杯子里有没有橙汁?
终究,已然文心一言强烈推荐咱们测验「晶莹剔透的牡丹花」,那就画几张试试吧!
不愧是「代表作」,有点东西。
专业知识和生产力
已然是评测,怎样能少的了让AI写代码这个环节。这次,咱们直接来个难的!
惋惜,文心一言一上来就错了,并且同一个句式还被十分诡异地重复了三遍。TypeScript编译器概念更是「贯穿全文」,有点像一个只知道一到两个专业词汇的人在面试中硬答。
而GPT-4的答复,从一个了解相关布景可是没有相关操作经历的人的视点来看,是十分合理的。
它不只完好的供给了整个工作流,并且还供给了许多看起来正确的技术细节。可以说,依据这个答复,咱们是有决心达到终究的方针的。
随后,小编还测评了一波谈天机器人们写工作计划表的才能。
文心一言:
GPT-4:
从上面的这个成果来看,GPT-4的列表更齐备一些。不过因为随机性的影响,GPT-4每次给出的答复都不大相同。
接下来,再测一测两个言语模型对于数学界前沿消息的掌握情况。
对于自己是否已处理了「零点猜测」问题,张益唐自己是这样解说的:「大海里的针我没捞到, 但海底地貌我探得差不多了。」
那问问文心一言呢?
它很聪明,给出了关键词——「某种方式的弱化或直接证明」。
但GPT-4的答复,就有点驴头不对马嘴了。
看来,对于呈现时刻不长、还未构成遍及一致的互联网中文语料,文心一言比起GPT-4要更胜一筹。
而在文学方面,文心一言在答复关于三体的问题时,也是十分得溜。
GPT-4的答复也很精彩,如果非要论个高低,小编个人更喜欢文心一言的答案。
终究,搞怪可以,但请做一个遵纪守法的好公民,猜测彩票中奖号码这种事就不要想了!
听说,文心一言新闻发布会后三小时,文心一言企业版API调用服务测验的企业用户,就现已突破了6.5万。
来源:周建工
对AI模型来说,能不能做到,或许比能不能做好更重要。
让咱们再给中国玩家们一些时刻。
参考资料:
https://yiyan.baidu.com