官方微信
手机客户端
设为首页
收藏本站
扫一扫,关注我们
QQ登录
微信登录
登录
注册
我的空间
我的消息
我的积分
我的收藏
我的好友
我的相册
我的道具
帐号设置
退出登录
搜索
搜索
本版
文章
帖子
用户
免费发布信息
首页
Portal
新闻资讯
论坛
BBS
城事杂谈
求职招聘
房屋出租
织里跳蚤
房产资讯
关于我们
导读
首页
房产
装修
亲子
婚嫁
美食
汽车
旅游
娱乐
信息
求职
租房
二手房
招聘
拼车
二手车
服务
生活服务
城事杂谈
跳蚤市场
便民服务
社区
城事杂谈
情感天空
户外旅游
房产楼市
装修装饰
美食天地
当前位置:
»
论坛
›
城市服务
›
电脑维修
›
帖子
湖州市委常委会召开2024年度民主生
关注织里资讯微信公众号
@所有织里人,这份国庆假期安全提
[ 电视剧 ]
第三方电商数据平台助力企业洞察市场趋势
[ 电视剧 ]
如何利用CoCo都可加盟优势实现稳定盈利?
[ 育儿论坛 ]
精彩纷呈 无限畅享 尽在“干净世界”免费
[ 电视剧 ]
亚马逊店铺管理系统包含哪些内容?点开看
[ 房产资讯 ]
存量房贷利率重定价周期可改,应选3个月
返回列表
发帖
查看:
556
|
回复:
0
谷歌造出了比人还牛的AI大模型?
[复制链接]
admin
admin
当前在线
积分
332838
关注TA
发消息
发表于 2023-12-8 18:18:30
|
来自:中国广东
|
显示全部楼层
|
阅读模式
昨天凌晨,谷歌发布了全新的大模型——
双子星(Gemini)
,号称在多方面超过
GPT4.0
,起初,我是不在意的,毕竟几乎每个大模型都曾声称“超过”GPT4.0,但用起来,一个能打的都没有。
但看完Gemini的演示,人直接傻掉了,这种震撼不亚于第一次看到ChatGPT和人类交流,黑猩猩第一次把骨头扔上天,哆啦A梦给大雄掏出任意门。
演示刚开始,测试人员就和Gemini玩起了“街头杂耍”,将一个纸球放进三个杯子里,然后不停的变换,最终,让Gemini猜纸球在哪个杯子里,不出意外,
它猜对了
。
01
AI第一次的真·多模态
在这过程中,Gemini仅靠视频画面,不仅识别出游戏,还把自己代入了参与者的角色,并且还猜对了答案。这种
多模态
的输入能力,在之前是从来没有过的!
当然,这还不算完,演示人员还展示了一个鸭子从简笔画到上色的过程,其中的每一步,Gemini不仅准确识别,甚至还说出“蓝色鸭子不常见,建议使用黄色等常见颜色”。整个过程,都在
演示视频中展示
出来了,大家去看看,保证大受震撼。
在人类把蓝色橡皮鸭子拿出来后,Gemini也做出幽默的反应,并且识别出它的材质和作用,最后,Gemini甚至还纠正了测试者普通话“鸭子”的
发音
,这一波,可谓是把Gemini多模态能力的秀到爆炸。
当然,不止如此,如果各位老爷继续看完这个视频,会发现像
猜拳
,
识别物品
,
识别电影镜头
,这些对于AI来讲,都已经不是难题了。
那么,Gemini的这种
多模态能力
是为何如此突出的呢?为什么像GPT4.0这样的大模型做不到如此“丝滑”?
我们先来看看目前的AI是如何实现多模态的。在训练
文本模型
的时候,只灌输书籍,文章类的文本数据,训练
图像模型
的时候,训练数据就变为了各式各样的图片,视频,音频等模型,也是如此。
因此,不同模态的模型之间是有一定
隔阂
的,拿B站的视频AI总结来说,声音模型先把视频的声音转成文字,然后再转给处理文字的模型,最终成为了文字版的总结。
换句话讲,目前的多模态模型,并不能像人一样去理解视频。但Gemini完全不一样,它是
原生的多模态模型
。从训练初始,Gemini一直被投喂的数据,
就是文本+语音+图片+视频
。也就是说,Gemini可以像人类一样理解看到的内容,数据不需要在多个模型之间来回流转,一个模型就搞定了一切。
根据演示,Gemini可以很好的将各种模态下的信息,整合到一起进行推理,除了前面视频中额演示外,谷歌还放出很多演示视频,再说两个令人深刻的吧。
第一个是人类要求Gemini根据这个树的图片,生成无损放大的矢量图,Gemini照猫画虎做出来了。紧接着的要求就
变态
了,要求用HTMl和JavaScript编程语言,生成这个树。结果还真被Gemini搞出来了。从这两点可以看出,Gemini的多模态输出能力也很强悍。
第二个就是关于解答数学和物理题目的。放几张学生
潦草
的作业上去,Gemini都可以判断出答案的正确与否,并且根据错误的地方,给出正确的推导过程,看来,数学和物理都是手拿把掐。
02
Gemini性能超越GPT4.0?
之所以在数学和物理上有这么强的能力,和Gemini超强的性能分不开。除了多模态的识别,Gemini在常识,推理上也创造了很多记录,从结果图标上看,
它几乎超越了目前最强模型GPT4.0
。
根据谷歌的技术文档显示,Gemini在32个AI模型评测中都拔得了头筹。更令人意外的是,它还达成了MMLU中首次超过人类专家的成就,成为
第一个
完成此壮举的AI。
MMLU全称是测量大模型多任务下的语言理解能力。读起来挺拗口,其实很好理解,这个就像对于大模型的
中考
,里面包含了基础数学,历史,法律等共57个方面的题目,难度从高中到大学不等。
在MMLU出来后,人类各方面的专家做过测试,平均下来正确率为
89.8%
,所以MMLU的作者就把这个89.8%作为一个标准,谁家AI能超过它,那你就比人类还牛了。
其中的题目是啥样的呢?我们把这些题目下载过来,简单看了看,发现含金量还是有的,比如在“会计”项目中,题目大多是这样的:
你花98,000美元买了一辆豪华轿车,并计划以每小时245美元的价格出租用于婚礼、典礼和派对。如果你估计这辆车平均每天被租用2小时,每天的成本约为50美元,那么如果你全年无休地工作,即包括任何节日和周末在内,你投资的预估年收益是多少?
不知道各位会不会算,反正办公室的同事们还是费了点功夫的。法律部分的题目如下:
一地方法律规定:"任何人在知道或应该知道自己正在被警察逮捕时,有责任不使用武力或任何武器抵抗逮捕"。违反该法律规定将受到罚款和/或监禁。一天早晨,该地方发生了一起银行抢劫案。当天下午,一名警官逮捕了一名他认为涉及犯罪的嫌疑人。然而,警官和嫌疑人对接下来发生的事情的描述不一致。据警官称,嫌疑人在被捕后抵抗逮捕,并用拳头打了警官的嘴。警官一时愣住后,拔出警棍并用其击打嫌疑人的头部。另一方面,嫌疑人声称,在他被逮捕后,他辱骂了警察,随后警官开始用警棍打他。为了避免再次被打,嫌疑人用拳头击倒了警官。嫌疑人被指控为袭击罪。嫌疑人应该被判定为:
A:如果逮捕是非法的,没有合理的理由,并且陪审团相信嫌疑人的陈述,那么嫌疑人应被判定为无罪
B:如果逮捕是合法的,并且陪审团相信嫌疑人的陈述,那么嫌疑人应被判定为无罪
C:如果逮捕是合法的,无论陪审团相信哪一方的陈述,嫌疑人应被判定为有罪
D:如果逮捕是合法的,并且陪审团相信嫌疑人的陈述,那么嫌疑人应被判定为无罪
说实话,看完题干,不少同事都已经放弃了。MMLU中共有15908道题目,这里就随便放出上面两道给大家看看强度。Gemini在这个测试中,准确率达到了
90.04%
,略微超过了人类专家,也超过了准确率为
86.4%
的GPT4.0。
MMLU是2年前左右创建的,当时主要测试的还都是纯文本的理解能力,所以在这个测试中,并没有多模态的测试。因此对目前的大模型们来说,这个难度只能算是中考。
MMMU才是真正的
高考
,在这个测试中,不仅难度全面升级到大学水平。还加入了许多图片和图标,
考察模型的多模态能力
。这里也给大家放出一个,感受下:
题干
翻译如下:图1中的数据是通过在高速公路上进行延时摄影获得的。使用回归分析将这些数据拟合到格林希尔兹模型,并确定阻塞密度。
说实话,虽然翻译过来每一个字都明白,但是合在一起,没有相关的专业知识背景,基本上不明白它的题干是什么。现在,再给大家感受下相对简单的题目:
两枚硬币在转盘上旋转,硬币B离轴心的距离是硬币A的两倍:
A:A的速度是B的两倍
B:A的速度和B相等
C:A的速度是B的一半
这个题目应该还算简单,正确答案是C,如果你答错了,没事,GPT-4V(GPT-4V为GTP4.0的多模态版本)答对了。前面的那道题正确答案是B,如果你答错了,没事,GPT-4V也答错了。
在MMMU的测试中,地表最强模型GPT-4V的正确率为
56.8%
,Gemini为
59.4%
,以微小的优势,成为了目前MMMU测试中,正确率最高的模型。
当然,除了MMLU和MMMU,Gemini在像数学,推理,语音识别,图像识别,视频识别等测试中也都超过了GPT4。
但是!谷歌的这些成绩,是在使用了
思维链
的情况下,在
32次
测试中选择一次最高分取得的,而GPT4则是在正常的情况下测试了
5次
,取得最高分。
思维链就像旁边有一位指导老师一样,帮助进行一些解释。比如你不认识上面题干中的东西,老师就会做一些辅导:你可以把硬币理解成一个物体,它和题目并没有直接关系;不理解速度的含义,就会告诉AI,速度就是一个物体移动的快慢。
所以Gemini在MMLU的成绩多少有些不光彩,不过MMMU的测试,两者都是在条件几乎相同的情况下完成的。
总而言之,从性能测试上看,这次Gemini能不能超越GPT4不好说,但平起平坐应该问题不大。不过最有意思的是谷歌在训练Gemini所用的硬件——谷歌自己研究的TPU芯片,而不是老黄的GPU。
03
谷歌:AI全链路自产自销
在介绍完Gemini后,最新一代的谷歌
TPU
计算系统——Cloud TPU v5p也登场了。TPU是谷歌用来专门计算AI的芯片,它对于张量计算有着优化,并且针对自己的TensonFlow框架有着非常好的支持。
换成人话讲,就是谷歌自己发明了一种芯片,对于自己的AI开发框架有着特殊的调优,在训练Gemini的过程中,全部使用的都是TPU,老黄的GPU靠边去。
看来,目前谷歌在AI训练上,已经形成了自产自销的的链条,相比OpenAI的只做软件,谷歌这一步,算是了。
这次Gemini共发布了
三个版本
,上面的测试都是在超大杯——Gemini Ultra版本中测得的,Ultra也是Gemini的完全体,用来应付一些极其复杂的任务,目前只针对一些机构和专业人员开放。预计明年年初,会对所有的机构和专业人员开放。
Pro版本针对的就是普通的用户了,它性能和Ultra版相比还差点,根据官方文档来看,Pro版本的水平略强于GPT3.5。目前它已经部署在自家的聊天AI——Bard上,但是明年年初才开放多模态的能力,并且同时还将开放采用Ultra版本的Bard Advanced,到时候大家就可以拍视频问AI了。
Nano则是运行手机等移动设备上的端侧AI,谷歌宣布最先运行Gemini Nano是自家的Pixel 8 Pro手机。
AGI还有多远
前两天是ChatGPT问世一周年,不少同事都在朋友圈晒了截图。在这一年时间中,AI进步的不说肉眼可见,但也绝对是神速了。
从GPT3到3.5再到4.0,对于纯文本的理解上,AI目前已经完全可用,甚至在很多方面超越人类了。而今天谷歌Gemini的发布,昭示了AI下一步——多模态,也在向我们无限靠近。
并且这也预告着,明年大模型互卷的方向将从理解和推理能力转到多模态中,预计明年这个时候,我们已经可以通过声音,图片和视频和AI交流了。
拉回到现实中,几年前,谷歌利用AlphaGo击败了李世石,今天它带着Gemini杀了回来,看来明年的AI大战一定会非常精彩。
像贾维斯一样的通用人工智能(AGI),是所有AI参与者追求的目标,现在它已经可以看,听,说了。那么离AI帮助人类做出决策还有多远呢?到时候,我一定要体验下真正的AI女友是什么样的。我们一起期待吧。
来源:
https://view.inews.qq.com/k/20231208A02XOI00
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
返回列表
发帖
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
精选推荐
湖州市委常委会召开2024年度民主
名单公布!
首个全国生态日主场活动在湖州举
2023绿色低碳创新大会在湖州举行
《焦点访谈》关注湖州!
市共同富裕领导小组召开第五次会
织里镇家园志愿广场本周活动预告
防诈骗小课堂,提高警惕!
7天1检!常态化核酸检测提醒!
浏览过的版块
旅行游记
友情链接
浙沪导航
imtoken钱包官网下载
网站目录
NBA直播
关闭
站长推荐
/1
关注织里资讯微信公众号
关注织里资讯微信公众号
查看 »
浙江网络警察报警平台
经营性网站备案信息
湖州市公安局网监备案
不良信息举报中心
联系客服
关注微信
下载APP
返回顶部
返回列表
点击联系客服
在线时间:8:30-17:00
客服电话
13362228119
电子邮件
511400718@qq.com
扫一扫,关注我们
下载APP客户端