跟AI做搭子，还是这届年轻人会玩儿

作者 | 阿虎‍‍‍‍‍‍‍‍

编辑 | 张洁

这届年轻人越来越喜欢跟AI做搭子。

比如跟AI做生活搭子，让它帮自己挑水果，X平台网友“Cydiar”前不久发文，说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。

对此，有超70万网友在线围观，还有不少人在评论区用AI选起了各种水果。

除了让AI挑西瓜，挑榴莲也是网友们热衷于让AI完成的任务。

毕竟，“开榴莲”是近来较为流行的“赌石生意”，此前还有网友拿着榴莲照CT，带榴莲过地铁安检等等，就是为了验证他们的果房多不多。

比如即刻网友“AIchain花生”带着GPT-4o买榴莲，宣称成功避坑了一个烂榴莲。

他还上手训练了一个GPT“这瓜保熟吗”，帮助大家挑选水果。

这个GPTs在选瓜的时候会详细描述特征，解释为什么该水果是最好的选择，并且以1-10颗星的方式呈现出购买推荐程度。

更关键的是，网友们用AI选出的水果品质都还不错。

让AI搭子挑水果还只是小意思，如今广大网友生活中的方方面面，都开始有了AI的身影。

此前有网友让GPT-4o做微表情观察专家，让通义千问评价工作餐属于什么水准，甚至生活中拍完的骨科片子也让AI给出意见。

这些场景下，AI又成了“互联网冲浪吃瓜搭子”、“工作用餐时的吃饭搭子”，以及“看病搭子”。

微表情识别专家

私人牙医

家庭医生

工作餐搭子

当然，这么多AI搭子里，最出圈的还是“恋爱搭子”——直接跟AI搞对象。

还有一些细思极恐的案例。

此前，YouTube博主和AI工具“GeoSpy”进行了一次照片拍摄定位比赛，参赛的AI不仅能快速定位到照片拍摄背景，还精准到具体经纬度。

这AI，让人一时间分不清是地理老师还是犯罪分子。

以前总觉得大模型技术离普通人很远，但如今，AI已经在为生活的方方面面提供技术支持，在不同的场景中提供意见与陪伴。

6月16日，加州大学最新研究显示，GPT-4已经通过了图灵测试，它在一半以上（约54%）的时间里被误认为是人类，GPT-3.5则是在50%的时间里被误认为是人类。

https://arxiv.org/abs/2405.08007

这意味着，在语言交流能力上，我们和AI之间的区分越来越模糊，人类朋友能够完成的事，找AI搭子也可以做到。

上个月，谷歌推出了最新的AI模型Gemini 1.5，腾讯发布最新AI应用“元宝”，阿里云正式发布通义千问2.5。

这些模型不仅更新了处理文本的能力，还在多模态能力上进一步提升，能够更好识别并理解图片内容。上面的大部分案例，都是网友们借助AI的多模态能力，整出了各种花活。

那么，在视觉识别、任务理解等能力上，AI究竟能够达到什么样的水平？我们距离和AI一起“看”世界，还有多远？

围绕这个问题，“头号AI玩家”试了试当在生活中遇到各种问题时，能否都让AI们替我们决定，并给出相应的建议。

同时，本文也对实力王者GPT-4o、老牌选手Gemini、热门玩家腾讯元宝、开源霸主通义千问的视觉能力进行了一番测评，看看哪位“AI搭子”表现更好。

找AI做“挑水果搭子”，各家眼光出奇一致

首先，我火速前往一家水果摊，决定从最近流行的“AI挑报恩水果”开始尝试，看看究竟是噱头还是真像那么一回事儿。

要是真能选出最甜水果，以后岂不是在老妈面前横着走？（bushi）

各位玩家可以选一选你认为品质较好的榴莲

1、GPT-4o

我先将榴莲摊上的6个备选榴莲标上了序号，并发给了GPT-4o，让它从中挑选出果肉较多的一个榴莲。

GPT-4o认为，在这6个参赛榴莲中，品质最好的是1号榴莲，因为它的外形较大且圆润，颜色也较黄，看起来成熟度更高。

对于其他榴莲选手，GPT-4o也给出了相应的外观描述，编号5和6也是不错的选择，编号5体积较小，但刺不密集，可能会有惊喜。但综合来说，他更推荐1号。

在GPT-4o的推荐下，我选择了1号榴莲：

一打开这个榴莲，店员表示这是一个干巴款的榴莲，但果肉较为饱满，如果喜欢紧实口感的，1号榴莲就是个不错的选择。

总之，对于挑选小白来说，GPT-4o给出的榴莲意见，确实能提供参考方向。至少选的榴莲果肉丰满，气味浓郁，并没有踩雷。

2、Gemini

相比GPT-4o给出的意见，Gemini更希望我自行判断，他表示我提供的照片光线较暗，只有一个拍摄角度，无法判断出榴莲的完整性和成熟度。

他认为，1、2、3都是成熟款的榴莲，而6号榴莲可能还没熟透。另外，他表示如果我纠结的话，可以把6个都打开看看……

Gemini在挑选榴莲这件事上，更像是一个辅助的工具，需要人工告诉他更具体的细节，比如榴莲的尖刺形状什么样、颜色是什么，他才能给出更专业的判断。

虽然我尝试调整了几次提示词，比如“请从外观角度判断”“忽略榴莲完整性”等等，Gemini 1.5 pro都拒绝回答。

这一轮Gemini选榴莲，宣告失败。

3、通义千问

我同样测试了开源领域的最强霸主——通义千问2.5。

当我直接上传图片，让他从1-6号中选出一个果肉较多的榴莲，通义千问会回答自己无法直接判断榴莲的果肉量和口感，并给出一些挑选榴莲的建议。

但当我提出“请从外观上看，帮我选出一个品质较好的榴莲”时，通义综合了颜色、刺的硬度、外壳是否裂开，同样选择了1号榴莲。

不得不说，AI大模型的“眼光”还是相当一致。

4、腾讯元宝

最近热度较高的元宝，给出的建议就很直接，一下子推荐了1、3、6号3个榴莲。

理由是这些榴莲看起来比较饱满，还圆滑地表示“这只是根据视觉判断的结果”，言外之意就是“看着都不错，好不好吃请别问我”。

我进一步提问为什么看起来1、3、6更饱满成熟，元宝认为，它们外壳颜色较深，并且没有明显的裂纹。

相比其他大模型坚定选择1号，元宝还预判了顾客的喜好进行推荐。他认为如果看中果肉饱满，更推荐1、3、6号，如果看中出肉率，就要选择表皮较薄的榴莲，但需要顾客自行挑选，并未做进一步的推荐。

通过上述的榴莲挑选体验，我发现大多数AI大模型通常都是靠尖刺、外壳颜色和形状进行初步判断，而这些因素其实很依赖当时拍摄图片的场景和灯光。

所以，能不能挑到满意的榴莲，还是需要在现场根据气味、尖刺进一步判断。

AI给出的意见很大程度是踩中了“现阶段榴莲都不难吃”这一点。但如果真是个挑水果小白，AI分析水果外观这方面，还是提供了一些参考建议。

找AI做“科普搭子”，通义千问学会摆烂了

除了挑选水果之外，当触及知识盲区时，AI能够帮我们识别相关的内容吗？

比如，在地铁上遇到一些正反颠倒的外语文字：

1、GPT-4o

这张印有日文的图像，GPT-4o压根没有识别出文字颠倒了，开始编纂上面的日语是“厉害的、惊人的”的意思。

当我把图片翻转180度变正之后，它才回答出日语是“猫咪”的意思。

2、Gemini

Gemini虽然对文字的识别还不够准确，但也能够通过图片猜测出这是一个黑色毛绒玩具的一部分。

遗憾的是，通义千问和元宝都没有办法识别出这些文字的意思，通义千问甚至开始说自己还没有识别文字的能力，直接摆烂。

可见，现阶段的AI识别任意字符，依旧需要我们提供正确的文字样式，经过颠倒、翻转或镜像的图片，AI都没法辨认。

找AI做“看展搭子”，GPT-4o和元宝略胜一筹

如果和AI进行一场“看展式社交”，一起逛博物馆，是不是能学到新知识？

我们让AI“品鉴”了一下中国古代艺术《千里江山图》局部图，并问他们“这幅画是什么意思”。

GPT-4o和元宝在两次提问后，能够知道这是《千里江山图》的局部图，并详细阐述了这幅山水画的意境。而Gemini和通义千问都无法认出具体是哪一副传统山水画，GPT-4o和腾讯元宝略胜一筹。

这么看来，邀请GPT-4o和元宝做博物馆搭子，会是不错的选择。

左边为GPT-4o回答；右边为Gemini 1.5 pro

找AI做“吃瓜搭子”，玩梗能力堪忧

挑水果、逛博物馆、识别陌生文字，只是AI图像识别中的部分用例。接下来，我们来看看AI能不能和我一起冲浪第一线吃瓜。

比如，最近火爆AI视频生成领域的梗图，让Runway转头就更新了Gen 3模型，我们来看看AI会如何解读：

1、GPT-4o

GPT-4o真的就把图片原原本本翻译了一遍，并没有完全指出“由于Luma AI视频生成工具的火爆，人们早把Runway丢在一边了”等类似的内涵。

2、Gemini

除了最后总结上提到“人们对Sora的期待”有错误之外，Gemini至少可以识别出90%的梗图内在含义，还能看懂Sora代表的小孩脸上有不知所措的表情。

3、通义千问

可能是因为这张图有骷髅，所以通义千问让我换张图试一试，和AI一同吃瓜也要注意内容红线，通义的安全意识远高于其他模型。

4、腾讯元宝：

元宝至少看懂了这张图的内容，但并没有指出其中的玩味含义，回答还有些一本正经。

总的来说，Gemini看梗图的能力略强于其他几家，起码了解这是一张meme图，也能明白其中的幽默意味，但没有一家AI能和我一起调侃“6月更新的AI视频工具也太多了”，你们好歹都是大语言模型啊。

找AI做“娱乐搭子”，眼神大都比我好

面对互联网上层出不穷的娱乐向测试，我们接下去看看AI会如何应对，比如一些经典的视觉错觉图。

请各位玩家先判断一下，A和B色块颜色相同吗？

1、GPT-4o

GPT-4o不仅说出了正确答案，还告诉我这是一个知名的视觉错觉实验，并附上了具体的识别方法。

当我们进一步让它证明并画出A和B是相同色块，它还给出了取色图像和一段Python代码，帮助证明A和B是相同的颜色。

2、Gemini

Gemini也没有让人失望，除了准确说出A和B颜色相同之外，并解释了为什么大多数人会产生这种视觉错觉。

不过，当我们要求它能否画出来证明A和B颜色一致时，它表示需要用到图像编辑工具，没有办法直接输出一张新图片。

换言之，作为一个多模态模型，Gemini 1.5 pro目前还不能直接提供具体的图片示例，不具备多模态输出能力。

3、通义千问

通义千问同样识别出两个色块一致，还附上了更多识别方法和参考链接以证明色块的一致性。

值得一提的是，我们也要求通义千问能够画出来证明A和B是一样的色块，通义真的这么做了，但有些勉强：

我们压根无法分辨它一本正经强调“这两个色块一致”，究竟是自己出现的“大模型幻觉”还是真的受屏幕影响导致画面颜色不同。

可见，通义千问在理解多模态输入和输出方面都做了一定的努力，但图像输出的准确性需要进一步进行信息校准核验。

4、腾讯元宝

腾讯元宝的回答，让我看到了做视觉测验的我本人。

距离和AI一起“看”世界，还有多远？

除了对话沟通能力，这些能够读图的AI，似乎还有了“睁眼看世界”的能力。

无论是生活场景下挑水果，还是吃瓜读梗，GPT-4o、Gemini、通义和元宝都展现出了一定的图像分析能力，甚至在某些场景下，不仅能处理复杂的多模态输入输出，理解能力又更上一层。

OpenAI Sora及DALL·E团队负责人Aditya Ramesh最近提到，现阶段AI视觉的基础是对压缩图像的学习。模型会从原始图像中提取关键信息，并以一种压缩的形式来表示这些信息。

这个过程可以帮助模型识别图像中最重要的特征，忽略那些不那么重要的细节，从而提高识别图像中物体和场景的能力。他认为，能够模拟任何想要的内容将是未来的一个重要里程碑。

虽然AI在视觉理解方面已经取得了很大进展，但现有的多模态模型在识别图像上还不能做到百分百的精确。

正如我们让AI不断挑战图灵测试，或许在视觉识别领域也能看到它实现新的突破。至少目前，很多人类看不懂的知识，正在被AI以前所未有的方式重新解读。

当然，这只是选AI做搭子的部分实例，各位玩家会和AI一起做什么？欢迎在评论区分享你的故事～

     
      
       
        

        「头号AI玩家交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。
        

       
      
     
 欢迎分享、点赞、在看
 一起研究AI