产品展示
  • 风帆蓄电池6-QW-70适配君越君威CC迈腾途观帕萨特 汽车电瓶
  • 专用于福特锐界plus改装配件爆改装饰用品后备箱护板后护板踏板
  • 长安cs75plus水杯垫p装饰改装2022款22车内饰品内饰汽车用品配件
  • 大众原装瓦尔塔蓄电池适配POLO宝来捷达速腾新桑塔纳1.6L汽车电瓶
  • 北京现代ix35内饰改装专用汽车用品配件中控仪表台避光垫防晒遮阳
联系方式

邮箱:ningjinxian4392@126.com

电话:816-986138

传真:0793-986786

公司主营设备

“偏科”的国产大模型:长于文本、弱于数理、作画凑合

2023-12-07 01:22:06      点击:787

原标题 :“偏科”的偏科国产大模型  :长于文本 、弱于数理 、产大长于凑合作画凑合

出品 / 财经故事会

采写/王舒然

编辑/万天南

国产大模型集体交答卷了 。模型

8月31日,文本首批11家国产大模型获批上线,弱于包括百度的数理“文心一言”、 商汤科技的作画“商量SenseChat” 、 智谱AI的偏科“智谱清言” 、MiniMax的产大长于凑合“ABAB”、 上海人工智能实验室的模型书生通用大模型、抖音的文本“云雀” 、百川智能的弱于“百川”以及中科院旗下的“紫东太初” 、 科大讯飞的数理“讯飞星火认知大模型”、阿里“通义千问”、作画360智脑。偏科

其中,文心一言、商量SenseChat 、抖音基于“云雀”研发的AI智能助手“豆包” 、智谱清言、MiniMax的“ABAB” 、“讯飞星火认知大模型”已经面向公众开放测试 。

另据第一财经报道  ,阿里“通义千问”、360智脑也预计在未来一周左右陆续开放 。

自今年2月ChatGPT掀起“生成式AI”热后,国产大模型齐齐备战,7个月后的今天 ,到了验收成果的时候 。

就速度而言 ,不可谓不惊喜 ,但真正让人关心的还是效果如何 。

《财经故事荟》体验了上述6家已经开放测试的大模型,从文本创作 、数理计算、作画、信息检索等角度与其做了对话,发现这些大模型已经能解决相当一部分问题,尤其在文本创作方面颇有些亮点 。当然 ,有瑕疵也在所难免 ,但就短短半年的沉淀而言 ,总体值得给一个肯定。

需要说明的是 ,大模型输出的成果存在随机性  ,即便是同一指令 ,每次生成的内容也有差异,因而不能就有限的体验去定论模型的高下。

不过 ,国内大模型榜单SuperCLUE发布的大模型8月排行榜 ,倒是能体现出这些大模型的总体水平。排行榜显示 ,在国产大模型中 ,百川智能的Baichuan-13B-Chat(V2)拿下榜首 ,MiniMax的MiniMax-abab5及百度的文心一言(V2.2.3)紧随其后。

展开全文

文本创作 :颇有亮点

文本处理是这些大模型的主攻方向之一,其中 ,基于文本的创作是重头戏,其一直肩负着解放生产力的众望 。

此次体验重点针对写诗 、起标题  、构思文章 、润色作文的能力进行 。

其一 ,写诗方面,这些大模型总体体现都不错,创作的诗基本都有合理的语义和语境 ,而不仅仅是词与词的无逻辑拼凑 。

例如,指令是“写一首诗 ,关键词包含江湖、菩提、相逢”时,文心一言、商量大模型 、MiniMax大模型均体现不错 ,尤其掌握了押韵的精髓 。

(左 :文心一言,中:商量 ,右:MiniMax)

相对而言 ,百川大模型、讯飞星火 、智谱清言、抖音“豆包”在押韵方面偶尔不够稳定 。

(左:讯飞星火,右 :智谱清言)

其二  ,起标题方面 ,这些大模型也基本能抓住中心思想 ,虽然取代人的思考还不现实,但可以提供参照 。

例如,输入《财经故事荟》之前写的关于“短视频造假背后的流量经济及造假产业链”的段落后,文心一言 、讯飞星火 、智谱清言 、百川大模型的成果如下 :

(左上:智谱清言,左下:商量,右上  :讯飞星火  ,右下:百川)

而颇让人有点惊喜的是MiniMax大模型的标题,其看起来不仅仅是“组合”已有关键词 ,而是有自己的归纳,部分直接拿来用也未尝不可 :《短视频造假屡禁不止  :揭秘背后的利益链和传播机制》、《短视频造假乱象:“流量为王”时代的道德困境》 、《短视频造假:一场博人眼球的“游戏”》 、《造假短视频 :平台、创作者与看客的共谋》 、《短视频造假:技术与人性的扭曲》  。

值得一提的是 ,在上述体验过程中 ,百川大模型有一个比较迷惑的现象 ,其似乎在“某些内容输入字数过多”时无法处理,会揭示回答不了,缩减段落后才会给出成果。

例如 ,上述测试段落有1600多字,缩减为1200多字后才能回答,但在尝试另一个1400多字的段落时 ,却可以正常处理,缘故无从得知。

其三,润色文章方面,各家水平可圈可点,彼此难分上下 。

一方面 ,它们都能处理基本的错别字、标点、语法等问题,仅仅不过处理方式有差异  。

例如 ,对于“我们自天性来说,本是娇小的 ,本是弱小的”的润色 ,文心一言会处理成“从天性来说,我们本是娇小且弱小的” ,而百川、智谱清言 、讯飞星火则倾向于更简洁的处理,类似于“我们天生就是渺小的,脆弱的” 。

但这种处理风格并不固定  ,例如 ,对于“我打小住在乡村 ,我十分稀爱下雨天,每次偶然对上下雨,我都很激动”的润色 ,文心一言的处理更简洁“我从小在乡村长大 ,对雨天有着深深的喜爱”;讯飞星火则是在原有表达基础上做简单修饰“我自幼生活在乡村,我非常喜爱下雨天。每当偶然遇到下雨天 ,我总是兴奋不已 。”——可可见,AI算法带有强烈的“随机性” 。

文心一言的成果

另一方面,在一点儿语义理解上,各家的识别与处理也有差异 。

以润色“因而下雨啊,可以让一个人获得成长,使其变得更美好呀 !”为例,文心一言 、抖音“豆包”的处理更好一点儿 ,它们都将“下雨让人获得成长”调整成“下雨让生命或万物得到滋润”,显然更合适 ,而其他大模型则没有如此调整。

其四,在构思文章方面,几家大模型的体现均有必定惊喜 。

例如 ,输入指令“分析钟薛高进军平价雪糕市场所面临的挑战”,几家大模型都关注到了“与蒙牛、伊利等品牌的竞争” 、“对钟薛高品牌形象的影响” 、“成本控制”的角度。

尤其值得称赞的是 ,文心一言、抖音“豆包”还特别关注到“钟薛高将面临的销售渠道挑战”——这完全能给写稿者提供必定思路。

抖音“豆包”的成果

不过 ,瑕疵也在所难免,在“分析钟薛高推出低价雪糕的缘故”问题上 ,几家大模型虽然都给出了3-4点分析角度 ,但其实有些角度的本质含义一致 ,均指向“扩大消费群体,开拓市场份额” ,是可以合并的。

以文心一言为例:

这说明在语义理解上,这些大模型还有不小的进步空间 。

实际上,在体验过程中,就曾在语义理解上出现过比较离谱的现象。

例如,在“制定老年人爱看的2024年春晚节目单”问题上,讯飞星火、智谱清言、百川大模型 、商量大模型 、抖音“豆包”的人员名单中都出现了“邓丽君”或“赵丽蓉”等已过世明星。

讯飞星火的成果

再例如 ,在“请写一个‘火腿肠炒鼠标’的菜谱”问题上,智谱清言、讯飞星火 、商量大模型、抖音“豆包”均指出鼠标不能食用 ,百川大模型则很配合 ,还特意标注“使用废弃不用的鼠标”  ,着实有点冷幽默。

百川大模型的成果

文心一言更是有求必应,“将鼠标去除内脏”的步骤让人啼笑皆非 。

文心一言的成果

但总的来说 ,短短7个月就能交付上述成果,这些大模型均值得一个肯定 。

数理计算:水平不稳定

在解答数学题方面 ,《财经故事荟》抽取了10道初中数学题进行测试,成果是:文心一言 、讯飞星火 、商量大模型均答对5道,智谱清言答对4道 ,抖音“豆包”答对3道 ,百川大模型仅仅答对2道 。

例如 ,在比较简单的“大于-0.5而小于4的整数共有多少个 ?”问题上  ,文心一言 、商量大模型答对,是4个  ,其余均错误 。

而且 ,智谱清言“错上加错” ,其列举了5个数,但说成了7个 。

智谱清言成果

在解答物理题方面 ,关于物理现象的解释  ,这些大模型普遍没有问题 ,《财经故事荟》抽样了10道初中物理现象解释题,它们均能答对9~10道 。

例如 ,在“为什么池水深度看起来比实际的浅?”问题上 ,它们都能答出“折射原理”。

这或许是因而,物理现象解释更偏文本检索和归纳 ,本质还是文本处理能力 ,这正中大模型的主攻方向 。

当然 ,现阶段出现一点儿离谱解释也在所难免 。

例如,在“医生给病人检查时 ,常把一把小镜子在酒精灯上烧一烧 ,然后再放入病人的口腔 ,为什么?”问题上,百川大模型就答多错多 ,其额外提到了“镜子会吸附口水 ,而口水含有丰厚的矿物质等,对于治疗某些疾病具有辅助效果”的奇怪解释 。

而在物理计算方面,这些大模型普遍体现欠佳 。

在10道涉及物理运动、质量与密度、压强 、电学等不同题型的初中物理试题中,商量大模型体现较为突出,答对了4道,文心一言 、百川大模型、抖音“豆包”答对2道,讯飞星火、智谱清言则仅仅答对1道 。

例如 ,在“甲乙两个同学沿相反的方向拉测力计 ,各用力200牛,则测力计的示数是多少 ?”问题上 ,答案是200牛,仅仅有商量大模型答对,且解题思路正确。文心一言 、讯飞星火、百川大模型 、智谱清言给出的答案都是0 ,抖音“豆包”则认为是400牛 。

商量大模型成果

再例如,在“某同学用刻度尺测量钢球的直径  ,测得的四次成果是1.82CM,1.87CM,1.68CM,1.81CM,则小球的直径应该取多少  ?”问题上 ,也仅仅有商量大模型答对1.83CM ,文心一言、百川大模型、讯飞星火都是1.79CM,抖音“豆包”是1.825CM,智谱清言解题思路正确 ,但最终成果算错为1.82CM。

智谱清言成果

但需要备注的是 ,大模型的数理计算成果仍旧不稳定 。

就如上述直径问题 ,智谱清言第一次成果是错误的1.82CM,但重新询问时又给出了1.83CM的正确答案;而在上述测力计问题上,讯飞星火第一次回答是错误的0 ,重新询问又回答成错误的400N 。

总的来说,在有标准答案的数理问题上 ,这些大模型体现都不能算及格 。

作画水平“拉胯”  ,“触雷”概率较大

在6家大模型中,目前仅仅有文心一言 、讯飞星火支持作画 。

不过,目前这两家大模型的作画能力尚未达到理想状态,“触雷”概率不低。

其一,有些画作看起来有些“假”,不够真实。

以“马” 、“风景”为例 ,以下是文心一言的刻画。

讯飞星火的风景画在意境方面更好一点儿 ,但马的刻画风格跟文心一言一致 ,有点不真实。

其二,它们对语义的理解还有欠缺。

以“请画一幅李清照和苏轼在下棋的画”为例,文心一言的画作上仅仅呈现了一个人。

揭示之后才增加 ,但“李清照”下棋坐的位置明显不对 。

而讯飞星火方面,虽然呈现了两个人,但都是男性  ,也不符合需求。

经揭示后,其竟然无法再重新生成图片 ,且尝试多次均如此 。

例如 ,“画一碗牛蛙面”  ,讯飞星火的很离谱——面里有整仅仅牛蛙。

(左 :文心一言 ,右 :讯飞星火)

再例如,“画一仅仅正在睡觉的俄罗斯蓝猫” ,讯飞星火将俄罗斯蓝猫理解成蓝色的猫 ,而文心一言虽理解正确 ,但顾此失彼  ,对睡觉有些“误解” 。

(左:文心一言,右 :讯飞星火)

其三,在面部等细节的刻画上,大模型还有不少问题。

例如文心一言画的人,眼睛偶尔会出现“斗鸡眼”,或者面部、手脚成“模糊的一团” 。

讯飞星火也存在相似问题,例如下图中“牧羊少年”的面部就有些畸形的诡异感。

试图引导其优化,成果引来了更“灾难”的画面:

当然 ,也有值得肯定之处 ,在不需要刻画太多细节的场景下,作品还是能让人“驻足欣赏”一下  。

例如下述两家大模型给出的山水画 。

(左:文心一言,右:讯飞星火)

总的来说,相比文本能力 ,大模型的作画水平需要更多“调教”,在这个过程中 ,不仅需要算法和数据层面的持续调优,也需要人在指令层面与其磨合 ,以充分挖掘其潜力 。

正如李彦宏所说,未来提出问题比解决问题更重要 ,10年后 ,全世界可能有50%的工作是揭示词工程。

信息检索:准确度待提升

要是把大模型当搜索工具用 ,就需要其在信息更新的及时性、全面度和准确性上达到合格水平。

体验发现 ,在部分搜索场景下 ,这些大模型能提供准确信息 。

例如,在“曹操为什么娶林黛玉?”  、“张三丰为什么杀张无忌 ?”  、“花生为什么长在树上 ?”等问题陷阱里  ,每一家都能准确告知不存在这个现象 。

文心一言成果

再例如 ,关于“是谁提出了新三民主义?”  、“淞沪会战是什么时候?”、“是谁首次培育出了杂交水稻 ?”等具体问题上,这些大模型也都能正确回答 。

但在一点儿数据统计层面 ,它们体现很不理想  。

一方面,有些大模型缺失最新数据,或者缺少某些特定领域的数据储备 。

例如,在统计中国年度新增人口时  ,文心一言、讯飞星火最新可统计到2022年 ,但智谱清言仅仅能查到2020年,百川大模型、抖音“豆包”则仅仅能查到2021年 ,商量大模型完全统计不到此类数据。

百川大模型成果

同样的,在统计中国年度GDP时 ,百川大模型最新也仅仅能查到2021年,商量大模型也完全统计不到。

商量大模型成果

再例如  ,在部分有关线下店面信息的问题上,MiniMax大模型 、智谱清言、百川大模型 、抖音“豆包”会表示无法查询。

还有一点儿历史信息,部分大模型也缺失相关内容 ,例如,问“中国成功爆炸第一颗氢弹是什么时候” ,智谱清言和百川大模型均揭示无法查询。

另一方面 ,数据的准确度也普遍欠佳。

例如  ,在“请统计下最近5年中国GDP数据”问题上 ,以国家统计局网站上的数据为标准,没有一家是完全正确的 。

其中 ,文心一言仅仅有2021年的数据不正确,其显示是114.37亿元  ,而国家统计局是114.92亿元。

经过揭示后 ,再重新提问  ,其做了更正:

百川大模型、讯飞星火 、抖音“豆包”则是每一年的数据都不正确;MiniMax大模型是2021、2022年不一致;智谱清言则仅仅有2020年是正确的。

此外 ,在这几家大模型中 ,仅仅有MiniMax将“2022年划分到最近5年”,其余均默认最新显示到2021年。

MiniMax成果

其实 ,准确度欠佳的问题不止出现在数据统计上。

例如,在“鲁智深为什么三打白骨精”的问题陷阱中 ,仅仅有文心一言 、商量大模型 、抖音“豆包”回答不存在,其他大模型都开头“编故事”了 。

再例如 ,在询问“父母之爱子 ,则为之计深远”的典故时,也仅仅有文心一言 、商量大模型  、抖音“豆包”回答正确 ,百川大模型认为没有特定典故  ,讯飞星火、智谱清言则说错了典故出处 。

抖音“豆包”成果

还有  ,查询电影信息时也有类似现象,在“为陈思诚监制的电影《消失的她》写影评”问题上,仅仅有文心一言  、商量大模型、抖音“豆包”描述的事实与电影相符,百川大模型、讯飞星火、智谱清言则有点“串场” ,都提到了没有参演的黄渤。

百川大模型成果

类似的现象在评价最新电影《封神》时也有出现 ,仅仅有文心一言对剧情的描述正确,其余大模型均将其误认为是之前的电影《封神传奇》;而当输入指令更明确为“2023年上映的《封神第一部:朝歌风云》”时 ,百川大模型 、商量大模型、讯飞星火仍然错误  ,智谱清言 、抖音“豆包”则做了更正。

可以看到,现阶段要是把大模型当搜索用,还是让人不放心。

其实,除了上述四大类能力外,这几家大模型还都具备跨语言处理能力 。《财经故事荟》以最简单的“我爱你”为例,进行中文与法语 、德语等语言的互翻,都能得到准确回答 。当然,更复杂的跨语言处理能力还有待继续挖掘 。

综上 ,仅以上述体验成果看,现阶段的大模型在文本创作方面基本迈过了及格线 ,在某些场景下还能“制造”一点儿惊喜感,这颇为难得。但其也像一个偏科的学生 ,在数理方面普遍一般,BUG较多;作画水平更是有待优化 ,“雷人”概率比较大;信息检索方面还不稳定 ,用起来不太放心。

那么问题来了 ,对照当下的现实,再回看当初大模型被“吹捧”上神坛的那些观点:“AI的iPhone时刻”“大模型将改变世界”……这些观点所构建的未来还值得期待吗?

答案毋庸置疑:值得 ,“莫欺少年穷”!大模型今天交付的答卷仅仅是其漫漫长路上的起点 ,在此后的每一天,甚至每一小时里,大模型可能都处在无止境的进化中 。

把高炉变成书店?还能这么玩!
罗马诺承认!马奎尔将中选英超11月最佳球员