出品 / 财经故事会
采写/王舒然
编辑/万天南
国产大模型集体交答卷了 。模型
8月31日,文本首批11家国产大模型获批上线,弱于包括百度的数理“文心一言”、 商汤科技的作画“商量SenseChat” 、 智谱AI的偏科“智谱清言”、MiniMax的产大长于凑合“ABAB”、 上海人工智能实验室的模型书生通用大模型、抖音的文本“云雀” 、百川智能的弱于“百川”以及中科院旗下的“紫东太初” 、 科大讯飞的数理“讯飞星火认知大模型”、阿里“通义千问”、作画360智脑。偏科
其中,文心一言、商量SenseChat 、抖音基于“云雀”研发的AI智能助手“豆包” 、智谱清言、MiniMax的“ABAB”、“讯飞星火认知大模型”已经面向公众开放测试 。
另据第一财经报道 ,阿里“通义千问”、360智脑也预计在未来一周左右陆续开放 。
自今年2月ChatGPT掀起“生成式AI”热后,国产大模型齐齐备战,7个月后的今天 ,到了验收成果的时候 。
就速度而言 ,不可谓不惊喜 ,但真正让人关心的还是效果如何 。
《财经故事荟》体验了上述6家已经开放测试的大模型 ,从文本创作、数理计算、作画 、信息检索等角度与其做了对话,发现这些大模型已经能解决相当一部分问题,尤其在文本创作方面颇有些亮点。当然,有瑕疵也在所难免,但就短短半年的沉淀而言 ,总体值得给一个肯定。
需要说明的是,大模型输出的成果存在随机性 ,即便是同一指令,每次生成的内容也有差异,因而不能就有限的体验去定论模型的高下。
不过 ,国内大模型榜单SuperCLUE发布的大模型8月排行榜 ,倒是能体现出这些大模型的总体水平。排行榜显示 ,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首 ,MiniMax的MiniMax-abab5及百度的文心一言(V2.2.3)紧随其后。
文本创作 :颇有亮点
文本处理是这些大模型的主攻方向之一,其中