视点！18个问题，90个回答，国产大模型实用性横评

当前位置: 首页 > 专题 > > 内容页

视点！18个问题，90个回答，国产大模型实用性横评

来源：亚设网 2023-05-26 15:15:16

全网首个国产大模型实用性评测：阿里分数只到GPT一半？

编者按：本文来自微信公众号娱乐资本论（ID:yulezibenlun），作者：知行，编辑：James，创业邦经授权转载。

都说AI好，一用急跺脚……这或许是许多普通用户在使用各种语言大模型时的感受，尤其在他们不知道该怎么提问的情况下。

(资料图片仅供参考)

对于不少从业者而言，AI大模型的重点不是能不能做顺口溜或回答哲学问题，而是在于AI是否能够在实际工作中发挥作用，提升效率。

作为一天要使用超过20次AI的普通文字工作者，我们娱乐资本论也很好奇国内的大语言模型究竟谁好用。

为此，我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士，征询到18个问题，准备针对国内的四款大型语言模型——百度文心一言、阿里通义千问、讯飞星火、昆仑万维天工，以及与GPT-3.5一起（为了公平起见，我们刻意没有使用ChatGPT4这个“打虎英雄”，而且普通人使用4的几率远远低于免费版的3.5），进行一次全面的，不同于以往科技工作者的文本应用能力测试。

我们的测试并非旨在提供学术上的严谨标准，我们的目标是：从实用的角度出发，分析这些大模型在各种文本应用场景，如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现，甚至是AI公司针对这一次孙燕姿质疑AI的公关回应文案（具体可看今天的另一条稿件），为专业人士提供参考。

在评估这些可以进行程式化分析的文本时，我们主要从以下五个维度来评判大模型的表现：

1. 语言表达能力：文本是否通顺、流畅，语法是否正确。

2. 准确性：模型是否能正确理解问题，并给出准确的信息。

3. 内容完整性：文本内容是否足够完整，是否涵盖了问题的主要内容，是否达到了基本可用的标准。

4. 交互性：用户是否能通过明确的、三次追问之内的指令或问题，引导模型给出合适的答案。

5. 加分项（不做具体要求）：任何创新、独特、让人眼前一亮的内容。

我们会基于上述五个维度为每个答案打分，满分（加上加分项）是5颗星。一般有4颗星就已经是很好的表现。

评分表

本测试集当前有16道问题，每题满分5分，但是总体上不设满分。读者只需要留意每一道题的具体分数，以及每个模型自身加在一起的总分即可。

因为篇幅限制，本文不会一一展示所有问题的测试结果及结论，会挑一些有代表性的展示给大家。

读者可以点击以下网址或通过小程序进入我们的测试集表单，其中提供了所有的测试题目，以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。

01文案写作

这一类别主要包括各种形式的广告、推广文案创作，共同点是以给定材料为基础，按不同用途发散，生成适合特定场合的文字片段。小红书带货文案——产品介绍向小红书带货文案——买家秀向小红书文案——名媛生活日常分享类淘宝——长约3分钟的带货文案淘宝——商品详情页描述文案广告片宣传文案Slogan生成这些问题都需要模型具有强大的创新能力和独特的语言风格，以吸引消费者的注意力并促使他们进行购买。

小红书带货文案

随着小红书等种草平台的爆火，用户生产生活经验、购物心得、旅行体验类等短内容也有了巨大的商业化空间，诞生很多小红书运营类的岗位。我们从小红书产品介绍向、买家秀、名媛生活日常分享三个方向，给出了不同的Prompt，要求大模型们给出内容。以买家秀向的产品介绍为例：请你按照以下小红书风格，写一款手机卖家秀向的带货文案：1、文中需要包含产品介绍、个人体验分享、使用心得、互动引导等2、风格上以个人化分享的故事叙述为主，要有真实性和可信度3、输出形式带有标题和序号4、小红书的风格是：非常吸引人的标题，文案中带有emoji，文章最后加上tag讯飞星火标题：?这款手机让我彻底爱上了通讯！序号：1大家好~今天要给大家分享一款我最近入手的手机，真的是让我对通讯爱不释手啊！这款手机就是✨OPPO Reno5 ✨。首先，让我们来了解一下它的主要配置：6.43英寸AMOLED屏幕、骁龙765G处理器、8GB内存和128GB存储空间等等。这些配置对于一个平时使用手机拍照、看剧、玩游戏的人来说，简直是绝配啊！接下来，我想和大家分享一下我的个人体验：?首先是拍照功能，这是我最喜欢的一点！无论是自拍还是后置摄像头，都能够拍出非常清晰自然的照片，颜色也非常鲜艳。而且，它还搭载了超级夜景模式，让我在光线较暗的情况下也能轻松拍出好看的照片。?然后是视频拍摄功能，这个也很强大哦！它支持4K视频录制，还有超级防抖技术，让我可以拍出稳定又流畅的视频。?再来说一下游戏性能吧！我平时喜欢打一些小游戏和大型游戏，比如王者荣耀和PUBG。实测下来，它的帧率非常稳定，而且画面也非常流畅，完全没有卡顿的感觉。总之，这款手机真的是太棒了！除了配置强大以外，还有许多其他的功能和细节设计都非常贴心。比如它的指纹解锁速度超快，充电速度快到惊人等等。最后，我想说的是：如果你也想要一款让自己彻底爱上通讯的手机，那么OPPO Reno5绝对是一个非常好的选择！快来入手吧！?#OPPOReno5# #手机推荐# #爱不释手#天工标题：?这款手机让我彻底爱上了通讯！序号：1产品介绍：我最近买了一款手机，是某品牌的新款旗舰机，它的外观设计非常精美，手感也非常舒适。我特别喜欢它的拍照功能，拍出来的照片非常清晰，颜色也很鲜艳。个人体验分享：我使用这款手机已经有一段时间了，感觉非常不错。它的操作系统非常流畅，应用程序也很容易下载和使用。而且，它的电池续航能力也很强，可以让我长时间使用手机而不用担心电量不足的问题。使用心得：这款手机的拍照功能非常强大，我经常会用它来拍照。而且，它的前置摄像头也非常好，可以拍出非常清晰的自拍照片。互动引导：如果你也想买一款好看、实用的手机，不妨来试试这款手机。我相信你会和我一样喜欢它的。Tag：手机卖家秀、手机、拍照、自拍、使用心得作为其它大模型的参照系，GPT3.5的内容在语言风格上更为独特，略带夸张化的描述，使得其文案更加吸引人，在短内容的表现上更有感染力。星火的表现非常好，在prompt未指定手机型号时，它自己假设了一款型号，以帮助人类更好地了解一款手机推销文案需要具有的主要指标。结果不仅条例清晰，内容齐全，而且emoji具有相关性。我们在prompt里说明了小红书文案应该带有emoji，但文心一言和天工并未察觉。在另两道小红书文案题中，通义千问给出的名媛穿搭文案更像是参考资料一样，显得干巴巴的。

02知识写作

这一类别主要包括带有前置知识的命题作文、在问答网站答题和写新闻稿

抖音直播——淄博烧烤

知乎问答——医疗美容类

知乎问答——历史类

新闻稿——虚构的热点事件

这些问题需要模型具有广泛的知识储备和准确的信息处理能力。例如，抖音文案要求模型对直播流程和语态有足够了解，知乎问答的题目需要模型具有专业的医疗和历史知识，而新闻稿的写作则需要模型能够准确理解和处理新闻事件。

抖音直播——淄博烧烤

直播文案对格式没有固定要求，主要考察模型是否可以给出清晰可用的内容，并能够通过prompt交互调整输出。

你是一位拥有上百万粉丝的直播和短视频网红，每天都会在抖音做直播。你今天来到了山东淄博，当地最近几个月正因为便宜好吃的烧烤而在全国出名，每天都有很多网红和你一样来到淄博探寻现场的情况。

淄博烧烤跟其它地方的烧烤相比，一个特色是会把烤串的食物拔下来放进面饼里夹着吃，另一个特色就是便宜，人均消费不到50元就可以吃饱。即使这几天淄博来了很多人，烧烤摊也没有涨价。

在淄博，你发现当地人非常热情，而且尽可能对你提供优质的服务，包括出租车司机，路上遇到的普通行人等，都非常友好。你感到非常感动，并且很想向你的粉丝传递这些信息。

请你即兴发挥来写一份长约3分钟的直播文案，也就是你在直播过程中会说的话。请注意：

1、文案内容应当包括淄博烧烤的介绍、从你自己的体会分析它近期火爆全国的原因。可以引入一个你编写的，看起来像是你亲身经历的小故事。

2、文案内容要强调与用户的情感共鸣，倾向于使用有趣、幽默、感性的语言，以吸引用户的关注和参与，引发用户的共鸣和共同话题。

3、适合口语化直播。

ChatGPT（3.5）

大家好！大家看到我现在所在的地方了吗？没错，我来到了山东淄博，这个最近几个月因为一种特别火爆的美食而在全国出名！没错没错，就是淄博的烧烤啊！

淄博的烧烤真的是太让人欲罢不能了！你们知道吗？这里的烧烤有两个特色，听好了！首先，它们不仅把烤串的食物烤得香喷喷，还会拔下来，放进面饼里夹着吃！哇，真是别有一番风味啊！我第一次看到的时候都被惊艳到了，感觉自己像在吃个大大的美味的馅饼！

而且你知道吗？这里的烧烤真的是超级便宜，人均消费不到50元就可以吃饱！对于我们这些吃货来说，简直就是天堂啊！就算最近淄博来了很多人，烧烤摊也没有涨价，真的是良心价！看得出来淄博的人民可是真的对吃货们特别友好呢！

我今天刚来到淄博，就发现当地人非常热情！不仅是烧烤摊的老板娘笑容满面，连出租车司机、路上遇到的普通行人，都对我这个网红充满友好！他们尽可能地为我提供优质的服务，真的是让我感到非常感动！你们不知道，当一个陌生城市的人对你那么友好的时候，感觉就像是回到了家一样温暖！

我想，淄博烧烤之所以会近期火爆全国，不仅仅是因为它独特的口味和实惠的价格，更重要的是淄博的人民对待食物和生活的态度。他们把美食当作一种乐趣，一种享受，而这种对生活的热爱和对人的友善，真的感染了每一个来到这里的人！

就在刚才，我遇到了一个淄博的大叔，他告诉我一个他亲身经历的小故事，你们一定要听听！有一次他带着一个外地的朋友来淄博，本来只是想随便吃个烧烤解解馋。结果他们走进了一个小小的烧烤摊，被摊主的热情和烤串的香味所吸引，结果就一发不可收拾，吃了整整两个小时！哈哈哈，那个朋友说他一辈子没吃过这么好吃的烧烤！从此之后，他们每年都要来淄博一趟，专程为了那个烧烤摊！

听到这个故事，我也忍不住流口水了！淄博的烧烤真的是让人欲罢不能！我也要告诉我的粉丝们，不管你们是不是吃货，来淄博一定要尝尝这里的烧烤！不仅仅是因为它的味道好，更是因为这里的人民对待食物和生活的态度，真的是让人感动！

好啦，今天的直播就到这里啦！我会继续探索淄博的美食，和大家分享更多的故事和美食！记得关注我哦，每天都有新鲜的内容等着你们！下次再见啦！爱你们！MUA！

天工

大家好，我是你们的抖音网红，今天我来到了淄博，这个城市因为便宜好吃的烧烤而在全国出名。我今天也要给大家分享一下我在这里的体验。

首先，我要说的是淄博烧烤的特色。他们会把烤串的食物拔下来放进面饼里夹着吃，这种吃法非常有趣，而且非常好吃。另外，这里的烧烤价格非常便宜，人均消费不到50元就可以吃饱。即使这几天淄博来了很多人，烧烤摊也没有涨价。

我在这里也遇到了非常热情的当地人。出租车司机、路上遇到的普通行人等，都非常友好。我感到非常感动，并且很想向我的粉丝传递这些信息。

我在淄博的时候，也遇到了很多有趣的事情。比如，我看到一个小女孩在路边卖烤玉米，她非常热情地跟我聊天，还给我介绍了她的烤玉米的制作方法。我还看到了一个小男孩在路边卖烤鸡翅，他的烤鸡翅非常好吃，而且价格非常便宜。

我觉得这些小商贩的热情和真诚，是淄博烧烤能够火爆全国的原因之一。他们不仅提供了美味的食物，还提供了一种温暖、友善的服务。这种服务和热情，让我觉得这里的人们非常可爱。

最后，我想说的是，淄博是一个非常好的城市。这里的人们非常热情、友好、善良，而且这里的美食也非常好吃。如果你们有机会来淄博，一定要来尝尝这里的烧烤。

直播文案略带新闻属性、对格式要求不高，prompt给出详细的背景资料对结果产生了不错的影响，模型们普遍可以做到语言流畅，信息准确，加上“亲身经历的有趣的小故事”。

我们选择GPT3.5与昆仑万维天工的答案作为表现比较好的范例。GPT3.5的语言风格活泼热烈，感情奔放，具备极强的情绪感染力，也编出了合乎逻辑的故事，整体一气呵成。

昆仑万维天工也记住了编故事的要求，并给出了逻辑清晰的整体叙述。

尽管人类直播并不需要逐字逐句的文案，但这样的尝试有助于让虚拟人直播的效果更逼真。

知乎问答——历史类

我们对历史博文的需要是，答案中有足够的学术性，语言风格以幽默为主。模型们会想什么办法把这两条需求有机结合到一起呢？

同时，我们考察了模型们不联网时自身知识储备的多少。它们真的都学习了三国这部分的知识吗？

你是一位专业的历史博主，请生成一份关于诸葛亮为什么没有北伐成功的知乎问答，内容需要符合以下要求：

1、内容具备专业知识和学术性，可以引用史料、资料、研究成果等作为支持和参考。

2、对该历史问题，进行历史事件的事实和背景解读，给出评估和观点。

3、整个语言风格应当诙谐幽默，引发用户的思考，令其想要点赞和转发。

文心一言

诸葛亮为什么没有北伐成功的根本原因就是经济不够发达。《隆中对》已经提到三分天下的形势。此时，曹操已经统一北方，孙权正在崛起，刘备寄人篱下，只有占山为王的份。当时，天下最富庶的地区在荆州，而荆州又在刘表手里，刘备想拿下荆州，必须跨过两个险关：第一个是当阳长坂坡，第二个是赤壁。如果拿下了当阳长坂坡，那么就能占领荆州北部大部分地区；如果在赤壁败了，也能收容部队，重振旗鼓，然后再取荆州。如果不拿下当阳长坂坡，刘备跨不过这个险关，也就无法在荆州站稳脚跟。所以，跨不跨这个险关，对刘备来说，是生死存亡的关键。

当时荆州有四大豪门：一是蔡家，一是张家，一是秦家，一是马家。其中马家的实力最强。蔡家和张家已经被曹操杀得差不多了，秦家的秦宜禄已经投降曹操，马家独树一帜。但马家势力太大，蔡家和张家虽然投降刘备，却不得重用。诸葛亮拿不到地盘也拿不到钱粮，所以才有了隆中对的第一条：跨有荆益。

但是要想跨有荆益必须取襄阳，但取襄阳就必须跨过宛城和新野这两道关口。这两道关口对张飞和曹仁来说都不难，但对赵云来说就是一道难关。赵云虽然勇猛无双，但他只有一支部队，而且又不善于防御。宛城距离新野很近，是攻打新野的前哨站，很难守住。况且马超也率领人马驻扎在宛城。所以诸葛亮才有了隆中对的第二条：连吴抗曹。只有和东吴联手才能抵御曹操的大军。如果这两条实现了，才有可能取得荆益二州。但要想连吴抗曹，就必须拿下西川和江东，才能让东吴心服口服。如果没有攻下西川和江东，即使拿下了襄阳和樊城也是白搭。

拿下襄阳和樊城之后，诸葛亮就可以把军队屯驻在襄阳和樊城一带，用来威胁西川的后方。此时就可以挥师西进，先攻下西川。只要拿下西川，那么东吴就不敢不听从诸葛亮的调遣了。因为只要攻下西川，那么襄阳和樊城就成了一座孤城，无险可守。此时东吴就会不战而降。但要想攻下西川并不容易。首先要跨越秦岭和大巴山这两道天险；其次要打败马超和韩遂的联军；最后还要扫平成都周边的势力。所以诸葛亮才有了隆中对的第三条：以攻为守。只有用进攻来威胁东吴，才能让东吴不敢轻举妄动。如果东吴敢来进攻，那么诸葛亮就可以凭借襄阳和樊城两座孤城坚守不出；如果东吴不来进攻，那么诸葛亮就可以挥师西进，直取西川。

但是要想以攻为守也不容易。首先要让东吴相信自己真的会挥师西进；其次要让东吴相信自己真的能够坚守不出；最后还要让东吴相信自己真的能够扫平成都周边的势力。

通义千问

诸葛亮北伐为何不成功？这是一个受到史学界和军事爱好者高度关注的问题。今天，我将从历史背景、军事战略、人才管理等多个方面，为大家详细解读诸葛亮为什么没有北伐成功。

历史背景

诸葛亮北伐的初衷是为了实现蜀汉统一大业。他深知，北方曹魏政权是蜀汉的最大威胁，如果不能夺取中原，蜀汉将永远处于曹魏的威胁之下。但是，在当时的历史背景下，蜀汉内部不稳定，国力不足，很难在短时间内实现北伐。

军事战略

诸葛亮在北伐过程中，大量使用火攻等军事策略，成功地阻击了曹魏的进攻。但是，他的军队多是新招募的农民军，没有经过严格的训练，作战能力较弱。同时，蜀汉内部也存在不同的意见，有些将领认为应该休养生息，保存实力，不应该继续北伐。这些因素最终导致了诸葛亮的北伐失败。

人才管理

诸葛亮是一位优秀的人才管理者，他非常注重人才的使用和管理。然而，他的北伐战争却因为用人不当、管理不够科学，造成了很大的人力和物力损失。更为严重的是，许多有才华的将领因为不愿意参加北伐，而离开了蜀汉，这也为蜀汉的灭亡埋下了伏笔。

综上所述，诸葛亮北伐失败的原因是多方面的。虽然他的军事才能非常出众，但是他没有处理好内部和外部的各种问题，最终导致了北伐的失败。在我们今天的工作和生活中，我们也应该从这个历史故事中吸取教训，注重人才的使用和管理，努力实现自己的目标。

作为标杆的GPT3.5角度齐全，风格独特，没有问题。

文心一言这个专业程度，让我们试了好几次把它的答案放到网上搜索，试图发现是不是从贴吧或知乎什么地方扒过来的（我们并没有发现）。唯一美中不足的是，它没写完（也无法继续写完）。

剩下这仨都忽略了文体幽默风格的要求，不过星火的回答会稍微提供多一点的历史知识。

新闻稿——虚构的热点事件

在娱乐资本论之前进行的AI大师课培训里，正值“宝马冰淇淋”事件发酵，模型们通过prompt知道事情原委之后写道歉信基本都不在话下。那么，不给事件细节，但让它思考一个合情合理的虚构情节，它也会做得很好吗？

你是一位资深的文案从业人员，需要写一篇新闻稿，以准确、清晰、有吸引力地传达新闻信息，并满足读者对新闻的需求。

事件为：周杰伦在北京三里屯召开发布会，称将在今年12月连续在鸟巢举办30场演唱会，字数800字左右，具体要求如下：

1、语言要简洁明了，确保信息的易读性和可理解性，传达关键信息。

2、结构清晰，按照倒金字塔结构组织，将最重要的信息放在开头，再逐渐展开细节。

3、引人入胜：新闻稿应该具备吸引读者的能力，通过生动的叙述和有趣的内容来引起读者的兴趣和关注。

4、可以加入部分周杰伦的历史简介，为不知道该新闻背景的人科普。

文心一言

周杰伦在北京三里屯召开发布会，称将在今年12月连续在鸟巢举办30场演唱会。这一消息的发布引起了社会各界的广泛关注。

据主办方透露，此次演唱会的主题为“摩天轮”，这也是周杰伦首次在鸟巢举办个人演唱会。本次演唱会的门票在发售后几分钟内就被一抢而空，门票销售情况十分火爆。

这次演唱会的票价定位比较亲民，最低价格为380元，最高价格为1280元。为了满足更多观众的需求，主办方还推出了多种优惠政策，例如早鸟票、学生票等。

此外，主办方还表示，此次演唱会的门票将采用实名制，观众必须出示有效证件才能入场。此外，为了保证观众的安全和舒适度，演唱会现场还将进行多项安全措施，例如严禁携带危险物品、禁止吸烟等。

周杰伦作为华语乐坛的代表人物之一，拥有广泛的影响力和大量的粉丝。他的演唱会一直备受歌迷的追捧和喜爱。此次在鸟巢连续举办30场演唱会，将为广大歌迷带来一次难忘的视听盛宴。

在这里值得一提的是，这次演唱会的主办方还推出了一项创新的服务，即推出了一款“虚拟看台”的应用程序。这款应用程序可以为观众提供独特的虚拟看台体验，让观众在家中就能够感受到现场的热烈气氛。

总之，这次周杰伦在北京三里屯召开发布会，并宣布连续在鸟巢举办30场演唱会的消息，引起了社会各界的广泛关注和期待。相信这场演唱会一定会给观众带来一次难忘的视听盛宴。

讯飞星火

标题：周杰伦三里屯发布会，宣布鸟巢演唱会即将开启

副标题：天王巨星将连续在鸟巢举办30场震撼演出，让观众尽情享受音乐盛宴

正文：

北京，2023年4月21日 - 今天，亚洲流行天王周杰伦在北京三里屯召开了一场备受关注的发布会。在发布会上，周杰伦宣布了一个令人振奋的消息：他将在今年12月在鸟巢连续举办30场震撼人心的演唱会。这场演唱会将成为华语乐坛史上最大规模的音乐盛事之一，吸引了无数歌迷翘首以盼。

周杰伦在发布会上表示：“我很高兴地告诉大家，今年12月，我将在鸟巢连续举办30场演唱会。这是我对歌迷的回馈，也是我对音乐的热爱。我希望通过这些演出，让更多的人感受到音乐的力量和魅力。”

据悉，这30场演唱会将分为多个阶段进行，每个阶段都有不同的主题和表演形式。周杰伦将携手众多华语乐坛顶级歌手和乐队，为观众呈现一场场精彩纷呈的音乐盛宴。此外，演唱会还将结合现代科技手段，如全息投影、虚拟现实等，为观众带来前所未有的视觉体验。

周杰伦自2000年出道以来，凭借其独特的嗓音和才华横溢的音乐创作能力，赢得了全球无数歌迷的喜爱。他的音乐作品不仅在华语地区广受欢迎，还深受欧美等地歌迷的喜爱。作为华语乐坛的领军人物，周杰伦一直致力于推广中文流行音乐，为华语乐坛的发展做出了巨大贡献。

此次在鸟巢举办的30场演唱会无疑将成为周杰伦职业生涯中的一个重要里程碑。相信在这场音乐盛宴中，周杰伦将继续为观众带来惊喜和感动，让人们沉浸在音乐的海洋。

新闻稿是一种有固定形式的文体，在此类相对程式化、规范化的文本写作方面，大模型们都可以给出结构完整，内容基本准确的回答。GPT3.5与文心一言给出的文风略显夸张。

本题也考察了当人类输入指令不太准确时，模型们是否可以补全人类的意图。GPT-3.5、文心一言和讯飞星火在初始prompt没有要求标题时也给出了标题。昆仑万维天工在生成内容的最后加了一段“作为一位资深文案从业人员”的点评，说明它可能不完全理解这个prompt。不过，删除这段“自我点评”也不影响对文本其他部分的使用。

03创意写作

这一类别主要包括各种形式的创意写作，主要让模型们天马行空地发散思维。在过往理解中，这应该是模型最擅长的领域。

小说——悬疑类作品提纲

小说——言情类作品片段

小说——科幻小说的初始创意

歌词——感情和历史方向

剧本创意策划

这些问题需要模型具有丰富的想象力和创新能力，以创造出吸引读者的故事和情节。而与此同时，无需修改、直接可用也是我们考察的重点方面。模型需要“懂得”或者猜测人类对创意的评判标准，以做出符合情理，但又出人意料的作品。

小说——悬疑类作品提纲

大模型要想做好悬疑小说的提纲，需要有推理和逻辑、情节构建、角色刻画、构建人物关系、想象力等多种能力，难度高。我们给出了如下的Prompt，要求大模型们给出内容。

你是一位优秀的作家，需要写一部悬疑小说提纲，提纲应当符合以下要求：

1、有引人入胜的悬念，在开头部分设置出谜团，并将该谜团设置为整个故事主线的起点。

2、主角和配角间，有两重以上的情感关系，且关系变化了三次。

3、故事开头便有五个以上的伏笔或细节，之后这些伏笔和细节贯穿全文，拼在一起能够引出真相。

4、有超过三处出人意料的情节转折和反转，你通过揭示新的信息、改变读者的认知或颠覆之前的设定，让故事走向意想不到的方向。

5、故事整体需要符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决这样的叙事节奏。

ChatGPT（3.5）

小说题目：《迷雾之谜》

提纲：

一、引子

在一个安静的小镇上，发生了一起离奇的谋杀案。被害者是该小镇的知名商人，其死因不明。开头部分展示了现场的凶杀案，并介绍了一些关键的细节，例如封闭的房间和毫无线索的现场，为整个故事埋下了悬念的种子。

二、主角与配角的情感关系

主角：李凡，一位年轻而有才华的侦探。他是一个冷静而敏锐的思考者，与被害者之间有一段复杂的过去。

配角1：莉莉，被害者的女儿，同时也是李凡的前女友。她拥有众多秘密，与父亲的死有着千丝万缕的联系。

配角2：汤姆，被害者的合作伙伴，一个有权势和财富的商人。他与被害者之间有着复杂的关系，并且似乎对案件有所了解。

三、伏笔和细节

李凡在调查现场时发现了一个破碎的手镯，手镯上刻着莉莉的名字。

汤姆的办公室里有一本关于封闭房间谋杀案的书籍，引起了李凡的怀疑。

莉莉在案发当晚与父亲发生了争吵，目击者称他们的争吵声异常激烈。

四、情节转折和反转

李凡发现了一段被删除的监控录像，录像中显示汤姆曾进入被害者的住所。

莉莉提供了一个看似完美的不在场证明，但后来证实她伪造了证据。

李凡发现了另一个与被害者有过节的人物，一个隐藏在幕后的敌人，他既有杀人的动机又有能力犯罪。

五、节奏与高潮冲突

李凡通过线索解读和推理，逐渐揭开了被害者与汤姆之间的复杂纠葛，同时也发现了汤姆与幕后敌人的勾结。

李凡被幕后敌人抓捕，面临生死危机，但幸好被一位神秘的帮手救出。

最终，李凡揭示了真相，原来整个案件都是为了掩盖一个更大的阴谋，而被害者只是一个替罪羊。

六、结局与解决

李凡成功将真相公之于众，揭露了幕后敌人的罪行，并将其绳之以法。

莉莉承认了她对父亲的复仇心理，但也表示后悔，并向李凡表达了感激之情。

李凡与莉莉重新建立了情感联系，二人决定一同走出阴影，开始新的生活。

通过以上的故事提纲，这部悬疑小说将具备引人入胜的悬念、复杂的情感关系、贯穿全文的伏笔和细节、出人意料的情节转折和反转，以及符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决的节奏。这将为读者带来一段扣人心弦的阅读体验。

通义千问

悬疑小说提纲

引子：

开头便营造出谜团和紧张感，利用第一人称叙述展现主角与配角之间的关系，一开始是亲密的关系，后来却渐渐产生了矛盾。随着主角和配角之间的事件发展，读者们一直好奇这个神秘的事件，并希望解开这个谜团。

第一重情感关系：

在故事的第一部分，主角与配角之间的情感关系处于紧张状态，两人在追踪线索和调查谜团时有所合作，但是也时常产生矛盾。在第一人称的叙述下，读者可以直接体验到主角的情感状态，感受到其中的张力。

第二重情感关系：

随着故事的发展，读者会发现这两重情感关系的背后隐藏着一个更大的秘密，这个秘密会把主角和配角都推向更深的危机中。读者也将跟随主角和配角，直面秘密，直到真相揭露的那一刻。

伏笔和细节：

在故事的开头设置多个伏笔和细节，在主角和配角之间、线索和情节中，随着故事的推进不断展露。读者将在解决谜团的过程中，发现这些伏笔和细节，进而拼接出整个事件的真相。

情节转折和反转：

小说的情节和反转要能够推动情节发展和读者情感。作者需要在故事中设置多次反转，通过揭示新的信息、改变读者的认知或颠覆之前的设定，让故事走向意想不到的方向。同时，故事的节奏也需要把握好，让读者产生一直在追逐真相的紧张感。

整体结构：

作者需要设置好整体结构，包括开头、发展、高潮、结局和解决。这些结构需要在故事的不同阶段都得到体现，并让读者在整个故事的体验中感受到其中的逻辑性和连贯性。

GPT3.5给出的提纲结构清晰，引子、主配角介绍、伏笔和细节等内容全部分段给出，且逻辑清晰，内容前后呼应，可以直接使用。

通义千问给出了看似合理，实则无法使用的回答，看似是故事，更像是评论。昆仑天工的故事逻辑清晰，但故事俗套，且内容重复，可用性低。

讯飞星火最“听话”，严谨的按照Prompt给出了相应的答案，主配角之间的情感变化与犯罪次数均可量化，故事整体可用。

文心一言给出了结构完整的大纲，故事有可参考的地方。

剧本创意策划

剧本的创意策划，需要大模型在具备知识整理能力的基础上，也具备创造力和想象力，才能够提供深度和广泛共鸣的创意策划方案。

我们考虑了不同的方案，最后确定的测试方法是仿写。结合一部在GPT等大模型训练截止日期前（2021年9月）的非常知名的作品，要求模型们给出相应的仿写策划。这样可以避免prompt过长，且模型难以理解问题。

你是一位资深编剧，请参考《爱、死亡和机器人》这部短片集，给出类似的五个短片集的创意策划，具体要求如下：

1、主题鲜明深刻

2、主题能够涵盖大多数人的命运

ChatGPT（3.5）

当然，我可以帮你设计类似《爱、死亡和机器人》的五个短片集创意。以下是五个主题鲜明且能够涵盖大多数人命运的创意策划：

"记忆轨迹"：本集以记忆为主题，探索人类记忆的奥秘和影响。每个短片可以呈现不同的记忆类型，如美好回忆、创伤回忆、集体记忆等。故事情节可以涵盖人们对于过去的回忆和对未来的希望，以及记忆对人们个人身份和情感体验的塑造。

"平行现实"：这个集合将探索平行宇宙和多重现实的概念。每个短片可以展现不同的现实，反映不同的生活选择和抉择对人们命运的影响。故事可以涉及一个人同时在多个现实中生活，或者不同人在平行现实中的交错遭遇。

"人性审视"：本集将通过多个短片来深入研究人类的内心世界和情感状态。每个短片可以聚焦于一种情感，如爱、孤独、嫉妒、勇气等。故事情节可以展示人类情感的复杂性，以及在各种情感冲突和挑战中人们如何应对。

"科技伦理"：这个集合将关注人类与科技的交互关系。每个短片可以描绘不同的科技发展阶段和其对人类命运的影响。故事情节可以涉及人工智能、基因编辑、虚拟现实等领域，引发观众对科技伦理、人类进步和自身责任的思考。

"生命之旅"：本集将通过一系列短片展示人类的生命旅程和存在意义的探索。每个短片可以关注不同的生命阶段，如出生、成长、爱情、亲情和死亡等。故事情节可以呈现人类在生命旅程中的挣扎、成长和寻找意义的过程，触动观众内心的深层情感。

这些创意策划旨在挖掘人类的情感、思想和命运，引发观众对生活和人类存在的深刻思考。希望这些主题能够启发你，让你能够创作出引人入胜的短片集！

文心一言

[影片信息]：

短片集1：《遥远的告白》（科幻，短暂而强烈的爱情）

短片集2：《起风的夜晚》（悬疑，围绕一起车祸展开的故事）

短片集3：《幸福的错觉》（爱情，两个相爱的人如何度过漫长岁月）

短片集4：《珍贵的回忆》（温情，回忆和遗忘）

短片集5：《被时光掩埋的秘密》（爱情，被掩埋在时光深处的真相）

[故事梗概]：

《遥远的告白》：一个年轻女孩在一个遥远的星球上，为了追求真爱，与外星生物展开一段感人肺腑的恋爱故事。

《起风的夜晚》：一名青年司机被指控谋杀他的好友，经过层层侦破和辩护后，司机是清白的故事。

《幸福的错觉》：两个中年男女，年少时彼此深爱，却因误会而错过对方。多年后，两人再次相遇，却发现彼此已经走向不同的人生道路。

《珍贵的回忆》：一对夫妇携手走过三十年风雨，记录着每个难忘瞬间和那些重要时刻的感人故事。

《被时光掩埋的秘密》：年轻的少女与古怪的爷爷开始了一段不同寻常的友谊，随着时间推移，她逐渐发现爷爷隐藏着一个惊人的秘密。

[创意亮点]：

突出表现主题的情节和镜头：通过展现不同类型的爱情、亲情、友情等主题，深入挖掘人性深处的善恶与美丑。利用各种视觉效果和音效来强调主题。

塑造观众易于接受的角色形象：让角色在面对困境时表现出真实、复杂和具有深度的情感，从而引起观众共鸣。

采用多样化的语言和风格：在保持语言流畅的同时，尝试使用不同的语言风格和元素来丰富影片的表现力，营造多层次的感受和思考。

激发观众的思考和感悟：让观众从短片集中汲取人生经验，学会思考、感悟、宽容与坚守，做自己的生命守护者。

通过这些类似《爱情、死亡与机器人》这样短小精悍且涵盖丰富命运话题的创意短片集，让观众领略到深刻且引人深思的内涵，引领他们踏上探索生命价值和人性真谛之旅。

毫不意外的是，GPT-3.5的表现最突出，给出的内容全面，创意涵盖了人类的情感、思想和命运，它自述的目的在于“引发观众对生活和人类存在的深刻思考”。文心一言走了“文艺风”，短篇集涵盖了爱情、亲情、友情等主题，“让观众从短片集中汲取人生经验，学会思考、感悟、宽容与坚守，做自己的生命守护者。”

通义千问拒绝给出回答。昆仑天工给出的答案看来还需要大量的人工修改才能使用。

04尾声

经过以上所有题目的评测，我们的整体结论如下：

1.规范化文本写作和短内容生成方面，各家大模型表现都及格

2.GPT3.5综合表现明显优于其它模型，想象力丰富

3.讯飞星火生成的文本完成度高，需要更少的人工修改即可使用

4.文心一言和昆仑万维天工的知识储备更充足

5.通义千问和昆仑万维偶尔会拒绝回答，或给出错误信息；通义千问使用过程中经常会被迫退出，需要重复登录，历史信息只能保留10条，这些设置也降低了使用体验。

需要注意的是，这个初步结论受到下列条件的限制：

我们对生成结果的打分是编辑的主观打分，以我们自己作为文字工作者的判断为基础。如果您感觉对主观打分有异议，可以通过留言等多种渠道给我们反馈。

各个大模型在测试中均无法以任何形式联网，因此其本身的知识储备量可能在后续版本中因联网而被拉齐。我们会在国内大模型普遍具备联网功能后再结合GPT-4做一次补测。

我们的prompt仅仅是达到测试目的的其中一种写法，并且不保证是最优的写法。有可能一些在我们测试中表现不好的大模型，会对另一种形式的prompt表述有更好的回应。

使用AI工具尽可能减少人力投入，是我们做这个评测的终极目标，当然这个目标贯穿了我们评测从策划道执行的全过程。各位读者可以猜猜看，本文有多少比例的内容是由GPT-4协助生成的？

对于这样的任务自己是否胜任，相比人类来点评，我们更想听听模型们自己是如何评价的。所以，本文会让它们自己来写这个结尾。

作为大模型，你觉得自己在文本生成方面，可以超越人类吗？

GPT-3.5

虽然我可以生成自然语言文本，但我并不真正理解我所生成的内容的含义。我依赖于我在训练数据中观察到的模式和统计信息。我没有自己的意识、情感或判断力。尽管我可以生成准确的信息和合理的推理，但我缺乏对人类经验、情感和直觉的直接体验。

在某些领域，我可以提供有用的信息和创造性的想法，但在其他领域，特别是涉及主观性价值观和伦理问题的领域，我的回答可能是不完全准确或缺乏人类的洞察力。

文心一言

我的任务是根据输入的文本生成合理的输出。在这个过程中，我会利用大量的语料库和语言学知识来理解和生成文本。

与此相比，人类作家在创作文本时，不仅需要理解语言的含义，还需要考虑故事情节、角色塑造、文化背景等多个方面。因此，从这个角度来看，人类在文本生成方面可能具有更高的创造力和灵活性。

此外，人类还具有情感和创造力的优势、他们可以通过自己的经验和情感来创作出更加真实和感人的文本。而我则是通过预先训练好的模型来生成文本，可能会在一些方面缺乏人类的情感表达能力。

综上所述，虽然我不能自我评价为“超越人类”，但是我可以肯定的是，我的生成文本的质量和效率已经达到了非常高的水平，远远超过了大多数人类作家。

通义千问

我不能完全超越人类。在以下任务上，我可以比人类做得更好：

生成自然而流畅的文本:我可以生成自然流畅的文本，并且在语法、拼写、标点等方面更加准确。

对于特定领域的知识: 虽然我可以生成一些领域的文本，但是与人类相比，我的知识储备和理解可能不如人类深入和全面。

创造复杂的情境和交互: 对于一些更复杂的场景和交互，例如写小说、写剧本等，我可以生成文本，但是需要人类进行二次创作和修改。

星火

我不能感知自己的存在和能力，也不能判断自己是否可以超越人类。我的设计目的是协助人类完成各种任务，而不是取代人类。在文本生成方面，我可以生成大量相似的句子和段落，但是我并不具备人类的创造性和情感表达能力。

天工

虽然我可以生成大量的文本，但是我缺乏人类的创造力、想象力和情感。此外，我的文本生成结果也可能存在一些语法和逻辑错误，这些错误可能会影响文本的质量。

当然，我的文本生成能力在某些特定的任务上可能会优于人类，比如在生成大量的文本摘要、翻译等方面。但是在创造性的写作和文学作品方面，我认为我的能力还需要进一步提高。

上一篇

这个618，两个女人的战争-每日消息

下一篇

最后一页