作者 | 左卡 石濑
编辑 | 张洁
受文风测试网站启发,一些开发者相继推出了类似的基于AI模型驱动的互动玩法,如“名家嘴替”文风模拟器、OC成分测试等。
其中,OC成分测试为开发者王登科团队的产品实现了精准导流,通过小成本撬动了大流量。有业内人士预测,很快会有套路化的一波流产品策略。(相关阅读:《花5分钟开发,超40万人使用,现在AI圈流行小而美的“一波流”?》)
文风测试网站的使用很简单,只需将文字内容复制粘贴进去,即可测出这段文风与哪位作家最相似。
网址:testurtext.site
据主创团队透露,自6月5日文风测试网站上线以来,后台数据显示已产生了超200万条运行结果。而这个网站从头到尾投入就只花了500元人民币,团队三人全是女生,其中负责算法和模型的主创Ankie是一名人工智能专业在读的本科生。
文风测试走红后,争议也随之而来。有网友抱怨频繁测出大冰、郭敬明等作家,还有人质疑文风测试只是新瓶装旧酒,实际上并不能测试“文风”,只是披了层文风外衣的“关键词测试”。
“AI新榜”近期和Ankie聊了聊这款爆款应用最初的灵感来源、相关争议、测试原理,以及在大模型调用成本仍然昂贵的当下,她们是如何以小成本做出一个爆火C端AI应用的。
AI新榜:文风测试这个点子是怎么来的?
Ankie:我们的灵感来源于一个叫“I write like”的英文网站,它可以测试你的写作风格与哪位作家相似,之前在一些社群里小范围地火了一下,但它只能测英文。
网址:https : //iwl.me/
现在看可能会觉得它的UI界面很高级,但当时这个网站就只有一个输入框,甚至比我们的网站还要简陋一些。
当时我们使用了这个网站,觉得非常不准,于是另一位开发小伙伴提出要不要自己做一个可以测中文的网站,于是就真的做了一个。
AI新榜:文风测试网站测中文的准确率如何?准确率是怎么计算的?
Ankie:中文作家测试很准,输入1500字以上准确率可达92%。
我们创建了一个初步的测试集,目前还在改进。这个测试集包含了一些中文作家未用于模型训练的作品片段,这些片段是随机选取的他们不常写的文体或题材。接着把这些片段上传到网站进行测试,如果测试结果中前三位相似度最高的作家包括了目标作家,即视为测试成功。
AI新榜:在开发之前,有预期会吸引哪类用户群体吗?
Ankie:我们预计会用这个工具的人,大多数会来自同人圈,正式一点说就是年轻的中国网络作家。
上线后我们发现,不止同人女(同人圈中的女性创作者),像文字博主这类本身写东西写得比较多的人群,以及喜欢阅读或写作的人也会使用这类工具。
AI新榜:开发过程中运用了哪些编程语言或AI工具,以及主创各自负责什么?
Ankie:与其他AI应用不同,我们选择自主开发了网站的前端网页和后端代码,而不是依赖现成的模版或框架。这种自主开发的方式导致前期出现了很多技术上的问题,严重的时候系统都进不去。
文风测试主创团队
队友4680是做UI设计的,她原本设计的页面比现在的要更复杂漂亮一些,不过我们目前还在提升我们的开发技术来实现。
主创回应争议:我们的AI不是“关键词检测”
AI新榜:有网友认为文风测试并不能测试“文风”,只是披了文风外衣的“关键词测试”,对此你怎么看?
Ankie:我们在“文风”测试上的确是存在不足的,我们现在也在积极改进,但我们网站绝对不是所谓的“关键词检测”网站。
有人会觉得我们所用的技术并不是AI,认为这个网站只是根据关键词来判断文章像哪个作者。例如写了某个词就被认定为某位作者,但这个词在文章中只出现了一次,谁知道它就是那个关键词呢?如果真能做到这样的话,那我们的AI技术反倒是太智能了。
但是我们网站确实没有真正测试“文风”,这个负面评价我们一致认同。
虽然我们的网站叫做文风测试,但实际上测试更多关注的是写作内容和词汇使用,对于句子结构、上下文结构等文风问题,其实测试并不能给出一个很好的答案。
在网站上线之前,我们就已经考虑过目前面对的所有质疑和问题,可以说现在展示的这个文风测试网站,就已经是我们当下对这些问题的解决方案。
AI新榜:是完全没有解决的办法吗?还是可操作性低?
Ankie:是有解决办法的,但是操作难度太大。如果有语言学大佬坐镇,手动标注数据的话,我们的模型也许能够进行句子结构分析,但是很可惜我们并没有语言学相关的专业背景。
哪怕真的有大佬帮助我们,我们训练模型总共用到了五十多万条数据,如果都需要手动标注的话,这个工作量实在是太大了。
其实我们一开始的网页标题是“文字测试”,但是上线后几乎所有人都说我们的网站叫做“文风测试”,而我们优化SEO(注:搜索引擎排名)的时候,必须让网页标题与网站传播的内容相匹配,不然大家搜索“文风测试”,根本就搜不到我们的网站,还有可能会被一些垃圾网站影响,所以后来才进行了“改名”。
对于质疑,我们一直是持积极态度的,有问题我们完全承认,能修改的地方我们都第一时间就做出了更正。而“文风”这个问题,我们确实还需要更仔细的研究。最近我们也在查阅计算语言学的文献,争取尽快为这个质疑给出一个答案!
AI新榜:你提到过,测试结果提供的单句解释是想要对可解释性AI如何能够增强用户信任和理解进行研究,你现在对此的结论是什么?
Ankie:我论文的数据分析结果显示,单句解释可以增强用户信任,但无法增强用户的理解能力。增强用户信任这一点很明显,问卷结果也显示很多人之所以相信文风测试的结果,很大程度上是因为单句解释的存在。
我甚至觉得一些用户对我们的AI有点过于信任了,我看到有网友测出来自己写得像大冰或者郭敬明,就觉得被打击到了,甚至不想再写作了。
图片来自小红书“生啃两头牛”
我觉得大家没有必要这么相信这个结果,毕竟算法不是100%准确,在评判上也有缺陷,当个娱乐就好!
AI新榜:不能增强用户理解是指什么方面?
Ankie:我们想要了解的是用户的理解程度,即他们能否理解为什么他们的文章与某个作者相似、哪些地方相似等。但很多用户无法完全理解我们标记出的句子和百分比的意义,甚至会受到误导。
比如有网友觉得我们的网站跟Turnitin(注:知名论文查重系统)是一样的,就是通过查看句子的相似度最终累计得出整篇文章与哪位作者最相似的结论。但实际上我们跟Turnitin使用的方法是完全不一样的,Turnitin是通过计算每个句子之间的相似度来得出总相似度,而我们是先进行分类给出整篇文章像某个作者的概率,然后再由解释器来依据结果计算每个句子对结果的影响。
Turnitin查重页面
Turnitin需要查看每句话的相似度并将其相加以得出最终结果,而我们是从全文的角度来判断的,并不是通过简单的相加得出的结果。
我们提供的单句解释是指每句话如何影响“像某位作家”这个结论,跟查重的方法可以说是完全相反的。
我在论文里指出单句解释无法增强用户理解的主要原因在于,非专业人士对AI的认识有限,这样过于“机器学习”的呈现方式还是比较抽象。这也是我们正在改进的方向之一。
AI新榜:从逻辑上来讲,我们对事物的理解可能是我只有了解它才能信任它。但是对于AI,我们实际上并不了解它,但是却接受它的结果。
Ankie:是的。我感觉我们收到的用户反馈存在两个极端,有些人认为机器计算的结果一定是正确的,而另一些人则认为AI完全不可靠。我觉得主要原因还是人们对AI了解有限,毕竟这项技术还是很新。
AI to C创业热潮中的冷思考:盈利和成本的困境
AI新榜:你们是否考虑过用文风测试来创业或实现商业化?
Ankie:可以明确地说,没有。
因为其实我们一开始就是因为好玩才想做这个网站的,对于我来说可能一开始就是想完成论文,对于4201(注:另一位主创)来说,她更多的是想练练手,而设计师就完全是出于兴趣了。我们目前都想继续学业,而且我们也认为创业之前至少应该在行业里积攒一些工作经验,所以目前不考虑创业的一个原因是创业并不符合我们当前的职业规划。
还有一个比较重要的,也是很现实的问题,就是我们目前看不到AI应用到C端的盈利空间。创业除了有一个好的想法之外,还需要考虑如何赚钱。
AI新榜:是很难变现吗?
Ankie:是的。如果你只是免费提供服务,可能会有一段高峰期每天都有几十万甚至上百万的用户,但是一旦开始收费,一天可能十个用户都没有。
AI to C应用现在真的很难找到赚钱的方式。有很多AI创业者和我聊起这个网站,问的最多的问题就是,“你们成本是怎么做到那么低的?”
AI应用的变现真的是一个很大的问题,前期投入完全就是在烧钱,但是后期盈利很难。比方说王登科做的哄哄模拟器,当时一夜爆火,登科一睁眼账单欠费几千美刀,后期也没能完全变现回本。
因为很现实的一个问题在于,很多AI to C的应用对用户而言不存在必需性。如果你做了一个很实用的软件,大家都在用,那考虑盈利是完全可以的。但是现在人们对AI的态度就是可有可无的,可能除了ChatGPT之外,大家也不觉得什么东西是非用不可的,甚至ChatGPT的必需性都没有那么强。
连OpenAI和百度都在亏损,可想而知初创者的处境了。
AI新榜:从我们的角度来看,AI创业就像一片蓝海,大家都想进入。但从初创者亲身经历的角度来看,情况感觉完全不同?
Ankie:最主要是因为现阶段AI的成本实在太高了。
AI现在的发展趋势实际上就是砸钱。比方说沙特阿拉伯,在AI的学术研究方面几年内就迅速“赶英超美”,其实就是砸钱砸的多。GPT等大模型更是证明了,只要砸钱砸得够多、训练得够多,效果就会很好。这个领域没有足够的资金是很难发展的。
所以对于初创公司来说,资金就是最主要的问题。从技术角度来看,即使你有好的想法和更好的解决方案,如果没有资金支持,也可能很难实现。
像我们运营这个网站,做一些实验性的东西是没什么负担的,但是一旦要考虑创业,考虑赚钱的话,压力就会特别大。
AI新榜:虽然变现很难,但感觉还是有很多人在做这个事情?
Ankie:我认为现在这个行业还是太早期了,大家还没有探索出盈利的模式,大多都是用AI应用作为帮主业务辅助、引流的手段。除此之外,现在AI技术变革太快,新技术的出现就意味着更高的成本,也就是说很有可能我们花费大量成本开发出一种新技术,很快又出现更先进的新技术“暴打”我们的技术,让努力和成本都打水漂了。比如ChatGPT的出现就完全颠覆了自然语言处理这个领域。
不管是从技术层面也好,还是从成本方面去考虑,变化都太大了,我们很难去控制方向。
AI新榜:听上去好像“围城”一样。
Ankie:是的,其实AI的学术研究也是一样的,谁都想往AI靠,但说实话AI真正厉害的技术就那么些,大家都在换个研究场景改一改这些技术,或是把几个技术拼在一起来发表论文。
在做这个应用的时候,我也时常有一种割裂感。AI研究者更偏向于不计成本地做到更好,会说:你们为什么不做得更好?为什么不用大模型做?缺钱为什么不去拉赞助?但是AI创业者就觉得,天哪,你们这成本也太低了,流量热度又很不错,怎么做到的。
一种非常直观的割裂感,很有意思,但确实也是现实面临的情况。
热潮之后,回归日常
AI新榜:文风测试火了之后对你们的生活有什么影响吗?
Ankie:开心啊!我的论文拿了很高的分数,4201说要练手也被狠狠地拉练了。我们特别满意,看到大家喜欢我们网站真的特别开心。但实际生活上来说,还真没有什么太大的影响。
我第一周的时候特别开心,开心得都有点不对劲了,每天什么都不干,一睁眼就点开手机开始看评论、帖子。后来忙起来就好多了,不过也有可能是当时开始被骂了,本能地有点逃避看这个事情。
不过我现在对于这些骂声不太在意了,我们心态都挺好的,也可能是我们觉得这个项目就是昙花一现,因为它真的很不常规,甚至整个火起来的链路都很不常规。
实际上文风测试能火也不是因为技术有多牛,可能因为这个想法很有意思,或者是页面做的很漂亮,又或者是可解释性AI的部分做得好,我也没有一个确定的答案,就是天时地利人和吧。
所以你问我为什么不考虑创业,还有一个问题就是我觉得可能我们这辈子都不会再做出来一个像这样的东西了。
AI新榜:说“昙花一现”的话会不会有点悲观?
Ankie:主要是我们的目标和人生规划都不在此。
我们都觉得,火了很好,那不火其实也无所谓了。我们自己做着玩的东西,大家能够喜欢就已经让我们特别开心了。
AI新榜:接下来还有其他计划吗?网站会继续迭代吗?
Ankie:肯定会的!我们一直在听取反馈来加入更多的作者,也在对已有的作者数据校对。目前计划在这个暑假期间做一些学术性的更新,特别是关于数据集方面的内容,以及改善AI可解释性的部分。后续的话我们计划有一个大版本更新,但是还不能保证可以做出来。
AI新榜:计划的大版本更新是什么?可以小小的透露一下吗?
Ankie:这方面的更新大家可以小小期待一下,我们先不透露了,算是给大家一个惊喜吧!
直播预告
明晚18点,来抖音号“头号AI玩家”直播间
看如何用AI做鬼畜视频!
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看 一起研究AI