神秘大招终结幻觉问题！讯飞星火 V4.0 首秀地表最强 AI 语音助手，74 个语种方言“自由对话”...

07-10 1756阅读

作者 | 王启隆

责编 | 唐小引

出品丨AI 科技大本营（ID：rgznai100）

北京时间 6 月 27 日，科大讯飞于北京国家会议中心正式发布讯飞星火大模型V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火 V4.0 七大核心能力全面升级，不仅在 8 个国际主流测试集中排名第一，领先国内大模型，并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现对 GPT-4 Turbo 的整体超越。

讯飞星火 V4.0 在图文识别能力上也是进一步升级，在科研、金融、医疗、司法、办公等场景的应用效果已领先多模态能力更强的 GPT-4o。此外，星火长文本能力也全新升级，并针对长文档知识问答的幻觉问题，业界首发溯源功能（后文会重点介绍）。

所谓超越，不止体现在纸面的数据。这次发布会上的现场演示，直接将我的记忆拉回了 5 月份 OpenAI 的春季发布会：当时是“ChatGPT 之母” Mira Murati 和两位工程总监共同演示了 GPT-4o 的多模态、语音识别、语音打断、情绪感知等功能，可谓惊技四座。

然而 GPT-4o 上述的这些功能，讯飞星火 V4.0 不仅全都有，演示效果还更加震撼。

比方说，多语言识别功能。现场演示在讯飞输入法上进行了多种方言（安徽话、上海话、四川话、粤语等）+汉语/英语/法语混杂的输入。

对比之下，OpenAI 曾经在春季发布会让 Mira 讲意大利语，演示过 GPT-4o 进行意大利语和英语的无缝切换；此外还曾在欧洲科技盛会 VivaTech 上演示过法语和英语的切换 —— 讯飞的优势相当明显，不仅同样能做意大利语、英语和法语等外语，且他们在汉语语音识别方面更有经验，并具备外国厂商难以掌握的中文方言识别，更适用于广大的中国用户。

按照官方说法，星火语音大模型实际具备了国际领先的多语种多方言免切换语音识别能力，可支持 37 个语种、37 种方言“自由对话”。其中，37 个语种识别效果领先 OpenAI whisper-V3，37 个方言识别效果平均提升 30%。

强干扰/极复杂环境下的语音识别 & 转写。官方演示了两个例子，一个是电影《寒战》中郭富城和梁家辉两位主演的“港普”吵架，激烈的唇枪舌剑配合难以分辨的口音，同时交错的声音几乎无法用人耳识别，星火却可以做到。

第二个例子则进一步加码难度，在「放背景音乐」+「嘈杂的会场」环境下，让基于星火语音大模型的讯飞听见同时识别三位讯飞研究员的声音，并对发言人进行标注。即使在三人混叠说话场景，也能实现 86% 的语音识别准确率。

语音打断和情绪识别。讯飞输入法和讯飞听见都是大家熟悉的应用，而现场还直接放了一辆奇瑞汽车，演示了最新的讯飞智能驾舱。主驾上是中国人，副驾上是外国人，两人可以用不同的语言甚至方言和汽车无缝交互，AI 可以准确切换语言语种，并在每句话的开头识别出说话人是主驾还是副驾。

在过程中，两人演示了许多次“打断”的效果 —— 这也是 GPT-4o 每一次演示都会特意体现的功能，是目前顶尖水平的多情感、多模态 AI 的特征之一 —— 能够接受人类交谈中的打断习惯，及时停顿并给出无缝回复，并且保持对上下文的记忆。

此外，结合智能驾舱的心率监测等功能，还可以了解到司机身体的参数，是否有疲劳驾驶等异常情况等。

科大讯飞董事长刘庆峰用两个字总结了这些演示：「炸裂」。我们不打算用「遥遥领先」等词来进一步修饰精彩程度 —— 因为 GPT-4o 的语音助手功能没多久之前才官宣延迟一个月。前有新王登基、“世界最强模型” Claude 3.5 Sonnet 虎视眈眈，后有号称“第一个全民开放大模型”、发布之后就能马上用的讯飞星火 V4.0，既然 OpenAI 还未向公众展示其语音的真实实力，就更不用谈领先或落后了。

幻觉已死

我们曾经整理过谷歌首席执行官 Sundar Pichai（皮查伊）的一篇采访，他在面临 Google 前段时间的 AI 搜索风波后，委婉地表示：幻觉问题是大语言模型的“固有缺陷”，这个问题目前尚无解决方案。

针对长文本的幻觉问题，科大讯飞今天给出了一个相当令人眼前一亮的方案：内容溯源。让我们复现一遍官方演示的操作，解答这个能力的意义。将《西游记》的全本 PDF 发给讯飞星火提问：太上老君将悟空置入炼丹炉烧炼，多少天后放出?

回答平平无奇，但为什么答案的中间会有个小旗子呢？我们点进去一看，就会发现所谓的“内容溯源”是为何物：

以往的 AI 模型最大的问题之一便是“黑盒”，我们可以输入数据并得到结果，但完全不懂内部的运作机制是什么样的，更不可能检查输出结果的逻辑，或是系统的代码。内容溯源的机制类似于当前 AI 搜索界的“当红炸子鸡” Perplexity，让模型提供的所有答案像写论文一样，标注好明确的引用来源。如此一来，我们至少可以检查 AI 引用的是哪段文字，在出错的时候也有操作的空间。

这一天起，人类稍微触及了黑盒的冰山一角。

除了内容溯源以外，上述操作还运用到了另一大功能：个人空间。

以上是《哈利波特》前六部的英文原版和我们刚刚测试用的《西游记》，我们可以将它们同时选中，提出问题：孙悟空的法术和哈利波特的咒语有哪些相似之处？

由于给的是《哈利波特》原版，溯源回去自然也是英文：

这只是个人空间的功能之一，它的核心能力是，让用户上传自己的工作、学习、生活、健康等各类资料，形成每个人的专属知识库，再结合人设，让大模型生成更个性化的内容。现场演示里，刘聪院长便上传了自己女儿写的小作文。在选取符合女儿风格的 AI 人设标签后，星火生成了一篇活泼、可爱更个性化的文章。

此外，“个人空间”不止能同时阅读多种不同语言的文档，还能同时处理不同格式的文件。当他上传了讯飞翻译机的产品海报（PDF 格式）、用户短视频（MP4 格式）、相关录音（MKV 格式）之后，星火也可以根据这些多模态信息生成产品培训文档，还可以对生成的信息进行多模态溯源。

星火大模型打通了全系讯飞 C 端软硬件产品生态，比如讯飞智能办公本、智能录音笔的文件可以一键同步到上述的个人空间中，通过数据互通、操作联动，把一篇办公本里的会议记录同步到星火中，就可以让星火进行公文写作，还可以做 PPT，以及生成待办事项等等。讯飞出的这一系列硬件，正式组成了一个“星火组合拳”。

To C 应用升级：革了网络问诊的命

「讯飞晓医」是这次的重磅发布之一，当我第一眼看到 AI + 医疗的时候，我还以为这又是 DeepMind AlphaFold 那类“普通人完全看不出有啥关联”的科研发明，但这一次，讯飞直接瞄准了最广泛、最庞大的群体，那就是所有的中国家庭。

点进 App，我们可以定制个性化病历，或是利用图像识别功能直接上传自己的病历本和报告单。更准确的说，这个功能叫“个人数字健康空间”，它能够根据电子病历、检查报告、体检报告等用户个性化资料，在看病前就可以进一步剖析病症原因，用药时给出药物禁忌的个性判断，在检查后联合对比给出数据变化。

更重要的是，还有角色切换功能，让我们把其他家庭成员的健康状况也存一份。

像上图这样，讯飞晓医能知道对应的咨询人平时吃的药物以及病史，且覆盖了 1600 种常见疾病、2800 种常见药品、6000 种常见检查检验，完全能满足广大用户在看病前、用药时、检查后的核心场景健康需求 —— 这里的用户，既可以是懂 AI 的科技发烧友，亦可以是不用手机的老年人。只要有一个家庭成员使用晓医，整个家就多了一个在半夜三更也能看病问诊的“赛博医生”。

如此一来，便有了一个新问题：我们还需要网络问诊吗？

当前，讯飞晓医 App 累计下载量 1200 万，用户好评率 98.8%，主动推荐率 42%。目前为止，广大群众使用 AI 还是围绕“搜索”和“翻译”两大需求，而现在，讯飞可能率先找到了这片大蓝海的发掘方式。

To B 应用生态：自主可控，方能兴国

这次讯飞旗下各类应用的改版相当之大，那在 To B 方面，这位「AI 国家队」表现如何？

刘庆峰在演讲中表示，企业首先要科学地认识大模型能力的边界，根据任务难度选择合适方案，并且用更少的算力、更高的效率，打造企业专属大模型。随着星火 V4.0 的发布，他认为用智能体平台打造每个岗位的专属助手的时间已经到了。

所以，讯飞最后的重磅发布，便是星火企业智能体平台。平台本身内置了星火商机助手、星火评标助手等典型应用案例，为企业应用打了个样。然后在代表性的代码智能体 iFlyCode 中，它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体，将讯飞内部的 AI 代码采纳率由 30% 提升至 52% —— 期待未来有完全 AI 生成应用的一天。

星火带来行业赋能的同时，也在助力开发者生态蓬勃发展。自今年 1 月 30 日讯飞星火 V3.5 发布以来（>欢迎回顾当时我们写的报道），短短 5 个月，星火开发者生态加速增长，开发者数从 598 万增长到 702 万，新增超 104 万；海外开发者数超 40 万；大模型开发者达 57 万。

和上次发布会一样，刘庆峰最后再次带来了一场热血澎湃的演讲，尽显「AI 国家队」的本色：“只有自主可控的繁荣生态，才有中国通用人工智能的大未来。”

刘庆峰强调，比起打造一座“AI 帝国”，当前最重要的其实是关注源头技术生态、智能体生态、应用生态和行业生态，实现自主可控和软硬一体，才能实现大模型的深度落地；既要科学理性地认识中美在大模型上的综合差距，也要有信心快速追赶，给出从源头技术、到产业生态、再到应用落地的一整套的打法，以长期主义来打造真正自主可控的 AI 产业生态。