AI落地应用：大模型的无限可能

作者 | 智次方2023-09-27

全文字数：3600字，阅读时间：13分钟

本文来自智次方直播：AI落地应用：大模型的无限可能

金秋9月，智次方与智用人工智能应用研究院携手推出AI大模型系列公开课，从认知、应用、商业、安全等不同方向，带您领略AI大模型的魅力与应用前景。

9月13日晚，智用研究院AI产品总监周奇民老师以“AI落地应用：大模型的无限可能”为主题进行了一次深度内容分享。

以下根据直播内容整理：

AIGC是什么

目前AIGC成为了越来越多人关注的概念。AlGC 全称为 Al Generated Content(人工智能生成内容)，指基于大型预训练模型、生成对抗网络 (GAN)、扩散模型等人工智能技术，通过其泛化能力生成各种内容。

狭义的AIGC更关注文本、图像、音频、视频等内容生成，等同于Generative Al概念。

其实在现阶段来说，主要是在做文本生成，而且文本生成能力已经非常出色。

比如可以用ChatGPT写小说等等。其实从科学家或者开发者的角度来看，GPT 4 本质上是一个文本预测模型，GPT 中的 T 代表Transformer，这个模型是一个逐字生成的文本模型，你给它一段上下文，它会预测下一个字的概率最高的那个字，然后根据生成的字再作为上下文预测下一个字。

图像生成方面，其实在四五年前就已经存在了，但在过去的概念中，人们认为生成的图像质量很差，人脸五官也歪七八扭的。而现在，通过不断训练和优化算法，生成的图像已经非常接近真实人物的照片了。例如，我们可以输入一段文本描述，Midjourney就能直接生成图片，并且图像质量很高。而且你会发现人脸的样子、风吹起来的效果、蓬松的头发、衣服的质感、光线的打光效果，以及背景的虚化等细节都已经让这张图片很难分辨真假。

音频生成方面，如果之前大家有看过一些短视频，比如“注意看眼前的男人叫小帅”，这些视频中使用的配音都是来自微软的文字合成语音服务，名为文本合成语音TTS(Text to speech)。除了传统的音频生成方式，现在还有很多新的技术，比如Suno AI。以前我想用文本生成一段音乐，但是无法将人声与背景音乐完全融合。而现在可以根据你的文本生成一整段音乐，包括和弦、人声、音调、编排、和声，所有的东西一气呵成。这项技术刚刚在前几天发布，所以AI的发展速度相当迅速。

视频生成方面，我输入一段文字“有一只狗穿着超人的披风在天上飞，帮我生成4 秒钟的视频”，现在已经完全可以实现了。

还有跨模态生成，其实就是文本、图像、音频、视频之间来回切换。

如果我们稍微扩大视角，广义的AIGC还包括蛋白质结构生成、环境模拟、人工智能体、虚拟人等横跨各个领域的内容生成。

在蛋白质结构生成领域，如果有从事生物行业的，可能会发现蛋白质的三维结构与其氨基酸的序列是高度相关的。什么意思呢?比如说有一个氨基酸序列，就能猜测生成的蛋白质的三维结构是什么样的。以前在没有人工智能的情况下，序列到三维结构之间存在很大的差距。很多事情都依赖于通过人工计算或经验法则来处理。过去的经验可以总结成一些例子，根据这些例子可以猜测下一个新的蛋白质的序列。

在环境模拟领域，比如元宇宙就是将现实世界完全复制到虚拟世界。比如说可以通过机器扫描每个细节和材质，或者基于人工智能体将现实世界的空间复制到虚拟世界中，这也是一种环境模拟。

AIGC能对行业做什么

以前我们采用的是专业人员生成内容的模式PGC，后面发展为UGC模式，即所有人都可以成为创作者。例如很多社交媒体小红书、抖音等，你发布一个视频，你就是博主。现在UGC的下一步是AIGC，可能不再需要人来从事这项工作，只需要让AI来完成。人类能做什么呢?我们可以提供创意，或者干脆不给创意，让AI自己去想。它现在已经能够逐渐转变为AIGC这样的模式，因为它具备高生产效率、丰富创造力和强导向性的优点。

那AIGC的出现会影响哪些行业呢?

我们第一直觉能想到的就是媒体行业，比如说我们记录一个新闻热点(iPhone 发布)，需要写一篇文章，我还需要手动打字吗?不需要。我直接告诉ChatGPT现在有个新的热点 iPhone 15 发布了，请针对这个时事做出评判。马上一分钟就给你写好1000 字的新闻稿，直接复制粘贴发送，就这么简单。

对于电商行业，比如我是一家开淘宝店卖衣服的，关于淘宝店的宣传文案、衣服照片、网站代码等都可以让 AI 来帮我做。

对于影视行业，拍电影的分镜、剧本、音乐配音、音效全部交给AI。

对于娱乐行业，比如说大家玩的游戏-原神，原神里面的这个 3D 建模直接用AI 给你做了，你都不需要这么多设计师了。

所以说AIGC 在内容生成行业的影响肯定是会波及到这些行业的。

AIGC的文本生成应用

AIGC有很大的潜力和充足的发展空间。

那下面我会以大家最熟悉的ChatGPT为例，展示它在文本生成方面的四个应用。

第一个，用通俗的语言，以小学生能听懂的口吻来解释量子物理。这体现了总结能力和角色扮演能力。你甚至可以把论文扔给ChatGPT，它就可以帮你总结和解释论文内容。

第二个，帮我用李白的口吻写一首关于生成式AI的诗，考验它的创造能力。以前我们认为AI不能创造，但现在不同了。现在它可以生成一些从无到有的东西。

第三个，如果一个人断言自己总是说谎，但告诉你他现在正在说谎，那么你可以推断他现在是说真话还是假话。考验它的逻辑推理能力。

第四个，代码能力。它能够信手拈来地编写代码，而且速度非常快。

如果你之前关注过这方面的新闻，或者你是开发人员，那么你应该知道GitHub的代码生态是个非常丰富的。因为GitHub上面有许多不同的开发者，他们将自己的代码上传到该网站，形成一个开源的生态系统，供大家相互学习。

然而，GitHub 最近推出了一个名为 GitHub Copilot 的服务。这个 Copilot 服务可以根据 GitHub 上的所有代码，帮助开发者生成文本。例如，你要写一段注释，你可以描述你想要编写的俄罗斯方块游戏，Copilot 就会为你生成一整段文本，直接在 Visual Studio 这个开发工具中帮助你生成。这样，你就不需要手动复制粘贴，也不需要跳到 ChatGPT 平台让他帮你写代码，因为这个功能已经内嵌在开发工具中，代码生成过程非常流畅。此外，如果你复制了一段代码，不知道它的用途，你可以直接复制粘贴到 ChatGPT 平台，让它帮你解释。它也能够胜任这项任务。

总而言之，文本生成、推理能力和代码能力都可以实现。

AIGC的文本生成+代码解释器应用

GPT4强大的插件生态可以让GPT实现更多可能性，使用高级数据分析插件(原代码解释器)使其根据需求直接生成代码。并且对自己生成的代码运行输出，如果遇到报错也能自行调试修改代码直至能正常运行。

比如说你现在上传一张包含文字的图片，要求把文字抽取出来。然后它能解析你的问题，立马就在一个新建的环境中帮你写一段 Python 的代码，并在它的环境中运行。然后直接帮你识别出这些文字。

文字识别也叫OCR，它最基础的用法是识别文字，但实际上它还能做很多其他的事情。意味着什么?意味着只要是能运行代码的，它都能做。比如说我上传一张七彩斑斓的图片，要求将它转换成不同的风格，并制作成一个视频。它能立即解析。你只需点击下载就可以使用了。

另外，也能做数据分析可视化。假设我有一份房价数据表格文件，我上传给ChatGPT，我告诉它根据数据，帮我预测下一个月的价格趋势。对，然后它就能解析你的意图，分析你的文件，编写并运行代码，生成表格，并进行价格预测。

生成式AI的组合应用

当然，上述所有服务均只是生成式AI最基础的应用，各应用之间也可以互相结合，以多模态的形式整合赋能千行百业。

以前的文字生成图片都是不可控的，但是现在出现了很多新技术，你可以训练一个自己的AI模型来固定这些图片中的一个元素。

过去，如果要开一家淘宝店，就得请模特、设计衣服等等各种细节，现在AI就能为你完成。我用一个线稿设计图，让AI帮我生成一张衣服的图片。然后再生成100张衣服的图片，再用这些图片训练一个自己的模型。然后用这个模型去生成模特穿衣的图片，这个模特每次穿的衣服都是我设计的，可以使用不同的姿势、光影和角度来制作这些图片。

AIGC也可以应用于智能客服。现在智能客服已经很像真人了。你只需要一张照片，就可以实现各个器官跟着文本、语音去动。

我们也可以将 ChatGPT等大模型嵌入企业的一些内部系统(例如OA 系统)，比如说员工想请假，由ChatGPT 去理解他的意图，然后去调用OA 系统，直接就可以去提交请假工单了。

刚刚提到的文本、图像、音频、视频只是冰山一角，还有许多其他可能性值得我们去挖掘。

大模型的“幻觉”现象

大家知道Transformer模型的原理其实就是单字接龙。如果大家了解 GPT-2，它是开源的。如果你了解开发，你可以自己下载一个模型，你会发现，比如我想说一句话：“今天天气真好。”然后我把“今天天气真”这五个字输入模型，它会去计算下一个字在几千、几万个中文汉字中出现的概率最高。它计算出来了，概率最高的字是“好”，所以它就把“好”这个字添加进去。所以说，它的原理并没有基于真实现实的原理，它只是根据算法计算出来的。

假设你问它一个关于天气的问题，如果你不连接任何天气系统的接口，不问气象局今天的天气如何，它就会胡说八道。因为它底层的原理就是根据算法计算出概率最高的字来生成下一个字。

所以幻觉是无法避免的，这是它的本质机制。但是在使用 GPT 的过程中，你可以采取一些措施来避免大部分的幻觉。

举个例子，你可以给它设计一个角色，告诉它只能基于我的数据源来回答问题，对于其他不知道的事情，要回答“不知道”，并附上刚刚从气象局获得的数据。这样，它就能根据真实数据来生成回答。这个过程我们称为“grounding”，可以在一定程度上减轻幻觉。所以说，幻觉是无法完全避免的，这是算法本身无法避免的特性。但是我们有办法来缓解幻觉的影响。

我今天的分享就到这里，谢谢大家。

用