LLM是什么？跟AI的关联为何？大型语言模型要面对什么挑战？一文看懂

▼

你知道LLM（Large Language Model,大型语言模型）是什么吗？LLM是一种深度学习模型，透过吸收海量的文本数据学习知识。它能从大量的文章、影音、书籍中学习单词和句子之间的关系，然后回答问题、翻译、生成文本。除了作为聊天机器人，它也被广泛运用在医疗、开发软件和服务业，经常出现在日常生活中。想知道它的运作原理、优点与挑战和其他实际应用？一起来看看这篇文章吧！

LLM（大型语言模型）是什么？

大型语言模型（Large Language Model, LLM）是一种深度学习模型，具有超过 1,000 亿个参数的自然语言处理（natural language processing，NLP）系统，经过大量的文本训练，告诉它已存在的现象，像是新闻、书籍、影音等，使其拥有从海量的知识中识别、汇总、翻译、预测、生成文字和其他内容的能力。简单来说，它就是个记忆吐司，能吸收海量的知识，然后回答问题、生成文本、翻译语言等。例如为产品描述生成文本、回答常见的问题（FAQ）、分析来自社交媒体和产品评论的客户反馈。

而 LLM中的“大”是指模型在学习时可以自主更改参数的数量，参数越大代表模型的知识越丰富，能做到的事情也越多 。令人开心的是，它的知识范围并不仅限于人类语言，还包括生物学语言（例如蛋白质、分子序列）、计算机语言（程式码）等知识，因此被广泛地运用在医疗保健、软件开发、自然科学等领域。

LLM 如何运作？用途是什么？

大型语言模型的工作原理是获取大量的文本数据，从中学习单词和句子之间的关系，训练完毕后可用来分析现有文字的情感与意义或生成新的文本。而且随着人工智慧的发展，模型能消化的数据集也越来越大，如此大量的文本使用无监督学习输入人工智慧演算法进行训练，当它被给予一个数据集而没有明确的指令要如何处理它时，模型会自己学习单词以及单词和语句之间的关系与背后的概念。

它就像掌握一门语言的知识人，可以猜测句子和段落接下来会发生什么，甚至想出新的单词和概念。例如它可以学会根据上下文判断“感冒”究竟是指身体上的不舒服，还是对某人感到排斥，又或者你和它说“今天心情不好”，它可能会关心你是不是遇到不顺心的事情或身体不舒服等等。此外，大型语言模型也可以针对特定用例进行定制，通过微调或提示调整等技术，向模型提供少量数据以针对特定应用程式进行训练。

LLM是一种深度学习模型，它能从大量的文章、影音、书籍中学习单词和句子之间的关系，然后回答问题、翻译、生成文本。

图／ Shutterstock

LLM 是怎么训练的？

大多数LLM都是在一个大型的、未经过标记的数据集上进行预先训练（Pre-Training），之后会再根据不同需求判断是否需要进行微调（Fine-Tuning），这时会加入少量的、以标记的数据集。训练过程包括：

处理文字数据，将其转换为可用于模型中的数位表示形式
随机分配模型的参数
将文本数据的数位表示形式传送至模型中
使用损失函数来测量模型的输出与句子中实际的下一个单词之间的差异
优化模型的参数以最大程度地减少损失
重复该过程，直到模型的输出达到可接受的精度级别

大型语言模型可以应用于不同种类的语言或场景，这不仅扩大了人工智慧的覆盖范围，也有望实现新一波的研究、创造力和生产力，因为它们可以为棘手的问题生成复杂的解决方案。例如，让模型从分子和蛋白质结构资料库中学习，然后利用这些知识提供可行的化合物，帮助科学家开发突破性的疫苗或治疗方法；或是，信用卡公司使用LLM 进行异常检测和欺诈分析，保护消费者。

LLM 为何刮起风潮？

大型语言模型的初衷其实源自于2010年的机器学习，因为机器本身无法思考、也无法吸收世界上所有的知识，因此科学家们退而求其次，先教会机器识字后，告诉它大量的现象，让它自行判断。幸运的事，机器找出了自己的规律、然后学习，这让人工智慧有了大幅度的进步。后来从机器学习中发展出“深度学习”，让电脑更好地从海量的资料中发展出可应用的模型，2014年的AlphaGo 就是一个经典例子。之后也陆续出现其他的深度学习模型，而其中拥有大量资料与参数的语言模型就是LLM。

AlphaGo Lee（左）与李世乭（右）对弈转播画面。

图／ gogameguru.com

随着大型语言模型的发展历程，2019年Google推出的BERT语言模型与OpenAI推出的GPT语言模型都被证实具备相当的知识与能力，2020年OpenAI发布的GPT-3可以透过简短的书面提示生成文字和程式码，2021年NVIDIA和微软开发了MT-NLP，可以简化摘要和内容生成等任务，2022年HuggingFace推出了能够以46种自然语言和十几种程式设计语言生成文字的开放大型语言模型BLOOM，2023年风靡全球的ChatGPT，可以看出LLM的复杂度与规模都逐渐增加。过去几年LLM皆以每年10倍的速度快速成长，它已成为人工智慧发展不可或缺的关键。

大型语言模型的优点与挑战

大型语言模型除了能了解单词和语句之间的复杂关系，从而生出新的文字，也有助于创建重新设计的搜寻引擎、辅导聊天机器人、歌曲、诗歌、故事和行销材料的创作工具。除此之外，它还具备许多优点，介绍如下：

1. 增加可用性、个人化和顾客满意度： 许多客户希望服务不受时间限制，可以全天候使用，LLM 的聊天机器人和虚拟助手正好可以满足这项需求。通过自动化内容创建，语言模型可以通过处理大量数据来了解客户行为和偏好，从而推动个人化。客户满意度将随着可用性和个人化服务而增加。

2. 节省时间： 行销、销售、人力资源和客户服务中的许多流程都可以使用LLM 来执行，使员工将精力花费在更重要的事情上。例如，欺诈检测、数据输入、客户服务和文档创建等。此外，语言模型分析大量数据的能力可以帮助企业从复杂的数据集中快速提取重要资讯，提高营运效率。

3. 提高任务准确性： LLM 能够处理大量数据，进而提高预测和分类的准确性。例如，在情绪分析中，大型语言模型可以分析数千条客户评论，以了解其背后的情绪，从而提高确定客户评论是正面、负面还是中立的准确性。这项能力在业务应用程式中特别重要，因为小错误可能会产生重大影响。

然而除了上述的优点，大型语言模型其实也存在不少挑战。建构基础模型通常需要花费数月的培训时间和数百万美元，后续地扩展与维护同样需要大量的资金。而且LLM除了大量的计算能力外，对深度学习、转换器模型和分散式软件与硬件也需要有深刻理解，如何获得足够的训练数据也相当具有挑战。这个领域具备结实的科技保护伞，进入难度高。

在实际运用上，因为模型的知识范围仅限于所训练的文字数据，因此它们对世界的理解有限。 而且当训练数据集没有被检查和标记时，语言模型已被证明会做出种族主义或性别歧视的评论。 在某些情况下，还会提供虚假资讯。例如，微软曾推出一款Twitter聊天机器人Tay，是一款使用公共数据的人工智慧，和它聊天的次数越多它会变得越聪明。然而，Tay在Twitter上发布不到24小时就被各种厌恶女性、种族主义的言论污染，将女权主义称为邪教和癌症，并将性别平等与女权主义画上等号。

LLM 的应用

大型语言模型适用于各种产业，正以搜寻引擎、自然语言处理、医疗保健、机器人和代码生成等领域开创新的可能性。

ChatGPT AI聊天机器人，背后的运作原理就是LLM的一个应用，可以用于无数的自然语言处理，它在几秒内就能生成一篇精美文章的能力令人惊叹。Meta于2023年2月25日推出的LLaMA 也是LLM的应用之一。Meta形容它是一个更小、性能更好的模型，能协助研究人员工作。联发科也在2月公开释出以开源语言模型BLOOM开发的繁体中文大型语言模型，可应用于问答系统、文字编修、广告文案生成、华语教学、客服系统等。

除此之外，在我们的生活中其实就存在许多LLM的应用，像是手机的AI客服等都是透过聊天机器人和人工智慧来提升客户的产品体验；行销人员透过训练模型，让它帮忙根据产品描述将产品分类；开发人员也能利用它编写软件。宛如超级大脑的大型语言模型，每年持续升级，具备越来越多功能，带动人工智慧也不断进步，期待它未来能解决更多复杂的问题，并为生活带来更多的便利。

本文授权转载自：马克解读金融科技

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI ChatGPT OpenAI