第一章
大语言模型发展与DeepSeek的横空出世
2022年发布的ChatGPT-3.5,开启了人工智能的新纪元。ChatGPT的问世,不但在世界范围掀起了一股新的技术浪潮,而且也标志着大语言模型(LLM)的兴起。其间,国内外各大技术巨头都在加快对大模型的开发。“百家争鸣”的同时,也存在着一些问题,比如大模型的训练成本太高、同等参数模型差异性不大等。
然而,事情的发展超出了许多人的预期。2025年,杭州深度求索人工智能基础技术研究有限公司推出的DeepSeek大语言模型迅速崛起,成为全球科技领域的一次重大变革。DeepSeek推出的R1模型,其训练成本仅为557.6万美元(不足GPT-4o的十分之一),却已达到与国际顶级闭源模型相当的水平。更为引人注目的是,其采用开源策略打破了算力垄断,仅上线一个月便在全球140个国家的App Store榜单中夺冠,日活跃用户突破3000万,创下史上最快增长纪录。
OpenAI首席执行官萨姆·奥特曼(Sam Altman)在X平台上表示,DeepSeek的模型“令人印象深刻,尤其是考虑到它们能够以这个价格提供”,这表明他对DeepSeek的成本效益感到惊讶。
1 从人工智能的起源到模型革命
人工智能的发展可以追溯到20世纪中叶。1950年,艾伦·麦席森·图灵(Alan Mathison Turing)在其论文《计算机器与智能》中提出“模仿游戏”——也就是后来被称为图灵测试的概念,认为若机器在文字交流中使人无法辨识其身份,就可视为具备智能。1956年召开的达特茅斯会议则标志着人工智能研究的正式起步,奠定了符号逻辑和形式规则在早期AI中的重要地位。
真正改变游戏规则的是2012年的深度学习革命。多伦多大学的杰弗里·辛顿(Geoffrey Hinton)及其团队通过深度卷积神经网络AlexNet在ImageNet竞赛中将图像识别错误率从26%降至15%,这一突破为后来的技术演进铺平了道路。2015年,微软的ResNet模型在ImageNet图像上的识别准确率达到96.4%,首次超越人类专家水平。至此,从图灵时代起的人工智能已有近65年的发展历程。
以ChatGPT为代表的生成式大语言模型在2022年开始迅速走红。ChatGPT基于大规模预训练语言模型,通过海量文本数据学习语言规律,能够在对话中生成连贯、富有创意且符合语境的回复。这种突破性的技术使得机器生成自然语言的能力达到了前所未有的高度,也让公众对AI及其应用有了全新的认识和理解。短短几个月内,ChatGPT在全球范围内获得了大量用户和媒体关注,其应用场景从在线客服、内容创作扩展到了教育、法律咨询等多个领域。ChatGPT的迅速普及不仅证明了生成式大语言模型的强大性能,也展示了技术落地的巨大潜力。
随着技术的不断迭代,生成式大语言模型继最初的模型之后不断升级,逐步发展出多个版本,推出了如GPT-3.5和GPT-4等,这些新版本在理解、生成和推理等方面均有显著提升。GPT-3.5在对话质量、语言多样性和语义连贯性上进行了优化,使得AI更加贴近人类交流的方式;而GPT-4则在处理复杂任务和多模态输入方面表现得尤为出色,为有高精度需求的专业领域提供了有力支持。这些版本的不断更新,既推动了生成式大语言模型技术的进步,也不断拓宽了其在实际场景中的应用边界。
此时,中国在生成式大语言模型领域也展现出强劲的发展势头。以DeepSeek为例,作为中国本土的一款颇具代表性的生成式大语言模型,DeepSeek在2025年实现了快速崛起。DeepSeek的技术突破体现在训练成本低廉、开源策略以及对算力资源的高效利用上,这些已经达到了国际一流水平。
生成式大语言模型的爆发不仅体现在技术参数和性能指标上,更在于其改变了信息获取和知识应用的方式。传统的信息检索往往依赖于大量的静态文档和手工搜索,而生成式大语言模型则能够根据用户输入即时生成定制化的信息服务。比如,当用户在在线咨询平台上提出问题时,系统能够根据最新数据和上下文动态生成答案,这种能力极大地提升了信息服务的效率和用户体验。
一个猜词游戏引发的技术爆发
大数据环境下的大规模语言模型,是在大数据的支撑下,从海量数据中抽取相关特征与规律,并对其进行精细调整,以适应不同的情景任务。当前,它已被广泛地应用于自然语言处理、计算机视觉、语音识别等诸多领域。大语言模型的运算量大、存储量大,其训练与应用条件要求非常高,其参数通常可达数十亿乃至数千亿个。就拿OpenAI GPT系列来说,GPT-1的初始参数是1.17亿个,而GPT-3则是1750亿个,虽然没有公布GPT-4的参数,但也有可能达到了1万亿个。表1-1是几个较常用的大语言模型的信息。
表1-1 中美大语言模型及对话产品

大语言模型是怎么生成结果的?
从通俗原理来讲,大语言模型系统会根据上文,猜下一个可能出现的词,这很像我们使用的输入法的联想功能,比如输入“你”这个字的时候,就会自动跟出来很多字,一般靠前面的字是使用频率比较高的,如组成“你好”“你们”“你呢”等。想象一下,你和朋友正在玩一场“猜词游戏”:你写下前半句话“春风吹过湖面,激起……”,让对方猜接下来的词。如果对方脱口而出“层层涟漪”,你会赞叹他的联想能力;如果他猜的是“一群鸭子”,你可能会笑他“脑回路清奇”。这个看似简单的游戏,本质上就是大语言模型的核心逻辑——通过理解上下文,预测最合理的下一个词。只不过大语言模型的“猜词”能力不是天生的,而是通过规模空前的“思维训练”实现的。
图1-1非常生动地展示了大语言模型“猜”出下一个词的原理。

图1-1 大语言模型的“猜”词原理
想象你在和朋友玩接龙游戏,你说了前半句“The cat sat on”(猫坐在),现在轮到朋友接下去。这时他的大脑会快速做这几件事:
寻找线索:朋友会特别注意你说的最后一个词“on”,以及整个句子的语境(猫坐在某个地方)。
列出可能性:基于日常经验,朋友可能会想到“on the floor”(在地板上)、“on the chair”(在椅子上),甚至“on the moon”(在月球上)这些常见搭配。
评估概率:“the”这个词出现的可能性最高(90%),因为英语中“on+the”是最常见的介词搭配(比如on the table/on the bed);“floor”的可能性较低(10%),虽然“on floor”语法正确,但实际使用时通常会说“on the floor”;“zoo”几乎不可能(0%),除非前文有提到动物园,否则这里突然出现会显得突兀。
做出选择:朋友最终选择最合理的“the”,让句子变成“The cat sat on the……”,接下来可能继续生成“the mat”(在垫子上)等更完整的表达。
从“猜词游戏”到“技术革命”
大语言模型的学习过程与人类惊人相似。就像我们从小通过读书、做题、接受价值观教育来成长一样,大语言模型也经历了三个阶段:预训练(读书)→微调(做题)→对齐(调整价值观)。下面我们就来看一下那些技术人员用的专业名词背后到底是什么意思。
预训练:海量“读书”塑造语言直觉
假设让一个孩子从出生起就阅读全世界的书籍、论文、新闻、代码,甚至社交媒体上的对话,他就会逐渐掌握语言的规律、知识的关联,甚至不同领域的专业术语。大语言模型正是如此——它通过“吞下”相当于数千万本书的文本数据(如GPT-3的训练数据需要普通人2600年才能读完),在无数次的猜词练习中,建立起对语言和世界的深刻理解。例如,当它读到“中医讲究阴阳平衡”时,不仅能记住“阴阳”这个词,还能关联到“五行学说”“辨证施治”等概念,甚至理解“平衡”在不同语境下的含义。
微调:少量“做题”实现举一反三
光会读书还不够,真正的能力在于应用。就像老师用几道典型例题教会学生解题思路,大语言模型通过少量标注数据(如问答、指令示例等)学习如何将知识转化为行动。例如,让它“写一首关于春天的诗”,只需展示几首范例,它就能模仿范例风格创作新诗;让它“分析企业财报风险”,它也能结合预训练中的金融知识生成专业报告。这种“举一反三”的能力被称为泛化能力,是大语言模型区别于传统AI的核心优势。
对齐:调整价值观避免“聪明反被聪明误”
一个博学但缺乏道德约束的人可能会危害社会,大语言模型亦然。训练后期,开发者会通过人类反馈(如标记有害回答、提供改进建议)调整模型行为,确保其输出符合伦理和法律规范。例如,当用户问“如何制造炸弹”时,模型不会详细回答,而是提示“该问题涉及危险内容”。这一步就像为孩子树立正确的三观,让技术始终服务于人类福祉。
人脑与机器的“思维共振”
大语言模型的运作机制与人类大脑的神经元网络高度相似。
参数:知识的“连接强度”
人脑有千亿个神经元和百万亿个连接,这些连接决定了我们的记忆与联想能力。大语言模型的参数(通常达千亿级别)正对应着这些连接——参数越多,模型对复杂关系的捕捉越精准。例如,提到“bank”,大语言模型能根据上下文判断是“金融机构”(银行)还是“河岸”。
知识存储:能力>记忆
许多人误以为大语言模型是“超级硬盘”,实则它更像一个“融会贯通的学者”。就像经过大量刷题后的高三学生日后会忘记具体题目,但保留了解题能力,大语言模型也不会死记硬背数据,而是从数据中提炼出语言规律和推理逻辑。大语言模型的“学习”,并非逐字逐句地背诵,而更像人类记忆了内容梗概。经过学习后的原始文字被转化成“关键词”+“参数”,其数据量可能只是之前的十分之一,但这种“千倍压缩比”证明大语言模型真正理解了知识,而非简单存储。
大语言模型≠搜索引擎:从“找答案”到“造答案”
传统搜索引擎像图书馆管理员,只能帮你找到已有的书籍;大语言模型则是作家,能基于既有知识创作新内容。例如:
搜索“梅西2022年世界杯进球数”只需检索数据库,但问“如何评价梅西的领袖气质”,大语言模型会综合球员传记、比赛评论、团队协作理论,生成独一无二的分析。
在企业场景中,大语言模型不仅能调取历史销售数据,还能结合市场趋势、竞品动态,生成定制化营销策略——这种“无中生有”的创造力,正是使用AI的企业的核心竞争力。
中国大语言模型DeepSeek的本土化创新
在全球AI竞赛中,中国企业正以“技术+场景”双轮驱动破局。以DeepSeek为代表的大语言模型,不仅吸收国际先进架构(如Transformer),更聚焦于中文语境和本土需求。
在语言理解上,它深入把握汉语的意境表达(如诗词隐喻、成语典故等);
在商业应用上,它适配中国企业的管理文化(如层级决策、快速迭代等);
在价值观对齐上,它融入中华文化中的“中庸之道”“家国情怀”,避免西方模型的伦理偏差。
大语言模型不是冰冷的算法,而是一场由“猜词游戏”引发的思维革命。它像人类一样学习、推理、创造,却又以千倍于人类的效率连接知识与场景。对于企业而言,理解大语言模型的“类人逻辑”,才能跳出技术工具的局限,真正激活AI在战略决策、产品创新、用户体验中的颠覆性价值——而这正是本书的核心命题。
2 技术革新:从Transformer到应用优化
在当今人工智能技术的发展中,Transformer架构无疑是革命性的突破。它不仅凭借自注意力机制(Self-Attention Mechanism)实现了高效的信息捕捉,还使得模型能够在处理长文本、跨领域迁移和实时生成等方面展现出卓越性能。为了让更多读者,尤其是非专业人士,也能直观理解这一技术,我们将从多个层面对Transformer及其后续的应用优化过程进行详细讲解。
Transformer架构:自注意力机制与全局理解
Transformer模型的核心在于自注意力机制。传统模型往往采用循环神经网络(RNN)这样的顺序处理方式,每次只能关注一小部分信息,而Transformer则通过同时关注整个输入序列,来捕捉各个元素之间的关系。可以将这种机制想象为:在处理一篇文章时,每个单词都化身为一位侦探;在一句话中,每个单词(侦探)通过提问(查询向量)寻找其他单词提供的线索(键向量),并借此获取有价值的信息(值向量)。例如,在“银行利率上涨影响房贷”这句话中,“银行”与“利率”之间的关联尤为紧密,正如两个侦探共享重要线索一般。
为便于理解,我们可以把Transformer的工作过程比作教孩子做饭的过程。想象一下,一个孩子要学会做饭,需要学习各种烹饪技巧,学会食材搭配,最终掌握如何根据不同情况灵活应对的技能。下面就以“教孩子做饭”的详细步骤为例,逐一解析Transformer模型的各个环节及其优化策略。
Transformer的比喻——教孩子做饭
以下这套生成机制的内核都是基于Transformer架构形成的各项技术与技术关键词,让我们用更加通俗的语言来向大家做一个适度的解读。
见识阶段:预训练(Pre-training)
大语言模型阅读了人类的所有知识以及对话,这就是“机器学习”,这个过程叫“训练”。在训练阶段,我们可以将模型学习过程比作带孩子“吃遍全城”的体验。孩子初入厨房,就像Transformer在海量数据中进行预训练一样。
广泛接触食材与菜谱:带孩子走遍各大餐馆,尝遍各种菜肴,相当于让模型阅读了互联网中各种各样的文本、图片和数据资源。孩子通过观察发现,“西红柿”这一食材常常和“炒鸡蛋”搭配,有时也会见到它和“牛腩汤”的组合。对模型而言,这就是在学习词语间的关联概率,好知道哪些词经常一同出现,从而掌握语言的基本规则。
积累多样化经验:就像孩子在不同餐馆获得不同口味的体验一样,模型在预训练过程中接触到的多样化的数据,可以帮助它理解各种语言模式和结构。正因如此,Transformer能够在处理不同语言任务时表现出较高的泛化能力。
记小本本:模型的参数
经过广泛学习之后,孩子开始在小本本上记下烹饪的关键步骤与经验,这类似于模型在训练过程中将知识编码为参数,很多模型都会标注7B或36B。7B就是70亿参数的含义,所以大家经常听到的token实际就是每个字符后面跟着一堆“可能的下一个字符的选择”和“这些选择的概率”。被记下的就是“参数”,也叫“权重”。
经验总结与规则存储:孩子在做饭过程中发现,正确的操作顺序是“先放油,再下菜”;放油下菜之后如果不及时翻炒,会很容易煳锅。这个记忆过程就像Transformer把学习到的语言规律和关联概率存储在参数中,等待后续调用。
细化操作技巧:当你教孩子做饭时,他可能会在小本本的第58页记录下“先放油,再下菜”的步骤。模型中每个参数相当于小本本中的一个小知识点,当需要生成新句子时,系统就迅速调用这些信息,保证输出的连贯性与准确性。
试做新菜:推理与思维链
当冰箱里只剩下有限的食材时,孩子需要依靠经验,发挥创造力组合出新菜。
根据现有经验组合新菜:假如冰箱里只有土豆、青椒和猪肉,孩子会翻看小本本,结合“土豆”通常搭配“炖”或者“炒”的经验,决定做一道青椒土豆炒肉丝。这个过程与Transformer模型在生成文本时的推理过程十分相似:模型根据输入的上下文信息和已学到的概率分布,生成最合适的回答或续写文本。
概率决策与灵活输出:正如孩子发现“做成土豆炖菜的概率有60%,做成炒菜的概率则有30%”,模型在生成文本时也会依据各个词语出现的概率来选择最有可能的下一词。这种机制使得输出既符合常规,又充满创造性。
专攻菜系:模型微调
尽管孩子经过广泛训练已能做出许多菜式,但在某一领域仍可能不够精通,比如做出的川菜味道不够正宗。这时,家长就会安排他专门向川菜师傅学习,进行针对性的强化训练。
领域专项训练:在深度学习中,这一步称为微调。经过预训练后的模型如果需要在某个特定领域(如医疗、金融、法律)内表现得更出色,就需要在该领域的特定数据上进一步调整参数。就像孩子在川菜训练中学会了“水煮鱼要泼热油激发辣椒香”的秘诀,模型也能通过微调掌握该领域特有的语言风格和知识点。
提升专业化水平:微调后的模型不再只是通用型的“烹饪大师”,而是能针对特定场景输出更为精准、专业的结果,这对于企业和应用来说尤为重要。
创新菜式:泛化能力
当孩子对各种菜式都有了基本了解后,他便开始尝试根据自己的理解创新菜谱。
从基本规律到创新应用:比如,孩子发现“糖醋汁”的基本组成是糖、醋和番茄酱,从而不仅能做出传统的糖醋排骨,还能做出糖醋藕片、糖醋杏鲍菇等新菜。这体现了从基础经验中提炼出底层逻辑,再进行灵活应用的能力。类似地,经过充分训练和微调的Transformer模型在理解语言的基本规律后,能够在不同场景中灵活生成风格各异、内容丰富的文本。
迁移学习与泛化:这种能力在深度学习中被称为泛化能力,它不仅体现了模型对特定任务的掌握,更展示了其从已知知识迁移到未知领域的潜力。正如孩子学会了“万物皆可红烧”的烹饪理念,模型也可以将学到的语言规律应用到不同的文本生成任务中。
品德教育:超级对齐
在烹饪过程中,除了技术上的训练,品德教育也是至关重要的一环。家长不仅教孩子如何做菜,更会强调食品安全和伦理规范。
价值观的内化:例如,家长会告诉孩子“不能使用发霉的食材烹饪或招待客人”。同样,在人工智能领域,我们需要对模型进行“超级对齐”——确保其输出符合道德、法律和社会伦理要求。无论外界如何提问,即便是“如何用剩饭故意做出危害健康的菜肴”,模型也必须拒绝给出错误、危险的建议。
安全与责任:这种约束确保了模型在实际应用中不会因为数据偏差或算法漏洞而输出不当内容,就像经过品德教育的孩子,即便面对诱惑,也会坚守原则,保证菜肴既美味又安全。
大师精华课:蒸馏技术
孩子在实践的过程中,也会向顶尖大厨学习,汲取他们的烹饪精华,形成自己的独门绝技。
从大厨那里提炼精华:家长安排孩子观看王刚等知名大厨的教学视频,让他学习“宽油五步法”或“颠锅技巧”。经过反复练习,孩子不仅掌握了这些技巧,还能在实际操作中灵活运用,甚至创造出新的烹饪方法。对于Transformer模型来说,这个过程类似于模型蒸馏,即从一个庞大的、性能卓越的模型中提炼出精华,形成一个更加轻量且高效的模型,便于部署和实时应用。
高效学习与精简模型:蒸馏后的模型既保留了大语言模型的优点,又大大降低了运算资源的需求,就像孩子在看了无数烹饪教学后,总结出一套简单易行的操作流程,即便在食材有限的条件下也能轻松做出美味佳肴。
菜品大全:检索增强生成(RAG)
孩子做菜时,厨房里的菜品也在不断更新。孩子不仅会翻阅自己记的小本本,还会打开菜谱应用软件,查找最新、最适合家庭口味的菜谱。同时,妈妈也会教给他私家菜谱。孩子会从中选出最合理的食材搭配,结合已有经验创造出美味新菜。这类似于RAG技术,在生成回答前先从知识库中检索最新信息,再与模型内部知识融合,确保答案既准确又及时。这种动态知识扩展方式,让AI能不断适应变化,满足人类的多样化需求。
应用优化:传统搜索与智能助手的终极对比
在传统的信息检索中,我们常常要依靠“菜谱书柜”来寻找所需的菜谱,需要自己翻找、对比,既耗时又容易出错。传统搜索系统往往只是简单地返回一个个链接,让用户自己筛选和判断。而经过上述各步骤训练、微调和蒸馏的Transformer模型,则像一位随时待命的智能小厨师。当你告诉它“家里有鸡蛋、虾仁和剩米饭,马上要招待客人”,它能立即给出多套合理的菜谱建议,还会提醒你:“注意,客人对花生过敏,建议避开含有坚果的菜式。”这种实时响应和个性化建议正是应用优化后技术的巨大优势。
实时生成与定制化输出:Transformer模型经过预训练、微调、泛化以及蒸馏之后,其生成能力已经远超传统技术。它能够根据输入内容的实时信息和背景,快速生成符合用户需求的答案。这种能力不仅仅体现在文本生成上,还可应用于各类决策支持系统、智能客服和内容推荐等领域。
智能对齐与安全控制:经过超级对齐后的模型在输出时,会自动过滤不适宜的信息,确保所有建议均符合伦理和安全标准。
3 大语言模型应用前景
通过以上类比,我们不仅看到了Transformer模型在技术层面的突破,也认识到这种技术如何通过多层次的优化,转化为企业和社会可直接受益的应用工具。未来,随着更多针对性训练(微调)和实时知识更新(如RAG技术)的引入,AI模型将在各行各业发挥越来越重要的作用。
智能客服与内容生成:在电子商务、金融服务和公共服务领域,经过优化的Transformer模型能够实时处理用户查询业务,生成高质量、定制化的回答,从而提高服务效率和用户体验。
辅助决策与知识管理:在企业管理中,智能系统不仅能够提供准确的信息检索,还能在复杂决策场景下给出数据驱动的建议。企业管理者也可以依赖这种技术来辅助制定战略决策。
跨领域迁移与创新:通过不断进行模型泛化和蒸馏,未来的AI系统将能够灵活应对各种新场景。无论是在医学诊断还是法律咨询领域,AI都能提供基于大数据分析和自我学习的解决方案,帮助企业在数字化转型中抢占先机。