中咨视界
包英群 等 | DeepSeek现象对中咨公司推进数智化转型的启示
| |||||
| |||||
DeepSeek现象对中咨公司 推进数智化转型的启示 包英群 李晓鸣 袁云飞 摘要:DeepSeek现象对国内外相关行业产生了巨大冲击,相关话题热度持续攀升。本文结合DeepSeek现象,深入分析大模型的发展历史、底层技术机理,阐述DeepSeek的创新点及其带来的启示,进一步明确了中咨公司数字化项目在大模型应用、系统搭建和软件开发方面坚持的三大系列原则,同时提出了“信息化、数字化、数智化”的发展愿景,旨在以数智化手段赋能咨询工作,不断巩固国家高端智库的战略地位。 一、数字化项目前期工作进展和未来展望 (一)数字化项目前期进展 中咨数字化项目已取得阶段性成果,主要体现在以下几个方面: 1.基础设施方面。完成了现有机房改造及新大楼机房建设,购置了较为先进、适度超前的基础软硬件。 2.数据底座方面。建设了支持综合查询及可视化展示的中国统计库,构建了基于业务资料的可扩展知识库应用,推动管理类数据的全面融通。 3.工具和应用开发。开发了可编辑的网状图、思维导图、热力地图等工具,为供应链、产业演进、竞合等部门级应用提供支撑。 4.量化模型方面。研发了具有自主知识产权的量化模型,避免过度依赖国外软件的现象。 5.AI咨询实验室方面。开发了研究报告生成助手、制度问答助手、知识库助手、经营统计助手等系列应用。2025年春节后的第一周,在本地部署了DeepSeek-R1蒸馏的千问32B开源大模型。 (二)数字化项目的未来展望 中咨数字化项目致力于实现从“能用”到“好用”再到“智用”的转变,努力打造一个更加智能、高效、协同的工作环境,为公司的持续发展提供有力支撑,逐步实现从“信息化”到“数字化”再到“数智化”的跨越。未来建设效果主要体现在以下五个方面: 一是基础设施全面升级,助力高效运营。分批次完成机房改造建设,优化运行环境;完成全部基础软硬件上架部署,大幅提升计算能力和存储能力,构建AI算力平台;建设三级等保的网络安全体系,确保系统安全稳定。 二是构建数据中台,实现数据共享和决策加速。完成公司40余年业务资料的数字化和向量化,完成现有管理域系统历史数据的清理、整合和迁移,形成统计数据库。实现统一管理和共享数据,初步解决“信息孤岛”和“数据烟囱”问题,不断丰富数据底座;实现中咨数据融合查询与调阅,无论是公文资料、项目数据、行业数据、历史业务资料等,员工都可以通过简单搜索迅速获取,提高工作效率。 三是打造算法模型库,赋能业务创新。完成常用算法模型的双代码开发,打破国外技术依赖,搭建起自主知识产权的量化分析算法模型库。提供统计分析工具,构建个性化数据分析应用,助力项目经理使用专业量化工具产出高质量研究报告,营造“不量化不研究”的环境;输出中咨标准,提升行业话语权和影响力;利用数字化平台,开展数智咨询业务,成为公司高质量发展新的增长极。 四是打造中咨AI大脑,提升智能化水平。初步构建通、专融合的AI赋能应用体系,打造一批智能化应用场景,让AI成为每位员工的智能助手,逐渐实现数据智能归类、知识智能推荐、业务智能联动和“事情推着人走”的事件驱动业务模式,提升管理和业务工作的智能化水平。 五是全方位优化各类应用,打造个性化工作环境。基于共性支撑平台和系列工具集,充分集成和融合AI能力。打造“千人千面”工作台,依角色和场景需求,自主搭建数据看板,管理层可实时查看经营指标、业务人员聚焦项目进度,实现精准赋能;实现知识传承体系化,打造个人、部门、公司三级知识库,促进知识积累沉淀,借助智能搜索缩短人才培养周期,辅助快速开展咨询服务;灵活响应管理与业务需求,利用自定义流程引擎、自定义表单、低代码平台等共性构件和工具集自主搭建各类应用,减少系统二次开发。 二、DeepSeek现象 (一)背景情况 2023年5月,幻方量化基金创始人梁文锋投资成立人工智能企业DeepSeek。2024年5月,该公司开源发布第二代大语言模型(V2),该举措直接引发行业大模型市场价格跳水。同年12月发布的第三代模型(V3)在大模型主流评测榜单中位居前列。2025年1月20日,DeepSeek宣布推出对标GPT-o1的DeepSeek-R1模型,并同步了开源模型权重、公布了模型技术方案。同日,梁文锋出席了李强总理主持的座谈会并发言。 DeepSeek-R1发布后,引发AI大模型行业震动,欧美AI产业主要公司股票纷纷下跌,尤其是英伟达(NVIDIA)单日市值下跌近17%(约6000亿美元),创美股最高记录。2025年1月28日,前谷歌CEO埃里克・施密特表示DeepSeek的崛起是全球AI竞赛的转折点,OpenAI CEO山姆・奥特曼同期表态认可其技术路线。此后,欧美AI巨头纷纷宣布上线DeepSeek服务。 (二)DeepSeek现象分析 DeepSeek仅用了几分之一的成本做出了与GPT-o1性能接近的大模型,这一成果对全球而言无疑是一个震撼,有人称之为国运级科技成果,但随之而来的是围绕“DeepSeek是国运级成果还是抄袭造假”的讨论: 支持观点认为,DeepSeek是国运级科技成果。DeepSeek已经开源,在美国对英伟达芯片限售、基础算力不足的前提下,通过技术创新以低成本实现了接近OpenAI的效果。虽然低成本并非像网传的那样,不是550万美元对几百亿和几千亿美元的差别,但DeepSeek训练成本仅为美国人的几分之一基本属实。 反对观点认为,DeepSeek涉嫌抄袭、数据造假、数据安全。但经分析研判,对于这些指控应该不成立。一是关于抄袭指控不成立。DeepSeek论文中公布的参数量为671B,如此巨大的参数量使其难以直接抄袭现有模型。GPT-3及后续产品均为闭源,源代码不可见,无法直接复制。DeepSeek可能从OpenAI的产品中蒸馏数据用于训练,此举名义上违反了OpenAI的商业协议。然而,这更像是口水仗,例如OpenAI拥有《红楼梦》的知识,并不拥有《红楼梦》等公共知识的知识产权。二是数据造假指控不成立。DeepSeek的论文和模型已开源,科研人员可以轻松验证其低成本训练的真实性。虽然未计算数十亿元的基础设施投入、人工费等成本,但相对较低的训练成本是事实。三是数据安全指控不成立。这方面指控可能更多出于政治方面的考虑,例如华为、字节跳动此前也遭遇过同样的指控。 (三)DeepSeek现象对国内咨询行业的冲击 早在2023年,以GPT-3为代表的人工智能大模型的出现,对全球各行业带来了显著冲击。美国编剧协会甚至在纽约和洛杉矶举行了抗议游行。在大模型出现后,用户需求质量的提高和咨询效率的提升都是必然的,就像从马车到汽车的转变,从纸笔手写报告到电脑文档处理的转变,不适应新技术终将被淘汰。 三、人工智能发展历程和大模型的技术原理 (一)发展历程 从人工智能的发展来看,最初可以分为两个主要阵营:符号人工智能和以感知机为雏形的亚符号人工智能。 符号人工智能其基本假设是智能问题可以通过“符号推理”过程解决,这一理论可追溯至法国科学家帕斯卡和德国数学家莱布尼茨。帕斯卡于1642年设计并制作了世界上第一台数字计算器,而莱布尼茨完善了二进制。智能机器的概念起源于英国的查尔斯・巴贝奇和艾伦・图灵的开创性工作,尤其是图灵提出的逻辑机通用模型——图灵机,奠定了现代计算机的理论基础,并提出了评估机器是否智能的标准,即图灵测试。 亚符号人工智能其出现归功于行为主义认知理论的崛起,其思想基础是“刺激-反应理论”。美国心理学家罗森布拉特在神经元模型的基础上提出了感知机模型,奠定了神经网络的基础。 算法是计算能力和符号演算的逻辑基础。人工智能模型的训练需要训练集和验证集:训练集用于灌入海量知识,验证集则用于在已知答案的情况下让模型进行判断。如果模型输出正确,则强化奖励;如果错误,则修正模型的输出,这一过程即为调参。 面对一个未知内部构造的对象,如何推断其特征?信号处理领域已提出有效方法,其中最著名的是傅里叶变换。傅里叶提出,黑箱的输入函数与特征函数的卷积等于输出函数。傅里叶变换将复杂的积分求解转化为频域中两个函数的乘积,从而通过逆运算推算黑箱的特征函数。200年后,人工智能深度学习在傅里叶变换基础上,构建多层神经网络,参考傅里叶变换的逆运算思想求解特征函数。人工智能的核心依赖于算力和算法,对于世界究竟是什么样的,机器自己是没有真实感知的。学者们找到了一个退而求其次的路径,即通过构建“目标函数”对真实问题建模,通过机器求解特征函数。 2023年,GPT-3通过分析网络上的海量文字,预测单词间的关联,表现出令人惊叹的能力。尽管有报道称它能“直接理解”自然语言,但其实它只是通过“见多识广”快速生成文本,并不具备真正的理解能力,无法像人类一样认知复杂的语义或文化背景,也缺乏超越语言的生活常识和全人类共识。 1956年由约翰·麦卡锡联合香农、明斯基、罗彻斯特等人共同发起的达特茅斯会议是计算机科学的一个里程碑,也是人工智能发展史的重要事件。麦卡锡在会上首次提出“人工智能”概念,确立了研究目标,使其成为计算机科学中一门独立的学科。尽管当时计算机性能落后,但麦卡锡等人仍对人工智能的实现充满信心。会上,数学家主张用数学逻辑和演绎推理作为理性思维的语言,另一些人则支持通过归纳法从数据中提取统计特征并用概率处理不确定性,还有人主张从生物学和心理学中汲取灵感。这些争论持续至今,其成果的融合形成了现代人工智能技术。达特茅斯会议后,符号人工智能阵营占据主导地位。20世纪60年代初,明斯基、麦卡锡、西蒙与纽厄尔分别在麻省理工、斯坦福和卡内基梅隆创建了具有影响力的实验室,这些机构至今仍是全球人工智能研究的高地。 1969年,明斯基与同事出版了《感知机》一书,指出感知机的能力有限,但通过增加神经元“层”可显著增强其能力,从而形成多层神经网络。然而,由于缺乏通用算法和算力支持,多层神经网络的研究未能广泛展开。1971年,感知机理论的提出者罗森布拉特去世后,相关研究陷入停滞。计算能力不足曾使多层神经网络发展受阻,但硬件算力的持续进步为人工智能注入了新动力。1975年,19岁的比尔・盖茨从哈佛大学退学,与保罗・艾伦共同创立微软,正是看准了计算机硬件快速发展的潜力。2025年是摩尔定律提出60周年,硬件能力每1.5年翻一番,60年来算力提升显著。2010年后,深度学习成为人工智能主流范式,谷歌创始人拉里・佩奇和谢尔盖・布林通过“谷歌大脑”团队推动了这一技术的发展。 (二)人工智能的主要技术点 1.神经网络 神经网络是人工智能的核心技术,通过多层神经元的连接,神经网络能够捕捉复杂的模式。以手写数字识别为例,假设要识别一个28×28像素的手写数字,传统方法会先分析圈和线段的特征,比如9可以切分成一个o和一个线段,但直接从784个像素判断这些o和线段的特征跨度较大。于是,可以将圈拆分为小弧线,线段拆分为更小的线段,逐层分析。神经网络的工作原理可以分为几步:第一层处理784个像素的灰度值,第二层提取小弧线和小线段的激活度,第三层提取圈或线段的激活度,最后一层输出0-9的识别结果。一个四层神经网络的参数量约为13000个。 图1 神经网络识别示意 与传统技术不同,神经网络的中间隐藏层(如第二层和第三层)的工作机制并不完全可知,科学家们无法明确解释隐藏层如何处理信息,但通过大量训练,神经网络能够自动学习并识别模式。在训练过程中,输入已知的像素值和正确的输出结果,利用傅里叶逆变换思想求解黑箱的特征函数,这相当于大模型通过训练集和验证集进行学习。整个神经网络可以看作一个函数,其参数(权重和偏差)通过矩阵计算捕捉特定模式。大模型的基本原理也与此类似。 2.Transformer框架 传统自然语言处理技术存在梯度消失、无法支持长序列、信息衰减等问题,限制了其发展。2017年,谷歌大脑团队提出了Transformer框架,其核心是自注意力机制,能够捕捉长距离依赖关系并支持并行计算。 例如,在处理“下雨了,出门记得带雨伞”时,传统技术会因词序衰减而降低了“下雨”与“雨伞”之间的关联度,而Transformer框架通过自注意力机制记录位置信息,使相关词在向量空间中靠近,从而准确关联。此外,GPU在处理Transformer提出的并行计算这类任务时表现出色,这也是GPU在AI领域爆火的原因。 3.大模型机器学习 大模型应用分为三个环节:预训练、微调和推理。预训练方面,通过训练集赋予模型通用知识,类似于学校教育。使用的模型架构、训练数据、训练方法不同,模型能力也会有差异,这一阶段成本较高,例如OpenAI训练GPT-3的成本高达1200万美元。微调方面,在预训练基础上针对特定任务(如法律、医学)进行的进一步训练,成本一般不到预训练的10%,但微调成果难以复用至其他模型,不同模型通常需要多次微调,效果和性价比等方面还存在一定的争议。推理方面,是使用训练好的模型对新数据进行预测的过程,成本在一千万以内即可起步。 图2 大模型应用环节示意 4.RAG和向量数据库 RAG(检索增强生成)是一种结合检索和生成机制的技术,适用于需要高准确性场景。其核心是通过向量库构建私有数据库,实现基于语义和上下文的检索,而非关键词匹配。公司数字化项目中已经开发了资料向量化软件,项目经理可以将资料存入向量库,构建可扩展的个人、公开知识库。 5.算力卡和工具集 在算力服务器领域,全球主要有两个生态:英伟达和华为。英伟达的生态在全球范围内广泛采用,国内许多GPU和算力服务器厂商也以英伟达为标杆;华为的昇腾系列则因技术封锁等限制,需自主研发工具和协议,生态体系明显受到了很多制约,相对规模较小。例如,英伟达使用PyTorch、CUDA和InfiniBand,而华为则自主开发MindSpore、CANN和RoCE。 截至2023年底,中国众多企业声称自主研发的大模型数量达200余个,这一现象被称为“百模大战”。然而,多数公司仅购买算力服务器,对开源模型(如LLaMA2)进行微调或不做微调,仅开发Agent智能体,便宣称“自研国产大模型”,利用品牌口碑占领市场、寻求政策支持。斯坦福2024年报告显示,中国仅有20个基础模型,远低于美国的109个。有专家指出,所谓“自研”大模型不少是套壳。 相比之下,DeepSeek成为一股清流,其开源技术和大模型为科研人员提供了验证和重现的机会,有助于整个行业降低成本、提高效率。在OpenAI闭源、英伟达限制芯片供应、特朗普政府星门计划的背景下,DeepSeek以较小成本打造全球第二的大模型,证明“技术壁垒没有想象的那么大,钱也不一定那么花。” 四、DeepSeek的技术创新点 DeepSeek的创新点众多,主要体现在以下几个方面: 1.多头潜在注意力机制 这是一种减少计算量和压缩训练内存的机制。如图书检索,传统方法是为每本书都建立完整的索引和摘要,而DeepSeek的方法则像是建立了一个智能分类系统,先记一个简单的“标签”,需要时再从标签还原出详细信息,类似于将“计算机技术、三楼右侧第二排”简化为“C2-3”编码。 2.混合专家模式 根据任务的需要,模型会动态地激活专家子集,共享专家处理通用特征,路由专家处理特定任务,未被激活的专家不会占用计算资源。以数学问题为例,传统模式中可能整个数学内容都由同一个“数学专家”处理。在DeepSeek的混合专家模式中,共享专家会处理句子的语法结构和通用特征,不同的路由专家则分别处理方程识别、判别式计算、求根公式相关的数学特征等。 3.多Token预测机制 传统方法逐个Token预测,导致文本生成不连贯,且效率较低。DeepSeek同时预测多个Token,可以有效提升生成文本语义上的连贯性和输出的流畅度。 4.PTX连接底层GPU CUDA是英伟达的框架,而PTX是CUDA的底层指令集架构。DeepSeek通过直接编写PTX代码,显著提升了GPU的利用率和传输效率,不仅有助于减少对英伟达GPU数量的依赖,更在硬件层调度上积累了进一步推动国产GPU产业链发展的经验。 严格说,DeepSeek的创新模式,在本质上未展现出超越现有Transformer框架的原始理论,仍然只是在既有的技术体系内的深耕和打磨。但是DeepSeek的创新极具工匠精神,为全球人工智能技术的推进起到了极大的促进作用。 五、DeepSeek现象带来的启示和数字化项目推进的原则 (一)DeepSeek带来的启示 一是开源大模型不一定比闭源大模型或者商用大模型差。 二是大模型应用不一定依赖天量的、高配的算力;大模型本地化部署是具备可能性的。 三是人工智能技术迭代迅猛,数字化发展中心宁愿多花力气、以我为主、打好基础,追求将来可以灵活选择和切换,而不应绑死在某个大模型或者硬件上。 (二)中咨公司大模型应用原则 中咨公司数字化项目的大模型应用原则是:支持多种开源大模型、适配多种算力服务器、构建本地的知识库、不断丰富和扩展个人知识库、聚焦开发Agent应用和低代码平台。 在中咨公司的数字化项目建设中,数字化发展中心坚持将大模型和数据采用本地化部署策略,确保数据安全和核心竞争力。部署商用大模型部署成本高昂,且会在当前大模型技术日新月异的阶段过早锁死技术路线,因此项目最终选择了开源大模型本地化部署,并采用松耦合设计,可以灵活地选择任一大模型进行应用。目前,项目已经适配了多种开源大模型和算力服务器。这次DeepSeek现象表明,数字化项目确定的大模型使用的一系列原则是正确的。 (三)数字化项目的其他原则 按照同样的思路,数字化发展中心制定了公司数字化项目其他两个系列的原则: 1.系统搭建方面 构建由关系型数据库、图数据库和向量库等组成的大规模数据底座,构建可扩展知识库,提升知识库应用价值;建设泛构件化平台和数据中台,将应用软件工具化,研发多工具和小应用,搭建低代码或零代码平台,实现快速搭建各类应用。 2.软件开发方面 定制软件开发需掌握源代码和知识产权,软件开发需兼容国产芯片、国产数据库和国产操作系统等国产化环境,模型可迁移、可复用、可共享。 六、结束语 本项目应用大模型的路线规划:第一阶段,即当前项目处于此阶段,聚焦免费开源大模型的本地化部署,在确保数据不外流的前提下,可以辅以对接商用大模型的流量访问。第二阶段,在大模型市场竞争格局明朗后,挑选持续更新且性价比高的大模型,进行商用本地化部署,视情况开展微调工作。生成式大模型存在局限性,“生成”与“幻觉”像硬币的正反面相伴而生。开发中发现,允许发散的研究报告生成助手较易实现,但需要严格精确的制度问答助手在消除幻觉时难度大,正逐步探索解决方案。 公司数字化工作需要全体员工共同参与,积极搭建个性化应用,分享经验并提出优化建议;构建可扩展的知识库,丰富公司数据库;积极使用图谱工具和量化模型,形成“不量化不研究”的工作习惯。 数字化发展中心将继续做好技术支撑工作,以期尽早实现“人人可构建知识库,人人可开发应用”的愿景。 注:文中部分图片来源于网络,版权归原作者所有,若有侵权请联系删除。 | |||||
相关链接
- 王爽 甄霖 李文君 | 典型生态...2025-04-27
- 杨凯越 | 构建“战略和价值”二...2025-04-22
- 杨凯越 | 构建“战略和价值”二...2025-04-16
- 央视《焦点访谈》| 破壁垒 疏堵...2025-04-09
- 杨凯越 | 构建“战略和价值”二...2025-04-07