一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo，DeepSeek超越ChatGPT占据App Store榜首，深度思考模式匹配学习场景| 微信小程序开发平台的优势—

当前位置:

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo，DeepSeek超越ChatGPT占据App Store榜首，深度思考模式匹配学习场景

专业小程序设计开发——助力新电商新零售

电话+V：159999-78052，欢迎咨询DeepSeek热度仅次于ChatGPT，[小程序设计与开发]，[小程序投流与推广]，[小程序后台搭建]，[小程序整套源码打包]，[为个体及小微企业助力]，[电商新零售模式]，[小程序运营推广及维护]

一、一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

1.乱宴DeepSeek-V2是DeepSeekAI公司最新推出的混合专家（MoE）语言模型，其参数量达到236B，每个token激活21B参数，支持128Ktoken的上下文长度。

2.DeepSeek-V2在训练成本、推理效率和性能方面相较上一代产品DeepSeek67B有显著提升，训练成本节省了42.5%，KV缓存减少了93.3%，最大生成吞吐量提升了5.76倍。

3.在多个基准测试中，DeepSeek-V2表现出色，包括在AlignBench基准上超过GPT-4，接近GPT-4-turbo；在MT-Bench中与LLaMA3-70B相媲美，并优于Mixtral8x22B。

4.DeepSeek-V2的定价为每百万token输入0.14美元（约1元人民币），输出0.28美元（约2元人民币，32K上下文），价格仅为GPT-4-turbo的近百分之一。

5.该模型基于Transformer架构，每个Transformer块包含一个注意力模块和一个前馈网络（FFN），同时研究团队还设计了MLA和高性能MoE架构以提升推理效率和训练成本效益。

6.研究团队构建了由8.1Ttoken组成的高质量、多源预训练语料库，数据量特别是中文数据量更大，数据质量更高。

7.DeepSeek-V2首先在完整的预训练语料库上进行预训练，然后收集150万个覆盖数学、代码、写作、推理、安全等领域的对话进行监督微调。

8.研究团队采用群组相对策略优化（GRPO）策略进一步优化模型与人类偏好的一致性。

9.DeepSeek-V2基于高效且轻量级的框架HAI-LLM进行训练，采用16-wayzero-bubblepipeline并行、8-way专家并行和ZeRO-1数据并行。

10.在评估中，DeepSeek-V2在多种英文和中文基准上表现出顶级性能，即使其激活参数仅为21B，仍能与顶级开源模型相媲美。

11.DeepSeek-V2Chat在多个评估任务中，与DeepSeek-V2Chat（RL）相比，DeepSeek-V2Chat（RL）在MT-Bench和AlpacaEval2.0上的性能显著优于Mistral8x22BInstruct和卖卜Qwen1.572BChat。

12.在中文推理和语言能力上，DeepSeek-V2Chat（SFT）和DeepSeek-V2Chat（RL）均优于GPT-4-0613、ERNIEBot4.0以及所有开源中文模型。

13.综上所述，DeepSeek-V2在训练成本、推理效率和性能上实现了显著提升，展现出在开源大模型领域强有力的竞争能力。

二、新AI模型上线:GPT-4omini与DeepSeek

集简云推出新AI模型，包括GPT-4omini与DeepSeek。

OpenAI的GPT-4omini模型具备多模态推理能力，价格大幅低于GPT3.5turbo与GPT4o，性能略低于GPT4o，但成本显著降低。集简云今日上线了此模型，支持多个产品使用。

DeepSeek的DeepSeek-V2模型参数量达到236B，每个token激活21B参数，支持128Ktoken的上下文长度，性能接近GPT-4-Turbo，价格仅为其近百分之一。DeepSeek-V2在大模型主流榜单中表现出色。

集简云现已上线DeepSeek的Chat与Coder模型，使用最新的DeepSeek-V2版本。

集简云提供多款OpenAI模型调用方式，包括免费版本、付费版本及原生版本，以及DeepSeek内置与原生应用。免费版本Token数量限制为500，付费版本无额外Token数量限制。

语聚AI是集简云推出的企业级AI应用搭建平台，支持数十种AI应用模型使用，新增模型可在语聚GPT、知识助手与对话助手等产品中应用。

DeepSeek超越ChatGPT占据AppStore榜首，深度思考模式匹配学习场景

2025-01-27 14:21·新浪财经

来源：市场资讯

来源：多知

给教育领域又提供了一种新选择。

1月27日，DeepSeek在美区苹果AppStore免费榜从昨日的第六位飚升至第一位，超越ChatGPT。同时，苹果AppStore中国区免费榜显示，DeepSeek亦站上首位。

DeepSeek“有深度思考的过程，有细腻的回答”。这给教育领域又提供了一种新选择。

近日，中国AI公司DeepSeek发布的R1模型（DeepSeekR1）刚刚第7天，热度飙升。

1月24日，在专业大模型排名Arena上，DeepSeek-R1基准测试已经升至全类别大模型第三，其中在风格控制类模型（StyleCtrl）分类中与OpenAIo1并列第一；而其竞技场得分达到1357分，略超OpenAIo1的1352分。在中国市场，DeepSeek超越了豆包。

华尔街知名风投A16Z创始人马克·安德森在社交媒体发言称，DeepSeekR1是其见过的最令人惊叹，最令人印象深刻的突破之一，并且是开源的，是给世界的礼物。

OpenAI前政策主管、Anthropic联合创始人杰克·克拉克表示，其认为DeepSeek“雇佣了一批高深莫测的奇才”，还认为中国制造的大模型“将和无人机、电动汽车一样，成为不容忽视的力量。

图灵奖得主、Meta的首席人工智能科学家杨立昆（YannLeCun）说，他认为，开源模式代码正在超越闭源模式。“DeepSeek的成功带来的最大启示是保持AI模型开源的重要性，这样每个人都能从中受益。”

DeepSeek之所以收到追捧主要归因于其高性价比、技术创新和开源特性。

DeepSeek-R1在数学、编程和推理等关键领域的表现优异，能力接近OpenAIo1，非常适合教育领域。

多知体验发现，“深度思考（R1）”这个功能非常重要，其思考过程能让学习者看到知识的关联性，引领学习者有思辨能力，从而培养自主学习的习惯，同时，其给出的解答细致入微，考虑周到。

“我们为什么能看到流星？”“太阳能为什么能发电？”“下雨后为什么能看到彩虹？”这些科学小常识轻松拿捏，点击“深度思考（R1）”按钮，会给出详细的回答过程。

以“我们为什么能看到流星？”为例，DeepSeek思考过程解释了流星的形成过程，还有为什么在特定时间才能看到，甚至还有怎么观测到流星。

一个非常简单的Prompt，就能看到它思考是方方面面的。可以说，DeepSeek使用易上手，对于小白用户很友好。回答多维度思考，甚至还给出了补充说明，答用户所问，也答用户所未想到的地方。

对于教师或者家长来说，出试卷，出作业不在话下。对于老师或家长来说，AI大模型出题效率高，节省时间，且能保障题目质量与多样性。

以三年级数学思维题目设计为例，DeepSeek给出了涉及到不同知识点的10道题目，甚至，它还思考了“几道”对于三年级来说比较合适。

再上一些难度。

多知给到了DeepSeek一道超高难度的高考真题。

多知发现，DeepSeek思考了长达4分钟，最终却无法解答，多知就此询问了资深科技老师小新老师，他说这是因为前期识别不准确，而无法正确解答。

“用大模型解题的第一步是识别，不能直接让它去解答题目，否则会出现识别错误。这是一个用户习惯的问题，图片上传一定要记住，先让它识别题目，再解答。”小新老师说。

数学、物理、化学等题目，多符号，识别容易出现问题，所以用户上传图片要多问一个步骤，先让它显示图片内容。

重新识别题目后，给出的正确答案如下：

由此看到，大模型的图片识别能力需要进一步提升。

多知又给出了一道高考真题。

DeepSeek给出了详细的思考过程，会用多种方法去思考，会反复检查，甚至还会自我纠错，最后才给出答案。

据了解，DeepSeek创始人梁文峰此前在接受媒体采访时透露，团队成员都是来自Top高校的毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人，没有什么高深莫测的奇才。

公开报道中，DeepSeek团队最大特点是名校、年轻，即使是团队Leader级别，年纪也多在35岁以下。不到140人的团队，工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，工作时间都不长。

据报道，梁文锋选人理念是“看能力，不看经验”，“选人的标准一直都是热爱和好奇心”。此前，媒体报道的“雷军千万年薪招揽95后AI天才少女”罗福莉就来自DeepSeek团队。

【WINDRISES MINIPROGRAM PROMOTION】尊享直接对接老板

电话+V： 159999-78052

专注于小程序推广配套流程服务方案。为企业及个人客户提供了高性价比的运营方案，解决小微企业和个体拓展客户的问题

发布人:13243927430 发布时间:2025-01-28