9366,人工智能

9366,人工智能

9365,盐湖股份,新

25年8月看,现在的股息PB2.7, PE21,没有股息率,不贵也不便宜,,,,,,,,,,,,一季报业绩如下,EPS0.22,一年乐观估计1元,现价19元,PE19倍。公司的成长率不一定有9%,所以说估值不便宜。,,,,,,,,,,,五矿集团成为新的大股东,和工银金融成为一致行动人,占比30%,,,,,,,,,,,,,,,

9366,人工智能,新

-

25年8月看,追溯光模块上游,其在垂直细分领域光芯片、MPO、光纤等方面已经构筑了技术护城河。其卡位优势的本质在于,海外头部客户出于安全性、稳定性及产品一致性的考虑,与核心供应商深度生态协同,使得新进入者面临技术专利封锁、客户验证周期及产能规模等多种壁垒,最终强化“强者恒强”的马太效应。这里面的典型是仕佳光子等数家企业。,,,,,,,,,,,,美国数据中心的耗电量已达历史新高,占全国总用电需求的5%,主要受数字化与人工智能快速普及推动,,,,,,,,,,,,,,麦肯锡预计,这一比例在未来5年将翻倍,而到2030年,新增用电需求的40%或将来自数据中心。整体而言,数据中心的用电需求预计至2030年将以年均23%的复合增速攀升。能源供应或将成为AI发展的最大限制因素。,,,,,,,,,,,,deepseek R1计算技能慢,该升级了,结果deepseek昨晚官宣了v3.1版本。官方介绍这是一个混合架构模型,不是R2或者纯推理模型。,,,,,,,,,,,,继年初之后deepseek又一次点爆了a股,,,,,,,,,,,,

-

25年8月看,这位被誉为"AI教母"的科学家指出了当前人工智能的根本局限:语言并非对3D物理世界的有效编码。"如果你观察人类智能,很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。",,,,,,,,,,,,,,空间智能是比语言智能更加基础和高效的认知形式。,,,,,,,,,,,,,,,语言大模型同样凭“大数据直觉”学习,但它的“感觉”停留在符号层--通过词序列共现概率捕捉语义,却不知道桌子背后的形状。世界模型则用多视角感知重建三维场景,预测遮挡、重力与运动轨迹,可直接驱动机器人抓取、导航。它们都通过模式学习而非显式规则获得能力,但训练目标迥异:语言大模型预测下一个 token,核心是语言统计;世界模型预测下一帧世界状态,核心是几何与动力学。前者擅长理解指令并生成文本,后者长于物理推理和交互,,,,,,,,,,,,,,,,,,语言大模型像是只读了无数旅行攻略、凭记忆讲故事的“语言智者”;世界模型则是亲自踏勘地形、手脚并用的“行动专家”。,,,,,,,,,,,,,,,,在AI领域有一个“莫拉维克悖论”:对计算机而言,需要高级推理、被视为人类智慧巅峰的任务(如下棋、解数学题)相对容易实现;而对一个几岁孩童来说都轻而易举的感知和运动技能(如识别面孔、走路、抓取物体),却极难编程。,,,,,,,,,,,,,,,,,任何与世界深度共振的心灵,无论其载体是碳还是硅,都可能触及智慧的真谛。,,,,,,,,,,,,,,现在宇树机器人单个价格已经从10万元每台大幅下降到3.99万每台。导致其人形机器人价格大幅下降的原因在于关键部件的价格大幅下降,具备了部分普及的条件。这从另一个侧面表明人形机器人各零部件厂商开始出现了降价竞争,很可能局部已经出现了产能的过剩。而在商业化应用方面,目前大致只是在仓储物流运输、铁路安全巡检、海事监管及海运、工业领域重复性产品制造、餐饮酒店少数服务业以及军事方面产生应用场景,至于大众广泛触及的家政服务、公共服务、特种应用(如危化品作业、辐射区作业、深水及地下作业等)等领域,现在普及起来仍有距离。尽管经过降价,普通居民户仍难于购买,且家政服务智能化场景是不是能够覆盖大众各种各样的非标需要,是很难智能化的。而且这里面还存在伦理问题、法制问题。,,,,,,,,,,,,,网传英伟达和鸿海开发的人形机器人将会在11月面世,工业富联受刺激涨停,股价创历史新高。昨天有人问人形机器人的意义到底是什么,如果是工业用途的话很明显应该弄工业机器人效率更高,不一定非得要人形。我后来想了一下,把机器人做成人类形状,终极目的不是工业用途,而是为了更好的和人类交互。但机器人目前的物理性能和ai性能又太弱,所以短期内不具备和人类交互的能力。除非人形机器人的综合行动力达到人类的50%以上,这在5年内看起来不太可能。

-

25年7月看,两个重要的论据,一个是API调用量半年增长5倍,另一个是Open AI大模型年化收入突破百亿美金,而且近半年增长了近1倍,,,,,,,,,,,,,,,,Agent象征软件从“工具”到“数字劳动力”的范式转移,软件不再是单纯的“开支”而是“投资”,软件厂商的潜在市场规模从企业的 IT 预算扩展到真人劳动力市场,实现大幅跃迁,对应商业模式的转变。,,,,,,,,,,,,,,,,,,,热议的kimi开源模型,也是agent方面取得了长足的进步,各家厂商都瞄准了下半年,准备打一个爆品出来。,,,,,,,,,,,,,,,,,2025年将是AI Agent元年,也是软件大革命的起点,Agent或成为软件价值重估的重要催化剂。,,,,,,,,,,,,,,,,,,,互联网大厂的q2 capex不及预期,也是部分因为买不到卡,这导致了国内云计算和IDC产业链的弱势行情。,,,,,,,,,,,,,,,,,,,一旦H20放开,大厂能买到卡了,必将重启IDC建设计划。,,,,,,,,,,,,,,,,,,AI如果是房地产,云计算就是钢筋水泥。,,,,,,,,,,,,,,,,,,杭州移动采购了一批人形机器人,供应商是智元和宇树。或许很多人还没意识到它的重要性,此次采购金额较大,远超普遍百万级中标项目。1.2亿的采购金额,在大央企内部是需要层层过会,论证可行性的,,,,,,,,,,,,,,,,,,,,,

-

25年6月看,算力租赁龙头Coreweave 1个多月涨了4倍,博通新高,英伟达接近前高,一派欣欣向荣。,,,,,,,,,,,,,,,Anthropic去年底年化收入10亿美金,最新30亿美金,今年底指引则是100亿美金。是的,一年10x的收入增速,而且是建立在10亿美金的基础之上,这就是大模型的威力,远超互联网。,,,,,,,,,,,,,,,,,几个月后,GPT-4发布,上下文窗口暴增至32K tokens,录制时长问题不攻自破。,,,,,,,,,,,,,,经贸磋商会议,据说在算力租赁上达成了共识。会推进以租代售,而且会统一通过几家算力租赁公司走货,也就是说市场份额会走向集中。,,,,,,,,,,,国内两家也马上要推出新品了,R2标配B200,阿里内部砸了超多资源在Qwen的新模型。,,,,,,,,,,,,,,,,,AI时代到了,只有中美两个玩家,因为其他玩家在移动互联网时代,已经掉队了,特别是欧洲,基本上在移动互联网时代,被美国吊打,现在已经来不及了。欧洲心里记着呢?欧洲如果没有什么想法,就不会搞欧盟了。

-

25年5月看,美国签署行政命令推动核能产业改革,原因是ai行业对电量的需求剧增,他们打算2030年之前建10座大型核反应堆,2050年核能发电增长400%。美股核电板块暴涨,联动a股这边的核能板块今天大涨5%,两市第一。国内这边在建的可控核聚变实验堆总投资超600亿,所以有一些零部件的订单需求。,,,,,,,,,,,,,,

-

25年4月看,无论是互联网还是AI,世界仅剩中美两个玩家。如果我们看研发投入,中美两国遥遥领先,,,,,,,,,,,,,,,全球资金的共识,都在往AI应用领域汇聚。去年9月开始,华尔街硬切软,palantir、salesforce开启了凌厉的涨幅。今年1月爆火的deepseek,则代表着东方AI应用的元年正式到来。,,,,,,,,,昆仑万维在海外互联网领域积累的运营经验,终于在AI时代迎来了回报,它成为了海外AI收入最大的中国企业,没有之一。,,,,,,,,,,,,,,,截至2025年3月底,昆仑万维的AI应用年化收入已经达到了1.4亿美金,也就是OpenAI的1/30,A股排名第一。,,,,,,,,,,,,OpenAI最新一轮的估值是3000亿美金,这么折算的话,昆仑万维的AI板块估值应该是100亿美金,而目前上市公司市值才50多亿美金,即使其他业务白送,也被低估了。,,,,,,,,,,详细看昆仑万维1.4亿美金AI年化收入的构成:AI短剧平台DramaWave 1.2亿美金,AI音乐Mureka和社交linky都是1000w美金左右,这都是真正的原生应用,不是加个AI噱头的传统产品。,,,,,,,,昆仑万维的非AI业务也还是不错的,Opera浏览器的收入利润一直在涨,2024 年 及 2025Q1 其营收同比增长 21.1%、40.1%。海外社交网络业务(Starmaker)营收 10.83 亿元,yoy+11.2%。出海互联网业务的估值不会给很低,毕竟有想象空间在,按照5~10倍PS算,这两块也值200~400亿市值了。,,,,,,,,,,,,,,,,昆仑万维,创始人周亚辉是清华大学精密仪器系硕士,董事长方汉是中科院物理所出身,旗下芯片公司董事长蒋毅敏是清华大学企业家协会(TEEC)半导体行业分会会长,,自2023年All in AI以来,昆仑万维持续加大研发投入,其中2023年-2025年1季度合计投入研发费用近30亿元,占这期间营收的比例超过20%,,,,,,,,,,,,

-

25年4月看,生成一张吉卜力风格图片,需要处理3000-5000个Token,渲染时间长达1分钟,对应算力成本约0.5u(单位算力),是普通文字对话的50倍以上;,,,,,,,,,,,,,,,,针对视频的Sora更是推理算力的消耗大户,Sora生成20秒的1080p内容需要约1小时计算时间,消耗的算力相当于ChatGPT生成1000字文本的400倍。,,,,,,,,,,,,,,,当研发科学家获得AI辅助时,其专利申请量增加了39%,并由此催生了17%的产品创新增长,其中很多属于根本性创新——比如新型化学结构的发现。,,,,,,,,,,,,,,,,,AI并不是一种“平权”的工具。只有深度思考者,才是AI的真正受益者。,,,,,,,,,,,,,,,,,

-

25年3月看,在AI领域,我们很可能已经进入到pk烧钱的阶段,不是公司之间的小打小闹,而是国与国之间的长期竞争。,,,,,,,,,,,,,,,,根据美国麦克罗波洛智库发布的《全球人工智能人才追踪调查报告》,美国顶级AI人才中,华人的比例高达75%,而且这一比例还在不断提升。斯坦福的李飞飞,英伟达的黄仁勋,AMD的苏姿丰,台积电的张忠谋,,,,,,,,,,,,,,,,,,,,,,,manus就更进了一步,它有自主分解任务,然后逐步操作实现的能力。它更像一个有思考能力的打工人,在接到你的需求后,会思考会分解,会搜索会学习,最后还会调用不同工具去实现,这就比之前的智能聊天模型又往前推进了一步,所以才引起了舆情的高度关注。,,,,,,,,,,,,,,,,,,,,,,做manus的是一个武汉公司,创始人肖弘1992年,华科毕业的,,,,,,,,,,,,,,,,,,阿里发布开源推理模型QwQ-32B,亮点是支持消费级显卡本地部署。说人话就是使用门槛低,咱老百姓家里买的电脑也可以部署这个模型。它在数学、代码和通用能力上和deepseek-r1模型不相上下,,,,,,,,,,,,,,,,,这一波deepseek杀出来后,只有阿里的团队还能跟得上节奏,另外几家大厂都已经主动点外卖了。,,,,,,,,,,,,,,,,,,,,,,中美,乃至全球科技博弈的点就是以人工智能为核心的硬件(芯片)和大模型(软件),互联网已经是老的商业模式了,只有注入AI因素后才能重唤青春。,,,,,,,,,,,,,,,,,,,,,,,亚特兰大联储的GDPNow模型预测美国一季度年化季率为-2.4%,而市场普遍预计美国一季度GDP增速在2%左右,,,,,,,,,,,,,,,,,,,,,,,当DeepSeek以开源架构实现GPT-4级别性能且训练成本仅2%的消息震动业界时,硅谷的AI神坛已然出现裂痕,,,,,,,,,,,,,,,,,,,,目前DeepSeek也是全球第二大AI大模型APP了。,,,,,,,,,,,,,,,,OpenAI的GPT-4以每月20美元订阅费收割用户时,中国开发者的开源模型构已经建起覆盖176个国家的免费开发者网络,,,,,,,,,,,,,,,全球83%的新兴AI项目基于中国开源框架开发,,,,,,,,,,,,,,,,Meta被迫开源Llama2后,其AI部门估值反而飙升37%,,,,,,,,,,,,,,,,

-

25年2月看,DeepSeek发布了开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。,,,,,,,,,,,,,,,,,,,,,,1月27日,由国产大模型公司深度求索开发的移动应用DeepSeek超越ChatGPT登顶苹果美国区免费应用榜单。同日,苹果中国区应用商店的免费榜也显示,DeepSeek为榜单第一,,,,,,,,,,,,,,,,,,,,,2024年1—8月,微软、Meta、谷歌、亚马逊总计向AI数据中心投入1250亿美元,包括AI资本支出、总数据中心运营成本、现金运营费用、软件、折旧和电费也纳入统计。预计2024年美国四大科技巨头全年投入约2180亿美元,,,,,,,,,,,,,,,,,,DeepSeek团队成员超过一半为95后,90后占比超过75%,,,,,,,,,,,,,,,,,,,,,,,,,美国从事芯片研发的人员中,近60%为华人,,,,,,,,,,,,,,,,,,,,,,通义千问团队最新发布Qwen2.5-Max超大规模MoE模型,预训练数据就超20万亿Tokens。在多项主流评测中全面碾压国际顶级开源模型,将Llama-3.1-405B和DeepSeek V3甩在身后,,,,,,,,,,,,,,,,,,,,,,,,,公式:我要XXX,要给XX用,希望达到 XXX 效果,但担心 XX 问题,,,,,,,,,,,,,,,,,,,,据传DeepSeek V3约600万美元左右成本,,,,,,,,,,,,,,,,,,,,,,DeepSeek-R1的最大亮点在于其训练方法,首次完全通过强化学习(RL)训练大型语言模型,无需依赖监督微调(SFT)或人工标注数据,,,,,,,,,,,,,,,,,,,,,,,人工智能虽然复杂,却不是复杂系统,不存在涌现和自组织现象。,,,,,,,,,,,,,,,,,,,,,,,DeepSeek的员工规模不及OpenAI的1/5,百人左右的公司,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人,,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek是罕见的尚未首轮融资,还以更低成本追平OpenAI的大模型企业,,,,,,,,,,,,,,,,,,,,,,OPENAI估值都上2000亿美元了。DeepSeek估100亿美元到200亿美元应该不难吧。,,,,,,,,,,,,,,,,,,,DeepSeek用户突破2000万,这速度远超当初的CHATGPT。目前CHATGPT有4亿用户,豆包有1亿用户,,,,,,,,,,,,,,,,,,,,,华为海思最新昇腾910芯片,性能参数也只是英伟达H100的1/4,更和最新的B200有20倍的性能差,,,,,,,,,,,,,,,,,,,,,,,,英伟达、亚马逊和微软等公司已上线部署支持用户访问DeepSeek-R1模型,,,,,,,,,,,,,,,,,,,,,,,,deepseek代表大模型就不赘述了,成本是美国同行的1/20,关键它还是开源的。,,,,,,,,,,,,,,,,,,,,AI科学之上的基本常识 - 算法、算力、数据的Scaling Law是核心,三者缺一不可,,,,,,,,,,,,,,,,,,,,,,,Deepseek的厉害之处就在于它用Fp8,也就是8位二进制数值的浮点计算能力,解决了国外Fp32运算能力所能实现的工作,让硅谷高傲的精英模型突然变成了拼多多,让更多普通大众能够用的起Ai,,,,,,,,,,,,,,,,,,,,,,,,,一些公司还采用了混合专家模式和多头注意力机制,进一步优化了推理过程,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek的推理调用成本仅为OpenAI的三十分之一,约2.2美元/百万语料 vs. 60美元,大幅降低了大模型的应用门槛,推动AI技术进入“全球普及”,,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek下载过亿的时间仅为7天,,,,,,,,,,,,,,,,,,,,,,,DeepSeek选择开源模式,允许全球开发者参与优化和迭代,形成开放生态,,,,,,,,,,,,,,,,,,,,,,美国将DeepSeek的崛起类比1957年苏联发射首颗人造卫星的冲击,认为这是对其科技霸权的根本威胁。美国参议院和智库频繁提及“斯普特尼克时刻”,,,,,,,,,,,,,,,,,,,,,,deepseek可以下载部署的个人电脑和手机里,虽然性能要差一些,但胜在便捷好用。一旦ai模型可以自定义模块化安装,它才会全面渗透进我们日常生活的各个细节。,,,,,,,,,,,,,,,,,,,,,,,deepseek改善了国际资金对中国科技公司的看法,,,,,,,,,,,,,,,,,,,,,,,三大电信运营商要全面接入deepseek开源大模型,,,,,,,,,,,,,,,,,,,部署在个人电脑里可不是便捷好用,5080级别的算力每秒输出4个token,也就是说每秒大约输出4个汉字,按照deepseek的话痨输出,一个问题在单机上要3-5分钟才能回答,,,,,,,,,,,,,,,,,,,,,,,,,现在完全可以逆向工程,用deepseek来改进自己的投研系统。,,,,,,,,,,,,,,,,,,,,deepseek可以把600多B的全量模型蒸馏到1.5B,从而实现轻松部署,,,,,,,,,,,,,,,,月10日豆包团队与北京交通大学、中国科学技术大学联合提出VideoWorld模型。VideoWorld在业界首次实现无需依赖语言模型,即可认知世界,,,,,,,,,,,,,,,,,,,,,纯AI策略的价值基金超额收益率为-2.3%,恰似给技术乐观主义者的清醒剂。,,,,,,,,,,,,,,,,,,微信接入DeepSeek R1,,,,,,,,,,,,,,,,,,AGI的标准是可以完成80%以上人类能力,,,,,,,,,,,,,,,,,,,全球GDP的大约50%是就业者的工资,包括智力或脑力劳动以及体力劳动。,,,,,,,,,,,,,,,,,,,,,,DS通过指数级的降本和开源,完成了AI模型的平权。,,,,,,,,,,,,,,,,,,,Grok3成本巨高,一共买了10万张H100卡进行训练,单卡价格4万美元,训练成本就花费了40亿美元。相比之下,DeepSeeK只用了2000张显卡,训练成本不到2亿美元。,,,,,,,,,,,,,,,,,Grok3跑出了1402分,GPT-4o是1377分,DeepSeek-R1是1361分,性能跑分确实是第一名,但领先的并不多,,,,,,,,,,,,,,,,,,,Grok3是闭源的,没有想DS那样开源,,,,,,,,,,,,,,,,,,,,kimi之前融资110亿,花了不少钱在打广告上,现在DS火了后,kimi开始减少这方面投入,,,,,,,,,,,,,,,,,,,,,深圳福田70名“AI公务员”上岗,窗口服务、材料撰写、会议纪要等机械性工作瞬间被接管,民众办事效率飙升,,,,,,,,,,,,,,,,,,,重庆、杭州等地,公务员已借DeepSeek建立本地数据库,将政策文件、案例经验转化为AI的“养料”,实现材料生成、合规审查的秒级响应,,,,,,,,,,,,,,,,,,,,,,,,,,美国四年5000亿美元星际之门计划,欧盟2000亿欧元的AI Bet计划,各国都加码AI投资,,,,,,,,,,,,,,,,,,,,,消息称deepseek计划在5月份推出R2模型,,,,,,,,,,,,,,,,,,,,DeepSeek虽然能产生一定的推理能力,但是它并不具备真正意义上的创造观点的能力。它只能把网络上现有的观点和文字加以组合加工。它评价对错的标准是根据内容出现的频度,而非正确与否。没有专家系统监督学习的结果就是对于普适性的知识,大模型是可以反馈正确答案的。但是,对于真理掌握在少数人手中的领域,大模型就有些水土不服了,,,,,,,,,,,,,,,,,,,,,DeepSeek在投资领域是在制造更多的垃圾信息,反而让有价值的信息淹没在垃圾中。,,,,,,,,,,,,,,,,,

-

25年1月看,盘古大模型已经占中国市场30%,,,,,,,,,,,,,,,,,,,,,国产大模型DeepSeek-V3性能匹敌 Openai最先进的GPT-4o,训练成本仅556万美元 ,是美国相关模型的百分之一不到,,,,,,,,,,,,,,,,,,,,,,微软,25年1079亿美金的capex,同比79%增速。字节,25年1600亿capex,同比100%增速。阿里,收缩战线回收现金,全投到了AI,24年Q3的capex 175亿,同比增速高达240%。,,,,,,,,,,,,,,,,,,,,,,,,,特朗普宣布5000亿美元投入到AI基础领域,openai和甲骨文正在计划成立一家名为“星际之门”的合资企业。这个公司主要建设数据中心,预期为美国提供100000就业岗位,,,,,,,,,,,,,,,,,,,,,,,,,国内著名量化私募幻方老板投资的deepseek推出了开源的R1模型,结果在欧美引起了不小的反响。原因有两个,一是它的性能表现优越,在AIME基准测试和MATH基准测试中,DeepSeek R1的准确率都超过了OpenAI o1预览版。,成本低廉,训练和使用的费用都只有openai的5%不到,,,,,,,,,,,,,,,,,,,,,openai和软银和甲骨文成立星际之门,投资至少5000亿美元用于人工智能基础建设。这个项目特朗普也专门出面站台,属于美国近期重大科技项目,也是ai板块目前最大的重磅,,,,,,,,,,,,,,,,,,,,,,DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,由知名量化资管巨头幻方量化创立。,,,,,,,,,,,,,,,,,,,,,25年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。,,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek R1作为一款“博士级别”的AI应用,以2.19美元/百万tokens的价格在API市场上迅速崛起,与OpenAI的60美元价格形成鲜明对比,,,,,,,,,,,,,,,,,,,,,,,,,在 GenEval和DPG-Bench基准测试中,Janus-Pro-7B击败了OpenAI的DALL-E3和Stable Diffusion,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek用557万干翻OpenAI的1亿,,,,,,,,,,,,,,,2025年推出的DeepSeek R1模型,在数学能力测试中,MATH基准测试上达到了77.5%的准确率,与OpenAI的o1不相上下;在编程领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者,,,,,,,,,,,,,,,,,,,,,,,以不到600万美元的投入和2048块低性能的H800芯片的条件下完成的,训练时间仅用两个月,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek老板梁文峰,,,,,,,,,,,,,,,,,,,,DeepSeek他们甚至用华为昇腾920B也可以训练,成本还下降70%,,,,,,,,,,,,,,,,,,,,,,,,,,,在short-CoT模式下,Kimi k1.5的数学、代码、视觉多模态和通用能力大幅超越了GPT-4o和Claude 3.5 Sonnet,领先幅度高达550%。在Long-CoT模式下,Kimi k1.5的数学、代码、多模态推理能力达到了OpenAI o1正式版的水平。,,,,,,,,,,,,,,,,,,,,,,,,,目前世界上十大排名大模型,中国已经占了6个,,,,,,,,,,,,,,,,,,,,,,,,,仅用 2048 块英伟达 H800 GPU 和 557.6 万美元的投入,DeepSeek 就训练出规模达 6710 亿参数的 DeepSeek-V3,,,,,,,,,,,,,,,,,,,,,,,,,后续推出的 DeepSeek-R1 模型,推理成本仅为 OpenAI 最新模型(o1)的三十分之一。,,,,,,,,,,,,,,,,,,,,BBC 报道:DeepSeek 官方 App 在数天内登顶美国应用商店下载榜,超越了 ChatGPT 等明星应用。,,,,,,,,,,,,,,,,,,deepseek,这家诞生于幻方量化的小公司,1月20日发布了V1更新版模型,,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek团队不到 140 人,团队没有“海归”,完全本土人才,,,,,,,,,,,,,,,,,,,,,,,,,让Meta等万亿美金巨头丢了大脸,更让硅谷5000亿美元的“星际之门”、1500亿美元的闭源OpenAI成为了笑话,,,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek的技术文档表示,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率,,,,,,,,,,,,,,,,,,,,,,,哪有什么算力过剩,,只有算力平价,,,,,,,,,,,,,,,,,,,,,,,DeepSeek试图用专用架构切割算力市场,这反而证明我们正站在算力民主化的临界点,,,,,,,,,,,,,,,,,,,,,,,DeepSeek-R1在培训后阶段大规模使用强化学习技术,在数学、代码、自然语言推理和其他任务上,其性能可与OpenAI o1正式版本媲美,但价格仅为o1的3%。,,,,,,,,,,,,,,,,,,,,,DeepSeek跳过SFT转而选择依赖强化学习(RL)来训练模型,简化了流程并可能提升模型在复杂任务中的表现,,,,,,,,,,,,,,,,,,,,,,传统大模型像全员待命的公司,每个问题都需要所有员工处理,效率低且耗电,而DeepSeek采用了混合专家系统(MoE),,,,,,,,,,,,,,,,,,,,,,,DeepSeek在之前已有的成熟大模型(如ChatGPT)基础上做了大量“蒸馏”工作,,,,,,,,,,,,,,,,,,,,,蒸馏的好处是降低计算资源消耗,保留大模型的推理能力,,,,,,,,,,,,,,,,,,,,,,,,,,幻方拥有的算力并不止V3版说明中的2048块H800。,,,,,,,,,,,,,,,,,,,,21年,幻方的“萤火二号”就已经搭载了1万张英伟达A100,,,,,,,,,,,,,,,,,,,,,,,,技术上,DeepSeek-R1证明了大模型可以在无监督数据的情况下,只通过强化学习 (RL) 提高推理能力,,,,,,,,,,,,,,,,,,,,,,算法、算力、数据的scaling law会继续有效,三者缺一不可,,,,,,,,,,,,,,,,,,,,,,,,“蒸馏”本质上还是一种对原数据的提纯,,,,,,,,,,,,,,,,,,,,,,deepseek用普通芯片显卡做出了更好的模型,说明他们的技术方向更先进,并不代表好的芯片显卡就没用了。好的模型如果再搭配上好的芯片显卡,最后会呈现出更好的表现。,,,,,,,,,,,,,,,,,,,,,,,deepseek证明了这个行业的护城河很随意,,,,,,,,,,,,,,,,,,,,,,,,,,Deepseek先设定一个对的参数,然后用这个参数训练。中西方文化差距还真不一样,,,,,,,,,,,,,,,,,,,,,,,deepseek的优秀主要来自于架构设计层面的创新,很多文章都提到了MoE(Mixture-of-Experts),是一种混合专家架构,它大幅提高了资源的利用效率。,,,,,,,,,,,,,,,,,,,,,,,,MoE就是细分单元,高效调用,节约资源的一种架构,,,,,,,,,,,,,,,,,,,,,,,,MoE太早就有了,比如Mistral就用了。DeepSeek V2的时候主要出了个MLA,后边V3 R1又做了长思维链、模型蒸馏等工作。更绝的是不搞预训练之后的监督学习,而是直接搞强化学习,模型自己演化出正确的结果,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek通过GPT回答生成数据数据打底,叠加互联网数据和购买数据,共同训练出了基底模型,然后用这个基底模型,再进行蒸馏,训练出了V3和R1版本的大模型。,,,,,,,,,,,,,,,,,,,,,,,,557万美元的成本,指的仅是蒸馏的成本。数据标注、基底模型训练、训练技术架构,这些成本都没算。,,,,,,,,,,,,,,,,,,,,,,,,DeepSeek让模型自己和自己对抗,提升智力水平,,,,,,,,,,,,,,,,,,,,DS是开源的,可以本地化部署,用英伟达3060显卡就可以跑,显卡越好可以用的模型版本就越高,,,,,,,,,,,,,,,,,,,,,,,,deepseek r1爆火后,市场开始质疑算力过剩,所以显卡算力产业链集体被爆锤,,,,,,,,,,,,,,,,,,,,,,,DeepSeek的意义是把AI的门槛打下来,之前很多垂直类公司搞不起AI,现在用幻方的方案,至少可以看到门槛。,,,,,,,,,,,,,,,,,,,,,,,我觉得AI的进步解放人类,将人类从繁复的重复性劳动中解放出来。AI帮助我们每个人找到自己真正想做的事,然后去享受做想做的事情的过程,,,,,,,,,,,,,,,,,,,,,,,日本软银集团有意投资OpenAI 250亿美元,使得OpenAI的估值最多膨胀到3400亿美元。要知道OpenAI去年10月刚完成一笔66亿美元的融资,估值“仅”为1570亿美元。,,,,,,,,,,,,,,,,,,,,,深度求索(DeepSeek)研发的MoE架构大模型,在万亿参数规模下推理成本降低90%以上,运营成本不到OpenAI的1/20,这种突破正在重塑全球AI竞赛规则。,,,,,,,,,,,,,,,,,,,,,

-

24年12月看,deepseek是一个国产AI,经过测试目前已经达到了开源模型里的一线水平,高性能,训练费用不到600万美元,运算成本比同行低了90%以上,幻方的老板梁文峰持有deepseek公司83%的股权,deepseek团队就是专门做通用大模型的,,,,传闻幻方量化曾对超算集群系统投入 10 亿元,搭载了超 1 万张英伟达 A100 显卡。,,,,,,,,,,,,,,,,,,,国产大模型DeepSeek-V3性能匹敌 Openai最先进的GPT-4o,训练成本仅556万美元 ,是美国相关模型的百分之一不到。,,,,,,,,,,,,,,,,,,,,

24年10月看,哈萨比斯和江珀开发了人工智能模型AlphaFold2,解决了一个已有50年历史的难题,能预测大约两亿种已知蛋白质的复杂结构,已被全球200多万人使用,对药物研发等领域具有革命性的意义。,,,,,,,,,,,,,,,合力天成的AI Index Tracker产品今年十月十号在UBS的平台上正式上线, 迄今为止这个产品是唯一的在港发行的投资全球AI上市公司的Index,,,,,,,,,,,,,,,,科学的基本精神是质疑

24年6月看,AI比人类风险管理人员拥有更多的信息,因此从整个行业来看,它推荐的解决方案会变得越来越相似,,,,,,,,,,,Open AI官宣,对于中国,不再支持开放API了,换句话说,我们国内没法抄作业了

23年8月看,AI程序是研究大概率走势的品种,量化的统计概率学,算法采用的是多项式拟合的原理,利用softmax后的均方差计算损失去匹配图形

23年5月看,国外很多投行是严禁员工使用ChatGPT功能的,智能投顾类的产品有法律障碍,对于模糊场景的对错判别还不成熟,无法对不可验证的答案判别对错

23年4月看,以GPT-3为例,其一次模型训练需要耗电19万度。,人工智能是什么

GPT即Generative Pre-trained Transformer,Generative,即生成式,作为语言模型写作能力是其开发的出发点和核心能力,ChatGPT目前已经证明的能力包括:拟标题、列提纲、写作文、回答问题等比较全面的语文能力。Pre-trained,可以理解为读书学习,能力来自于对大量跨领域文档的学习训练。Transformer,即转换器,把自然语言转换为机器可理解的一套算法,是从海量文本到向量化知识库的过程。

23年,人工智能元年

15年12月,OpenAI 成立

1966年:世界上第一个聊天机器人ELIZA发布。

结合整篇文章,基于市场心理和传播规律取一个吸引人的标题,只能取一个


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论