发布日期:2025-02-22 14:47 点击次数:117
上证报中国证券网讯(记者谭镕)1月28日,国内火爆的AI大模型公司DeepSeek称遭受大规模恶意攻击。另引人关注的是,人工智能社区Hugging Face显示,DeepSeek新发布了开源多模态人工智能模型Janus-Pro。
DeepSeek遭大规模恶意攻击
DeepSeek官网服务状态页面显示,“近期DeepSeek线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。”
新发布的开源多模态人工智能模型Janus-Pro是一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式。Janus-Pro构建于DeepSeek-LLM-1.5b-base和DeepSeek-LLM-7b-base的基础之上。
据DeepSeek介绍,Janus-Pro是一种新颖的自回归框架,统一了多模态的理解与生成。它通过将视觉编码分离为独立的路径,解决了以往方法的局限性,同时仍然采用单一的统一Transformer架构进行处理。视觉编码的分离不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还提升了框架的灵活性。Janus-Pro不仅超越了之前的统一模型,还能匹配或超越任务专用模型的性能。
其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。
开源、开放
1月20日,DeepSeek推出了人工智能模型R1,这是一款为解决复杂问题而设计的专用模型。在海外出圈之后,DeepSeek的服务需求激增。
DeepSeek称,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码等任务上,性能比肩OpenAI o1正式版。
DeepSeek还开放了许可证和用户协议,据介绍,开源仓库(包括模型权重)统一采用标准化、宽松的MIT License,完全开源,不限制商用,无需申请。并且,DeepSeek支持用户进行“模型蒸馏”。
DeepSeek创始人梁文锋曾介绍,在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止它被别人赶超。“开源、发论文,其实并没有失去什么。对于技术人员来说,被Follow是很有成就感的事。开源更像一个文化行为,而非商业行为……”

DeepSeek大模型降价
在大模型“费用”方面,在DeepSeek开放平台官网信息显示,deepseek-chat模型优惠期至北京时间2025年2月8日24:00,期间API调用享历史价格,优惠结束后将按每百万输入tokens2元,每百万输出tokens8元计费。deepseek-reasoner模型上线即按每百万输入tokens4元,每百万输出tokens16元计费。
此前,DeepSeek称,DeepSeek-R1 API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。“输出API的价格仅为OpenAI o1的3%。”开放社区技术人员评论。
早在2024年5月,DeepSeek发布全新第二代MoE大模型DeepSeek-V2,并发布定价。DeepSeek-V2 API的定价为每百万token输入1元、输出2元(32K上下文)。此后,智谱AI、字节跳动、阿里、百度、腾讯等大厂相继宣布调价。
关于大模型价格战,梁文锋在接受媒体采访时表示,“降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API、还是AI,都应该是普惠的、人人可以用得起的东西。”
这背后与成本支撑密不可分。2024年12月,DeepSeek-V3就引发业内高度关注。据介绍,DeepSeek-V3为自研MoE模型,671B参数,激活37B。这款在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲的模型,花费却只“近600万美元”。
天使投资人Balaji称在线股票配资排行榜,DeepSeek开源模型仅花费了约560万美元进行训练,性能与GPT 4和Claude 3.5 Sonnet相当。如果属实,成本将降低10倍以上。
上一篇:股票十倍杠杆正规平台 不卷低价和大规模投流,微信小店初期成效如何?
下一篇:安全配资炒股网 榨季末进口和库存双增 白糖价格或打破季节性上涨规律