All
Search
Columbus
Images
Videos
Maps
More
News
Shopping
Flights
Travel
Notebook
Topics
Back to All Topics
Weather
Forecast
Radar
Severe Alerts
Air Quality
Restaurants
Mexican
Italian
Sushi
Vegan
Fast Food
HomeServices
Plumbing
Moving
Cleaning
Landscaping
Automotive
Car Repair
Car Rental
Tire Shops
Auto Glass
Healthcare
Urgent Care
Dentists
Chiropractors
Therapists
Shopping
Groceries
Electronics
Pharmacy
Clothing
LocalNews
Politics
Crime
Weather
Sports
Events
Concerts
Festivals
Meetups
Sports Games
zhihu.com
https://www.zhihu.com/question/38286385
稀疏(sparse)在机器学习中很重要吗?为什么? - 知乎
深度学习论文中经常看到"sparse",所以应该是重要的概念,但一直不理解很困惑; 刚才在quora上的回答感觉很有帮助,尝试总结以下: sparse 代表数据为0,sparse数据的存在让不为0的dense数据聚集在一起; 因为存在数据聚集效应,所以才能学到特征和规律; 如果数据维度很高,噪音很多,原本为0的 ...
zhihu.com
https://www.zhihu.com/tardis/zm/art/643801236
Sparse Transformer - 知乎
Sparse Transformer 减轻计算量的方式通过让连接模式作用到 上,从而减轻 的复杂度。 如式 (3)。 对于第 个时间片的输入,首先使用 Key 和 Value 的权值矩阵乘以输入特征,得到 和 。 然后再将连接模式 作用到 和 上,得到稀疏的特征 和 。
zhihu.com
https://www.zhihu.com/question/12682779853
通俗理解,Sparse Attention是什么原理? - 知乎
通俗解释 Sparse Attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话,这就是 Sparse Attention(稀疏注意力) 的核心思想——让AI模型像人类一样“选择性关注重点,忽略次要信息 ...
zhihu.com
https://www.zhihu.com/question/12608484026
如何看待Native Sparse Attention? - 知乎
准确率上,sparse 的模型比 full 还要搞一些。 这个我猜一点原因:(1)模型还不算大,NSA 和 full 还没遇到“瓶颈”,所以 full attention 还没摸到其上限,不能和 NSA 拉开差距;(2)sparse attention 本质上可以看做是对训练的一种正则,所以也许会有更好的泛化能力。
zhihu.com
https://www.zhihu.com/question/1956137082197083536
DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎
对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3.2-Exp里面的Deepseek Sparse Attention (DSA)。
zhihu.com
https://www.zhihu.com/question/1956013610666005512
DeepSeek-V3.2-Exp版本更新,有哪些信息值得关注? - 知乎
DeepSeek V3.2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。
zhihu.com
https://www.zhihu.com/question/66907303
深度学习中的sparse和dense模型指的是什么? - 知乎
Sparse双塔和Dense双塔是推荐系统中使用的两种不同类型的双塔模型,它们主要的区别在于, 举个例子:以一个复杂的名词开始,比如 sparse Matchnet双塔多目标召回 Sparse MatchNet双塔多目标召回模型是一种在推荐系统中用于处理稀疏数据的模型,它结合了MatchNet和双塔架构来提高召回效率和准确性。为了 ...
zhihu.com
https://www.zhihu.com/question/1935478721466311087
强化学习奖励函数设计有没有什么经验之谈? - 知乎
主要是把任务拆分成一些基础的逻辑模块,每一部都需要有一个dense reward来引导,当然这种适用于random policy的,如果你有一个很好的pretrain policy,可以拿到一定成功率的话,可以直接搞阶段性稀疏奖励,这种也不错,但对于random policy不太ok。 当然也可以试试LLM生成奖励,现在效果也相当不错,甚至 ...
zhihu.com
https://www.zhihu.com/question/509508528?write
请问机器学习中的稀疏先验(sparse prior)是什么? - 知乎
还是离不开概率啊。 sparse prior是指在机器学习中,使用一个 概率 分布来描述参数的分布,其中大多数参数的值都是零或接近零。这个概念出自于2006年的论文《Sparse Bayesian Learning and the Relevance Vector Machine》,该论文提出了一种基于稀疏 先验的 机器学习算法,即关联向量机(Relevance Vector Machine)。
zhihu.com
https://www.zhihu.com/question/55606589
如何理解稀疏主成分分析 (Sparse Principal Component Analysis)?
稀疏主成分分析简介 变量经过PCA后得到的主成分通常在多个原始变量上都不为 0 ,这导致进行PCA后的主成分的含义较为模糊,给数据分析带来了一定难度,因此Zou等(2006)提出的一种新的主成分分析方法,稀疏主成分分析(Sparse Principal Component Analysis [1],SPCA)。