Spotify科学家:使用“语义标识卡”来整合搜索和建议

这项令人印象深刻的研究是由世界各地的Spotify科学家团队共同进行的,包括荷兰代尔夫特的Gustavopena,马德里,西班牙,西班牙的Edoardo d’Amiko和丹麦哥本哈根的Marco de Nore。这项研究发表在捷克共和国布拉格举行的第19届ACM推荐系统会议(Recsys ’25),2025年9月22日至26日。当您使用音乐应用程序搜索歌曲或每天收到自定义建议时,其背后实际上存在复杂的技术问题。传统上,搜索和建议就像两位厨师一起工作,一个专门从事其积极需求的管理(例如“我想听杰伊·乔的歌”),另一个则根据他的口味故事准备了一个令人惊讶的菜。但是问题在于,它不仅增加了厨房的复杂性,而且还会失去极好的匹配机会,而且还使用了完全不同的食谱和工具。 c急切的是,基于大型语言模型的生成技术提供了统一这两个特征的可能性,并找到了可以根据要求创造性匹配的厨师。但是,这位厨师通常必须先解决它才能正常工作。在这里,我们向您展示如何为每首歌曲以及适合搜索和建议的所有产品创建“标识”。传统方法是将每个菜单分配给每个元素以及配方编号。但是,该方法具有致命的缺陷。添加了新菜后,整个系统必须再次学习。这非常昂贵。更糟糕的是,这些数字本身没有意义,无法帮助系统了解不同元素之间的关系。为了解决这个问题,研究人员提出了“语义标识卡”的概念。与传统数字不同,语义标识卡由源自conten得出的多个重要代码组成元素的特征。例如,传统方法数量为“ 10086”抒情民谣,但语义识别字母是“安静的吉他治愈之夜”。它可以是:这样的组合,即使是新添加的歌曲也可以共享一些和弦,只要它们具有相似的特征,这使系统可以快速理解这些特征。但是,这种语义标识卡的构造面临着根本的矛盾。针对搜索任务的优化标识卡在推荐任务中效果不佳,反之亦然。这就像一把刀,专门从事蔬菜,可能不是切肉的内心。 Spotify研究团队通过系统的实验发现了问题的严重性。专门用于搜索的优化标识卡增加了搜索效果五次,但建议的效果降低了60%。通过使用优化的身份证进行推荐,情况是e相反。 1。建造多元化ID身份证的策略面临这一困境,研究团队设计了几种策略来构建语义标识卡。这可以分为两类:特定的任务和交叉任务方法。任务的特定方法相对简单和直接。特定的搜索方法训练特殊模型,以学会了解用户咨询用户意图与歌曲内容之间的匹配关系。此过程类似于对音乐专家的培训,以了解用户说“想听轻松的音乐”时的用户的建议。在培训期间,研究人员可以为模型提供众多咨询配对的样本,从而使模型可以学习将类似的咨询和歌曲更接近语义空间放置。推荐的特殊方法使用了完全不同的培训想法。使用协作过滤技术专注于学习用户行为模式。如果两个用户经常听类似的歌曲,则该模型认为他们有类似的喜好,因此我们建议其他人喜欢的歌曲。通过观察人们的消费习惯并发现“购买产品也购买常规产品”的规则,这种方法类似于工作。没有禁运,两种特定的任务方法都有明显的局限性。它们针对单个任务和需要搜索和建议的统一系统进行了优化。对此,性能将较慢。这导致研究团队探索一种可以平衡这两个任务需求的交叉任务方法。跨任务方法论的想法更加复杂和有趣。这些方法之一称为“分离”,同时为每个元素创建了两组不同的身份证。一个是出于搜索目的,另一种是用于建议。在实践中使用时,搜索任务仅使用特定的搜索卡,并且建议任务仅使用推荐的身份证。该方法的优点是它保持了每种方法的优化效果,但它的不便也很明显。身份证的数量将增加一倍,使系统的复杂性和存储成本增加。另一种称为“共享前缀”的方法试图减少重复,同时保持任务的特异性。此方法将标识卡划分为三个部分。它是共享所有任务和两个特定扩展任务的基本部分。这就像为每首歌曲的基本标签(为“ pop”)设计基本标签,并根据不同的目的添加特定后缀(搜索时“明亮的节奏”,建议在推荐时“适合运动”)。最多的创新是几种“融合”方法。最初,我们直接连接搜索和建议,并嵌入两个,形成更长,更全面的表示。这就像将两位专家的意见结合在一起E报告。第二种方法认识到,不同镶嵌物的尺寸的差异会导致偏差,从而将其调整为相同的维度,然后调整元素元素元素的添加和融合。最令人印象深刻的是“多任务”方法,它从根本上改变了培训思维。一个允许同时处理这两个任务的统一模型,而不是单独训练专用和推荐的模型。在培训过程中,模型必须同时学习咨询歌曲(搜索任务)和用户行为的预测(建议任务)的巧合,并在平衡这两个目标时形成更一般的目的。这些项目表示。 2.实验设计的精致性经过精心设计,以整合这些不同的识别卡构建策略。它们是基于研究的,我们需要这是一大批数据,其中包括Vielens2500万数据集,62,138部电影和124万用户互动。请记住,研究团队没有使用现成的咨询数据,而是使用Geamini-2.0-Flash模型(10套训练集和10套测试组)为每部电影生成20次自然语言咨询。有深刻的考虑来准备数据。在实际应用中,搜索咨询的普及分布与推荐项目的元素的普及分布不同。为了消除实验结果的这种干扰差异,研究人员产生了与每部电影的磋商一样多的咨询,从而创造了一个“水平竞争”的环境。尽管这与现实世界的分布不同,但研究人员指出,在现实世界的应用中,如果搜索和建议的普及分布之间存在一定的相似性,则效果可能会更好。咨询生成过程也非常原始。研究人员设计了一个立即详细的模板是因为AI产生的咨询应真正反映出可能的用户搜索行为,涵盖了电影的几个方面(主题,类型,情感语调等),并要求直接避免电影的标题。引起的咨询包括对“寻找有关时间旅行的科幻电影”和情感咨询的广泛解释,例如“我想看一部刺激我的思想的独立电影”。在技​​术实施层面上,研究人员将Google Flan-T5基础作为核心生成语言模型。该模型必须处理两种完全不同的任务。搜索和建议:对于搜索任务,该模型会收到用户咨询,并发出PE标识cassedlated Licle。对于推荐的任务,该模型可以根据用户可以根据其历史行为更喜欢的电影的身份证。为了确保产生的结果的多样性,研究人员采用了一种称为“寻找转移包”的技术。传统的生成方法通常会产生高相似性结果,因为它们在回答问题时总是给出最“安全”的答案。不同的包装搜索是对RUTI的多样性惩罚,我们鼓励该模型产生更丰富和多样化的结果。这对于推荐系统尤为重要。标识卡的特定结构使用称为RQ-KMEANS的分组方法。简而言之,这种方法聚集了相似元素的镶嵌物,并将代表性代码分配给每个群集。生成元素的标识卡使用两个大小256的代码组成的多个代码,总计512个代码。这种设计不仅保证了表达能力,还可以控制复杂性。 3。令人惊讶的实验发现实验结果揭示了意外且完全出乎意料的发现。 como predijo el Equipo derespeivación,las tArjetas deIdentificaciónEspecíficficasde la tarea funcionaban mejor en cada tarea,pero se earlizaron en otra tarea。但这很糟糕。 La tarjeta deIdentificación优化debúsquedaaumentóel efecto debúsquedaa 0.072(Indigador r@30),pero el efecto efecto efecto recoSendado es 0.026。 La tarjeta deIdentificación优化的Repomendadadaaumentólecomendadoa 0.062,pero el efecto debúsquedaes可怕,独奏0.004。这种主要绩效差异反映了这两个任务的性质。搜索任务取决于内容的相似性。当用户c“浪漫喜剧” onsult时,系统确实需要查找此类别中的电影。推荐的任务集中在行为模式上。即使A和B似乎与内容相关,该系统也必须发现隐式关系,例如“喜欢电影的用户通常是喜欢电影B的用户”。在交叉任务方法中,最令人惊讶的发现是多任务处理方法的出色表现。这个methoD对搜索任务达到0.046的影响,并且对建议任务的效果为0.049。尽管它没有达到任务的每个特定方法的最高级别,但总体平衡是最佳的。分离方法的性能证明了研究团队的另一个假设。为每个任务分配卡的独立ID可以很容易地避免任务之间的冲突,但在任务之间失去了相互学习的机会。搜索效果(0.028)和该方法的建议效果(0.032)是中等的,并且显着提高了系统的复杂性。融合方法的结果显示了结合结合的微妙之处。两种嵌制(FusedConcat)的直接连接与搜索(0.048)效果很好,但建议的效果很差(0.018)。研究人员分析了这一点,因为特定的搜索维度(386个维度)大得多,远大于推荐的嵌入式维度(256个维度),因此是海洋RCH信息在合并后主导。为了证明这一假设,研究人员尝试了Fuse维平衡法(Fusedsvd)。数学上将两个嵌体调整到相同的维度,然后融合确实改善了推荐的效果(0.038),但降低了搜索效果(0.033)。该结果表明,简单的融合临时可以平衡不同来源的贡献,但在合并过程中可能会失去重要信息。不幸的是,不幸的是,前缀交换方法的搜索和建议较低(0.007和0.021)。随后的分析发现,这主要是由于基础级别的理想定量方法。通过研究团队进行的定量方法的比较实验证实了这一点。 RQ-KMEANS方法明显优于其他几种方法,包括广泛使用的RQ-VAE方法。 4。更好地了解不同方法的特征S在详细的性能分析中,研究人员根据电影的受欢迎程度进行了层次。他们将最受欢迎的电影的1%放置在定义为“标题”内容的数据集中,其余99%将其定义为“长尾巴”内容。该分析揭示了几种有趣的模式。在Head Content建议中,建议的优化方法效果很好,高分为0.170。这不足为奇。流行内容增加了用户行为数据,并使用协作过滤方法。这是因为可以更好地捕获这些模式。但是,对于长期的内容,基于搜索的方法表明,如果缺乏足够的行为数据,内容的相似性将成为更可靠的指南原则。多任务方法说明了此分层分析中平衡的另一个方面。头部内容性能(0.135)不如推荐的专用方法,但长期尾内容性能(0.024)不像仅搜索方法那样好,而是在两个级别上保持相对稳定。实际系统对于常见应用极为重要。这是因为实际系统需要处理一般和不受欢迎的内容。搜索任务的结果相对简单,因为研究团队故意创造了咨询的分配而没有流行的偏见。但是,这种“公平”设计实际上突出了内容以不同方式理解功能的差异。特定搜索方法的出色表现(0.072)表明,有导培训可以显着提高对咨询系统的理解。 5。技术细节的重要含义。研究团队为定量方法的比较分析提供了重要的技术灵感。传统上,基于神经元网络(例如RQ-VAE)的自动编码器方法,他们可以学习更多复杂的数据分布因此,d必须比简单的分组方法更好。但是,实验结果表明,RQ-KMeans方法显着高于RQ-VAE和其他学习方法。这一发现不是孤立的情况。其他研究也报道了在几种情况下RQ-VAE的不稳定。研究人员推测,这可能是由于以下事实:简单,稳定的小组方法比用于构建身份证的某些任务的复杂生成模型更可靠。这使我们想起了一个技术解决方案,即复杂性不一定会提高性能。集成模型的选择还显示了内容理解和行为建模的几个好处。我正在这样做。搜索任务使用基于All-Mpnet-Base-V2的语义集成,这是一个适用于COMENTER文本内容中语义相似性的模型。推荐任务中使用的ENMF模型(有效的神经矩阵分解)侧重于潜在的采矿模式用户元素交互的ns。多任务方法的成功很大程度上是由于其培训策略的巧妙设计。通过同时优化两个不同的损失函数(在亚洲生意中的一致损失和统一损失),该模型学会了在内容的相似性和行为相似性的相似性之间找到平衡。这种均衡允许生成的身份证可以反映元素的内容特征并捕获用户行为中的隐式偏好。培训生成模型时,还需要特殊考虑。与传统的分类和回归任务不同,生成建议要求G ModelEnere是单独的代码序列。这要求模型不仅了解条目(用户咨询或历史行为),还可以准确地生成相应的标识代码。光束搜索的使用多样性可确保结果的丰富性泰德(Ted)并获得了始终是最“安全”但可能单调的答案。 6.广泛的实际应用这项研究的重要性远远超出了学术范围,并为整个推荐的系统行业提供了关键的开发地址。如今,大多数大型互联网公司不仅提高了技术复杂性,而且在两个系统之间失去了协同作用的机会。作为世界领先的音乐传输平台,Spotify需要每天处理数亿个搜索应用程序和自定义建议。 Deswell,寻找特定歌手的作品,用户可以期望推荐系统了解此偏好,并在随后的建议中反映出来。其次,推荐系统发现的潜在用户的利益也应提高搜索结果的相关性。该双向信息流是统一系统的中心值。从技术架构Perspec统一的生成系统可以极大地简化服务器的复杂性。传统的建筑,搜索和建议通常需要各种功能工程流程,模型培训和服务实施。统一系统可以共享大多数基础架构。这不仅降低了维护成本,而且还提高了系统的一致性和可靠性。当涉及新元素时,阳光液的优势更为明显。传统的ID建议系统面临严重的冷启动问题。新歌和新电影通常需要积累足够的用户交互数据,然后才能有效推荐它们。基于语义标识卡的系统可以快速理解新元素的内容特征,即使没有用户行为数据,也可以根据内容的相似性创建合理的建议和搜索匹配。这种能力对于内容创建者非常重要。工作新艺术家的S不再需要等待漫长的“冷启动时间”。可以根据语义信息(例如音乐风格和情感特征)快速向其喜欢的用户推荐该系统。这有助于形成更多样化的内容生态系统,而不是由较高内容主导的哑光效应。这些发现还揭示了个性化技术开发的重要趋势,从简单的协作过滤到多模式和多任务智能的整体开发。未来的推荐系统不仅可以了解用户的历史行为,而且还可以了解用户,情绪状态,使用方案和其他多维信息的直接意图。语义标识卡为这种整体理解提供了技术基础。从用户体验的角度来看,统一系统可以提供更一致和智能的服务。用户不再需要在差异之间交替搜索和发现之间的互动模式,该模式允许系统将上下文连续性维护到所有用户使用。例如,在用户寻找“足够的音乐可以执行”之后,该系统不仅返回相关结果,而且在以后的建议中继续关注用户运动音乐。 7.挑战和将军是,Outlook研究的结果令人鼓舞,将这项技术应用于真实生产环境仍然存在许多挑战。第一个问题是计算的复杂性。发电模块,尤其是基于大语言模型的系统,通常需要比传统推荐系统更多的计算机资源。对于需要毫秒响应的在线服务,如何平衡模型的复杂性和响应速度是一个关键问题。数据和标签成本的质量也是重要的考虑因素。多自然培训需要延长质量搜索苏尔特:用户的行为行为数据和数据数据。用户行为数据相对易于恢复,但是高质量的咨询数据通常需要使用本研究等大型语言模型进行手动输入。如何在大型应用程序中获取足够的高质量培训数据仍然是一个悬而未决的问题。 La dractionabilidad del Modelo es otrodesafío。尽管传统推荐系统很复杂,但决策过程相对容易分析和净化。生成系统的黑匣子的性质使理解和改善系统行为更加困难。如果建议不符合期望,则需要新的工具和方法来快速识别和解决问题。即使在统一系统中,隐私保护也面临着新的挑战。尽管搜索咨询通常包含用户的直接意图信息,但行为数据反映了用户的长期优先模式。使用此INF时如何保护用户隐私合作建模的概念需要更复杂的隐私保护政策。从技术发展的角度来看,研究团队提出了值得探索的几个讲话。第一个是嵌入合并的更有效方法。当前的简单连接或加权合并可能无法完全使用各种来源的互补性。基于护理或元学习机制的组合方法可以带来更好的结果。第二个是动态标识卡更新机制。随着用户行为的变化和对内容的理解变得更加熟悉,还必须相应地更新元素的语义表示。可以稳定在设计形式的更改的标识卡系统是一个有趣的研究地址。还值得注意的是,多语言和跨文化概括的能力。尽管当前的研究主要基于英语内容,但实际应用要求讽刺多种语言和文化背景。如何构建可以在所有语言中概括的语义标识卡对于全球服务提供商都很重要。最后,随着大型语言技术的快速发展,在推荐系统中将更强大的预处理模型整合在一起的方式也是一个充满机会的方向。 GPT,BERT和其他模型的持续发展可能会导致您在语义理解和产生方面取得新的进步。最终,这项研究显示了人工智能技术发展的重要趋势。这是专门针对通用系统的系统的演变。就像智能手机集成了多种设备,例如手机,相机和音乐播放器一样,统一的生成推荐系统也可能成为未来内容服务的标准架构。这种方式有许多技术挑战,但是Spotify研究团队的工作已经使我们成为一个有前途的方向。对于所有使用数字内容服务的普通用户,这意味着我们获得了更聪明,更一致,更个性化的体验。 P AQ1:什么是语义标识卡?该产品与数字传统有什么区别?答:语义主体证书是一个元素标识符,该元素标识符由元素内容特征得出的多个重要代码组成。传统数字就像为每首歌曲分配“ 10086”之类的数字,语义标识卡可能是“温柔的吉他治疗之夜”的组合。最大的优势是,新元素很快就可以与相似的特征共享代码,而无需训练整个系统,这有助于AI了解元素之间的关系。 P2:为什么我不能在同一标识卡系统中使用搜索和建议?答:搜索方法和建议是完全不同的。搜索付费更多地关注内容的相似性。当用户寻找“浪漫喜剧”时,他们属于此类别以找到一部属于的电影。即使AAND B的内容根本没有相关的内容,我们也建议您更多地关注行为模式,并找到“通常喜欢电影等电影的人”之间的隐含关系。优化特定任务将牺牲另一项任务的效果。这是一个困境。 P3:搜索平衡和Spotify多任务方法的推荐效果如何?答:多有方法训练一个统一模型,该模型可以同时处理两个任务,从而优化了咨询歌曲的巧合和培训期间用户行为的预测。通过平衡内容的相似性和行为的相似性,生成的身份证不仅可以理解歌曲的内容特征,还可以捕获用户偏好的模式。单个元素的效果不如D经过经过的方法,但总体平衡是Optimalimo,搜索结果和建议的水平为0.046和0.049。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注