Repetition Improves Language Model Embeddings

news/发布时间2024/9/20 8:40:17

论文结论:

echo embeddings将句子重复拼接送入到decoder-only模型中,将第二遍出现的句子特征pooling作为sentence embedding效果很好,优于传统方法

echo embeddings与传统embedding方法区别,如图所示:

在这里插入图片描述

Classical embeddings: Feed sentence x to
the language model and pool the contextu-
alized embeddings of sentence x.

Echo embeddings: Feed a prompt such
as “Rewrite the sentence: x, rewritten sen-
tence: x” to the language model and pool
the contextualized embeddings of the sec-
ond occurence of x

为什么会有这样的效果呢?

因为decoder-only架构存在的缺陷:在自回归模型中,由于因果注意力掩码(causal attention mask)的存在,特定输入标记的上下文化标记嵌入(即在句子中特定位置的标记的最后隐藏层激活向量)不能包含来自句子后部标记的信息。这导致了一个问题,即当早期标记在表面上相似但在关键信息上变得不相似时,这些嵌入可能无法适当地确定相似性。

有哪些相关研究?

这篇论文提到了以下几类相关研究:

  • 神经文本嵌入:这些嵌入在信息检索(IR)、语义相似度估计、分类和聚类等现代方法中起着关键作用。例如,文档检索通常利用低维嵌入进行高效查找,通过将查询和文档编码为向量,其中语义关系通过在某个度量空间中的相似性来描述。

  • 掩蔽语言模型与双向注意力:以往的研究主要集中在使用掩蔽语言模型(如BERT)和双向注意力机制来构建嵌入。这些模型通常通过对比学习目标(如InfoNCE或SimCSE)进行训练。

  • 自回归语言模型:最近的研究开始将这些算法扩展到现代自回归语言模型,如LLaMA和Mistral。这些模型在许多任务上是可用的最高质量模型。

  • 零样本嵌入:大多数关于句子嵌入的研究都集中在改进微调上。然而,Jiang等人(2023b)是唯一一篇构建自回归语言模型的零样本嵌入的论文。

  • 对比学习:在自回归语言模型中构建高质量嵌入的一系列论文。例如,Muennighoff(2022)和Zhang等人(2023a)将S-BERT的微调方法应用于GPT作为主干架构。Ma等人(2023)采用了类似的方法,但针对的是LLaMA-2。

  • 提示改进:一些工作提出了包括提示以改进特定任务的嵌入性能。例如,Jiang等人(2022)和Su等人(2022)。

  • 多任务训练目标:一些论文提出了结合多个训练目标和方法。例如,Xiao等人(2023a)和Li等人(2023)。

通过这种方法,作者成功地克服了自回归语言模型在嵌入任务中的一个关键限制,并展示了回声嵌入在实际应用中的潜力。

论文做了哪些实验?

论文中进行了以下几类实验来评估和验证“回声嵌入”(echo embeddings)方法的有效性:

  • 玩具数据实验:通过构建一个简单的控制合成设置,作者测试了回声嵌入是否能够使早期标记捕获有关后续标记的信息。在这个实验中,作者构造了具有相似开头但结尾不同的句子对,并观察了回声嵌入与经典嵌入在区分这些句子时的表现。

  • 零样本设置下的MTEB评估:作者在零样本设置下,使用MTEB(Massive Text Embedding Benchmark)的英语子集对回声嵌入和经典嵌入进行了评估。这包括了多种任务,如分类、聚类、检索、句子相似性(STS)等。

  • 微调设置下的MTEB评估:为了进行公平比较,作者在相同的数据集上对回声嵌入和经典嵌入进行了微调,并报告了结果。这包括了对比先前的基于掩蔽语言模型(MLM)的嵌入方法和基于自回归语言模型的嵌入方法。

  • 不同提示策略的敏感性分析:作者研究了不同的提示策略对零样本MTEB任务性能的影响,并比较了回声嵌入、经典嵌入和摘要方法的敏感性。

  • 不同模型的比较:作者比较了在不同模型(如Mistral-7B、LLaMA-2-7B和LLaMA-2-13B)上回声嵌入和经典嵌入的性能。

  • 不同池化策略的比较:作者还探讨了平均池化和最后标记池化策略在回声嵌入和经典嵌入中的作用。

  • 双向架构的实验:为了测试架构本身是否足以提高性能,作者尝试在去除因果注意力掩码的Mistral-7B上进行微调,以创建一个具有双向注意力的模型,并比较了其性能。

这些实验结果表明,回声嵌入在多种任务和模型上都能显著提高性能,并且在零样本和微调设置下都能保持这种优势。此外,这些实验还揭示了回声嵌入在处理具有相似开头的句子时的优越性,这是经典嵌入方法的一个已知弱点。
在这里插入图片描述

有什么可以进一步探索的点?

尽管论文中的回声嵌入方法取得了显著的成功,但仍有一些方面可以进一步探索:

  • 理解回声嵌入的机制:尽管回声嵌入在实验中表现出色,但其背后的确切机制尚未完全理解。未来的工作可以深入研究为什么回声嵌入在微调后仍然优于经典嵌入,以及这种改进是如何在不同的任务和数据集上实现的。

  • 优化输入重复策略:论文中使用了简单的重复输入策略,但可能存在更复杂的策略来进一步提高性能。例如,可以考虑不同的重复模式、间隔或其他结构化的方法来传递信息。

  • 计算效率:回声嵌入方法需要将输入传递给模型两次,这可能会增加计算成本。研究如何减少这种额外成本,例如通过更高效的模型架构或优化的输入处理策略,是一个有价值的方向。

  • 不同模型架构的适用性:虽然论文主要关注自回归模型,但回声嵌入方法是否可以应用于其他类型的语言模型,如Transformer-XL或BERT等,也是一个值得探索的问题。

  • 跨语言和跨领域的泛化能力:研究回声嵌入在不同语言和领域中的泛化能力,以及如何调整方法以适应特定的应用场景。

  • 与其他嵌入技术的结合:考虑将回声嵌入与其他先进的嵌入技术(如对比学习、多任务学习等)结合,以进一步提高嵌入的质量。

  • 实际应用的评估:在实际应用中,如搜索引擎、推荐系统或自然语言理解任务中,评估回声嵌入的性能和实用性。

  • 可解释性和透明度:提高嵌入的可解释性,使得用户能够理解嵌入背后的语义和决策过程,这对于嵌入技术的接受度和信任度至关重要。

通过探索这些方向,研究者可以进一步提高文本嵌入技术的性能和适用性,同时也为理解语言模型的工作原理提供更深入的见解。

总结一下论文的主要内容

  • 问题定义:论文指出自回归大型语言模型(LLMs)在提取文本嵌入时存在一个限制,即早期标记的上下文化嵌入不能包含来自句子后部的信息。这可能导致在语义相似性估计上的失败。

  • 方法提出:为了解决这个问题,作者提出了一种名为“回声嵌入”的方法。这种方法通过在上下文中重复输入两次,并从第二次出现的文本中提取嵌入,从而使早期标记能够编码关于后续标记的信息。

  • 实验设计:作者在大规模文本嵌入基准(MTEB)上进行了实验,包括零样本和微调设置,以评估回声嵌入与传统嵌入方法的性能。

  • 结果分析:实验结果表明,回声嵌入在多种任务和模型上显著优于传统嵌入方法。在零样本设置中,回声嵌入的性能提升超过9%,而在微调设置中,平均提升约为0.7%。

  • 对比实验:论文还与先前的开源模型进行了对比,展示了回声嵌入在不利用合成微调数据的情况下,能够实现与先前模型相匹配甚至更优的性能。

  • 局限性讨论:尽管回声嵌入取得了成功,但论文也指出了其局限性,包括需要双倍的推理成本,以及在微调后性能提升的具体机制尚不明确。

  • 未来工作:论文提出了未来研究的方向,包括理解回声嵌入的工作原理、优化输入重复策略、提高计算效率、探索跨语言和跨领域的泛化能力等。

总的来说,这篇论文提出了一种新的文本嵌入方法,通过在自回归语言模型中重复输入来克服信息编码的局限性,并在多个任务上展示了其有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/XRZq/9622.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

SecureCRT for Mac/win:保障数据安全的专业终端SSH工具软件

SecureCRT for Mac/win是一款广受欢迎的专业终端SSH工具软件,为用户提供了强大的加密通信和数据安全功能,使其成为网络管理人员、系统管理员和开发人员的首选工具。无论是在Mac还是Windows操作系统下,SecureCRT都能够帮助用户轻松地进行远程访…

深入理解nginx的https alpn机制

目录 1. 概述2. alpn协议的简要理解2.1 ssl的握手过程2.2 通过抓包看一下alpn的细节3. nginx源码分析3.1 给ssl上下文设置alpn回调3.2 连接初始化3.3 处理alpn协议回调3.4 握手完成,启用http协议4.4 总结阅读姊妹篇:深入理解nginx的https alpn机制 1. 概述 应用层协议协商(…

搜维尔科技:xsens研究与教育,为人类运动机制带来意义

推动人类运动学 运动学的精确测量——机械点、机构和系统运动的研究——对于推动当今的生物力学研究至关重要。 研究和了解人体运动机制是通过康复、预防伤害或提高运动表现来改善人们生活的关键。 生物力学研究 主要优点 1.实验室质量数据 – 适合详细分析 2.在任何情况下…

QT网络编程——TCP

TCP TCP(Transmission Control Protocol,传输控制协议)是一个用于数据传输的低层的网络协议,多个互联网协议(包括 HTTP 和 FTP)都是基于 TCP 协议的。它是可靠的、面向流、面向连接的传输协议,…

《迷失方阵》问题

迷失方阵 给你一个N*M的方阵&#xff0c;你能告诉它这个方阵有多少个正方形吗&#xff1f; eg&#xff1a;1x1矩阵 1个正方形 2x3矩阵 8个正方形 代码很简洁&#xff0c;但是数学规律需要多拿笔画一下&#xff0c;才能发现。 #include<stdio.h> #include<math.h> …

安卓cpu内存监控,大厂首发

开头 很多人工作了十年&#xff0c;但只是用一年的工作经验做了十年而已。 高级工程师一直是市场所需要的&#xff0c;然而很多初级工程师在进阶高级工程师的过程中一直是一个瓶颈。 移动研发在最近两年可以说越来越趋于稳定&#xff0c;因为越来越多人开始学习Android开发&…

Transformer之Residuals Decoder

The Residuals 我们需要提到的编码器架构中的一个细节是&#xff0c;每个编码器中的每个子层(self-attention,&#xff0c;ffnn)周围都有一个残余连接&#xff0c;然后是 layer-normalization 步骤。 如果我们要可视化向量和与 self attention 相关的 layer-norm 运算&#x…

2024.02.29作业

1. TCP模型 server #include "test.h"#define SER_IP "192.168.191.128" #define SER_PORT 9999int main(int argc, char const *argv[]) {int sfd -1;sfd socket(AF_INET, SOCK_STREAM, 0);if (-1 sfd){perror("socket error");return -1;…

Linux磁盘设备LVM介绍和常用场景说明

Linux常见的物理设备数据备份和负载均衡模式 1. LVM技术说明2. 相关概念3. 常用命令3.1 安装lvm命令3.2 创建分区3.3 格式化成LVM3.4 其他格式化 4. 常用场景4.1 创建LVM并挂载4.2 LVM扩容4.2.1 xfs扩容4.2.2 ext4扩容 4.2 缩减逻辑卷lv4.3 缩减vg&#xff1a;&#xff08;迁移…

手机通用便签APP哪个比较好用?

手机通用便签APP哪个比较好用&#xff1f;随着现代科技的不断发展&#xff0c;手机的更新换代频率是比较快的&#xff0c;基本两三年就会换新手机。其中Android和iOS系统为手机主要使用系统&#xff0c;有些用户在使用一个系统腻了后&#xff0c;通常想更换另一个系统的品牌手机…

TCP/UDP模型:2024/2/29

作业1&#xff1a;TCP模型 服务器端&#xff1a; #include <myhead.h> #define SER_IP "192.168.199.129" #define SER_PORT 8899int main(int argc, const char *argv[]) {//1.创建用于连接的套接字文件int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd-1){per…

内网搭建mysql8.0并搭建主从复制详细教程!!!

一、安装mysql 1.1 mysql下载链接&#xff1a; https://downloads.mysql.com/archives/community/ 1.2 解压包并创建相应的数据目录 tar -xvf mysql-8.2.0-linux-glibc2.28-x86_64.tar.xz -C /usr/local cd /usr/local/ mv mysql-8.2.0-linux-glibc2.28-x86_64/ mysql mkdir…

06|Mysql内部组件结构

1. 连接器 客户端要向mysql发起通信都必须先跟Server端建立通信连接&#xff0c;而建立连接的工作就是由连接器完成的 mysql -h host[数据库地址] -u root[用户] -p root[密码] -P 3306连接步骤: 1、如果用户名或密码不对&#xff0c;你就会收到一个"Access denied for us…

学习阶段单片机买esp32还是stm32?

学习阶段单片机买esp32还是stm32? 在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「stm32的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xf…

爱心商城|爱心商城系统|基于Springboot的爱心商城系统设计与实现(源码+数据库+文档)

爱心商城系统目录 目录 基于Springboot的爱心商城系统设计与实现 一、前言 二、系统功能设计 三、系统功能设计 1、商品管理 2、捐赠管理 3、公告管理 4、公告类型管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#x…

SpringBoot+Vue全栈开发-刘老师教编程(b站)(二)

创建SpringBoot项目 1.配置maven 出现bug java: 无法访问org.springframework.boot.SpringApplication 错误的类文件: /D:/maven/repository/org/springframework/boot/spring-boot/3.0.0/spring-boot-3.0.0.jar!/org/springframework/boot/SpringApplication.class 类…

【力扣hot100】刷题笔记Day15

前言 今天要刷的是图论&#xff0c;还没学过&#xff0c;先看看《代码随想录》这部分的基础 深搜DFS理论基础 深搜三部曲 确认递归函数、参数确认终止条件处理目前搜索节点出发的路径 代码框架 void dfs(参数) {if (终止条件) {存放结果;return;}for (选择&#xff1a;本节点…

面试经典150题——最长连续序列

"The only limit to our realization of tomorrow will be our doubts of today." - Franklin D. Roosevelt ​ 1. 题目描述 2. 题目分析与解析 2.1 思路一 题目要求我们使用时间复杂度为O(n)的解决方案&#xff0c;那么肯定就不能排序了。因为排序算法不可能达到…

Java-nio

一、NIO三大组件 NIO的三大组件分别是Channel&#xff0c;Buffer与Selector Java NIO系统的核心在于&#xff1a;通道(Channel)和缓冲区(Buffer)。通道表示打开到 IO 设备(例如&#xff1a;文件、套接字)的连接。若需要使用 NIO 系统&#xff0c;需要获取用于连接 IO 设备的通…

打造去中心化透明储蓄罐:Solidity智能合约的又一实践

一、案例背景 传统的储蓄罐通常是由个人或家庭使用&#xff0c;用于存放硬币或小额纸币。然而&#xff0c;这样的储蓄罐缺乏透明性&#xff0c;用户无法实时了解储蓄情况&#xff0c;也无法确保资金的安全性。 通过Solidity智能合约&#xff0c;我们可以构建一个去中心化…
推荐文章