找回密码
 注册
搜索
热搜: 活动 交友
查看: 202|回复: 0

的重复即重复的单词或短语并鼓励

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2024-5-5 17:56:07 | 显示全部楼层 |阅读模式

据模型的自我一致性来估计模型对其输出的置信度并使用此度量来选择稳健的自生成演示。我们通过零样本思维链提示多次向法学硕士提出相同的问题。为了引导模型生成一系列可能的理由和最终答案我们引入了由温度超参数控制的随机性。在极端情况下如果模型确定它每次都应该输出相同的最终答案。然后我们计算答案的熵来衡量不确定性——具有高度自洽性且法学硕士更确定的答案可能是正确的并会被选择。假设我们面临一组未标记的问题则方法为将每个未标记的问题输入通过对模型进行多次采样来获得多个基本原理和答案。最常见的答案会突出显示然后是衡量多个采样输出答案一致性的分数越高越好。除了支持更一致的答案之外我们还惩罚回答中所选演示的多样性。我们以评分函数的形式编码对一致不重复和多样化输出的偏好该评分函数由三个分数的加权和组成用于选择自生成的伪演示。我们将伪演示连接成测试问题将它们提供给法学硕士并获得最终的预测答案。

插图在第阶段左我们多次运行零样本来生成一组演示每个演示由问题生成的基本原理和预测组成并分配分数。在第二阶段右我们用伪演示蓝色框增强当前的测试问  爱沙尼亚 WhatsApp 号码列表 题并再次查询。对两个阶段输出的多数投票形成最终预测。专注于带有提示的问答任务由于问题有唯一的正确答案因此很容易衡量自我一致性。但这对于其他任务来说可能很困难例如开放式问答或没有唯一答案的生成任务例如文本摘要。为了解决这个限制我们引入了其中我们将我们的方法推广到其他一般任务分类我们可以使用每个类别的神经网络输出来计算每个类别的概率的问题。这样我们就可以通过计算分布的熵来衡量不确定性而无需多次采样。短格式生成像问答这样的问题我们可以使用上面提到的相同的过程但如果有必要不需要基本原理生成步骤。长格式生成诸如摘要和翻译之类的问题这些问题通常是开放式的即使是确定的输出也不太可能相同。在本例中我们使用重叠度量来计算同一查询的不同输出之间的成对分数的平均值。示例性任务分类和文本摘要中的插图。






与类似首先对未标记的数据集生成预测其输出根据任务类型使用熵一致性或对齐进行评分并从这些输入输出对中选择伪演示。在第二阶段测试实例通过伪演示进行了增强以进行预测。我们根据上述一组未标记测试样本的任务类型计算相关置信度分数。评分后与类似我们选择自信的多样化的重复性较低的答案形成模型生成的伪演示集。最后我们通过这些伪演示以几次镜头的形式再次查询以获得整个测试集的最终预测。主要结果对于我们专注于一组六个算术和常识推理问题并与即仅让我们一步一步思考进行比较。我们在所有基线中使用自一致性以便它们使用与大致相同数量的计算资源。与三个法学硕士相比我们发现零样本显着优于标准零样本基线。在使用和模型的六种算术和常识推理任务中的主要结果。显着提高了性能。是个分类任务的平均值是五个简短生成任务的平均值是两个汇总任务的平均值。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黒屋|Quetzal Audio

GMT+9, 2025-2-24 15:04 , Processed in 0.173460 second(s), 18 queries .

Powered by Discuz! X3.5

Copyright © 2001-2025 Tencent Cloud.

快速回复 返回顶部 返回列表