Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N/A, arXiv'22 #1317

Open
AkihikoWatanabe opened this issue May 28, 2024 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 28, 2024

URL

Affiliations

  • Yiwei Qin, N/A
  • Weizhe Yuan, N/A
  • Graham Neubig, N/A
  • Pengfei Liu, N/A

Abstract

  • Modern embedding-based metrics for evaluation of generated text generallyfall into one of two paradigms: discriminative metrics that are trained todirectly predict which outputs are of higher quality according to supervisedhuman annotations, and generative metrics that are trained to evaluate textbased on the probabilities of a generative model. Both have their advantages;discriminative metrics are able to directly optimize for the problem ofdistinguishing between good and bad outputs, while generative metrics can betrained using abundant raw text. In this paper, we present a framework thatcombines the best of both worlds, using both supervised and unsupervisedsignals from whatever data we have available. We operationalize this idea bytraining T5Score, a metric that uses these training signals with mT5 as thebackbone. We perform an extensive empirical comparison with other existingmetrics on 5 datasets, 19 languages and 280 systems, demonstrating the utilityof our method. Experimental results show that: T5Score achieves the bestperformance on all datasets against existing top-scoring metrics at the segmentlevel. We release our code and models at https://github.com/qinyiwei/T5Score.

Translation (by gpt-3.5-turbo)

  • 現代の埋め込みベースのテキスト生成の評価に関するメトリクスは、一般的に次の2つのパラダイムのいずれかに属しています。1つは、教師付きの人間の注釈に基づいて、どの出力がより高品質であるかを直接予測するように訓練された識別メトリクスであり、もう1つは、生成モデルの確率に基づいてテキストを評価するように訓練された生成メトリクスです。どちらにも利点があります。識別メトリクスは良い出力と悪い出力を区別する問題を直接最適化することができますが、生成メトリクスは豊富な生のテキストを使用して訓練することができます。本論文では、利用可能なデータから教師付きおよび教師なしの信号の両方を使用することで、両者の利点を組み合わせたフレームワークを提案します。このアイデアを実現するために、mT5をバックボーンとしてこれらのトレーニング信号を使用するメトリクスであるT5Scoreを訓練します。我々は、5つのデータセット、19の言語、280のシステムで他の既存のメトリクスとの包括的な実証的比較を行い、我々の手法の有用性を実証します。実験結果は、T5Scoreがセグメントレベルで既存のトップスコアリングメトリクスに対してすべてのデータセットで最良のパフォーマンスを達成することを示しています。また、我々のコードとモデルはhttps://github.com/qinyiwei/T5Scoreで公開されています。

Summary (by gpt-3.5-turbo)

  • 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。
@AkihikoWatanabe AkihikoWatanabe changed the title a T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N/A, arXiv'22 May 28, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant