Skip to content

nlp-waseda/FactCheckSentenceNLI-FCSNLI-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FactCheckSentenceNLI-FCSNLI-

本データセットはファクトチェック支援を想定した含意関係認識システムの訓練・評価を目的に構築したデータセットです。

データセットはtsv形式で、各行はタブ区切りで

  • <index>
  • <gold_label (正解ラベル)>
  • <sentence1 (前提文・リソース文)>
  • <sentence2 (仮説文・疑義言説文)>

で構成されています。

1	contradiction	茶色 の ドレス を 着た 女性 が ベンチ に 座って い ます 。	女性 が 畑 で 踊って い ます 。

本データセットの訓練データはtrainディレクトリ内の3つのデータセットから構成されます。 jsnli_train.tsvJSNLI の訓練データを使用しており、 unrelated_dataset.tsvはJSNLIの訓練データとlivedoorニュースコーパス を基に構築しています。

使用方法

以下のように結合したいトレーニングデータを指定してご利用ください。3つ以上のファイルでも結合可能です。 indexは自動で正規化されます。

(入力するデータは、上述の形式に準じます。)

$ python merge_training_dataset.py [file1.tsv] [file2.tsv]

ライセンス

このデータセットのライセンスはJSNLIと同じくCC BY-SA 4.0 に従います。

参考文献

栗原 健太郎, 河原 大輔: ファクトチェック支援のための含意関係認識システム, 言語処理学会第27回年次大会(NLP2021), (2021.3).

About

FactCheckSentenceNLIデータセット

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages