FactCheckSentenceNLI-FCSNLI-

本データセットはファクトチェック支援を想定した含意関係認識システムの訓練・評価を目的に構築したデータセットです。

データセットはtsv形式で、各行はタブ区切りで

<index>
<gold_label (正解ラベル)>
<sentence1 (前提文・リソース文)>
<sentence2 (仮説文・疑義言説文)>

で構成されています。

1	contradiction	茶色 の ドレス を 着た 女性 が ベンチ に 座って い ます 。	女性 が 畑 で 踊って い ます 。

本データセットの訓練データはtrainディレクトリ内の3つのデータセットから構成されます。 jsnli_train.tsvはJSNLI の訓練データを使用しており、 unrelated_dataset.tsvはJSNLIの訓練データとlivedoorニュースコーパスを基に構築しています。

使用方法

以下のように結合したいトレーニングデータを指定してご利用ください。3つ以上のファイルでも結合可能です。 indexは自動で正規化されます。

(入力するデータは、上述の形式に準じます。)

$ python merge_training_dataset.py [file1.tsv] [file2.tsv]

ライセンス

このデータセットのライセンスはJSNLIと同じくCC BY-SA 4.0 に従います。

参考文献

栗原健太郎, 河原大輔: ファクトチェック支援のための含意関係認識システム, 言語処理学会第27回年次大会(NLP2021), (2021.3).

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
dev		dev
test		test
train		train
README.md		README.md
merge_training_dataset.py		merge_training_dataset.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FactCheckSentenceNLI-FCSNLI-

使用方法

ライセンス

参考文献

About

Releases

Packages

Languages

nlp-waseda/FactCheckSentenceNLI-FCSNLI-

Folders and files

Latest commit

History

Repository files navigation

FactCheckSentenceNLI-FCSNLI-

使用方法

ライセンス

参考文献

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages