English version of this Web page

日本語単語類似度・関連度データセット JWSAN

日本語の単語ペア（2145ペア）に対する類似度と関連度を収録したデータセットを公開します。

公開データ

JWSAN-2145（jwsan-2145.csv, UTF-8）：全データセット
JWSAN-1400（jwsan-1400.csv, UTF-8）：単語の分散表現の性能評価用に、単語ペアを厳選したデータセット
- なお、BOM付きUTF-8版も用意しました。Excelで開く場合には、こちらを使ってください。
  jwsan-2145-bom.csv / jwsan-1400-bom.csv
ReadMe.txt：データファイル内容の説明
jwsan.zip：上記の3ファイル(UTF-8)をまとめた zip アーカイブ

本データセットについて

単語の分散表現（単語ベクトル）の性能評価には、JWSAN-1400 を利用することを推奨します。
本データセットの詳細や、JWSAN-1400 を推奨する理由については、こちらのページ（別のタブが開きます）をご覧ください。
本データセットの開発は、JSPS科研費基盤(B) 15H02713 の助成を受けています。
本データセットに関するお問い合わせは、jwsan@utm.inf.uec.ac.jp までお願いいたします。

文献

JWSANを利用した研究発表では、以下の文献を引用していただければ幸いです。

Keisuke Inohara & Akira Utsumi: JWSAN: Japanese word similarity and association norm. Language Resources & Evaluation, Vol.56, pp.109-137 (2022).
猪原敬介，内海彰：日本語類似度・関連度データセットの作成，言語処理学会第24回年次大会発表論文集，pp.1011-1014 (2018).

Last modified: November 11, 2022 by Akira Utsumi (utsumi＠uec.ac.jp)