English version of this Web page
日本語単語類似度・関連度データセット JWSAN
日本語の単語ペア(2145ペア)に対する類似度と関連度を収録したデータセットを公開します。
公開データ
JWSAN-2145(
jwsan-2145.csv
, UTF-8):全データセット
JWSAN-1400(
jwsan-1400.csv
, UTF-8):単語の分散表現の性能評価用に、単語ペアを厳選したデータセット
なお、BOM付きUTF-8版も用意しました。Excelで開く場合には、こちらを使ってください。
jwsan-2145-bom.csv
/
jwsan-1400-bom.csv
ReadMe.txt
:データファイル内容の説明
jwsan.zip
:上記の3ファイル(UTF-8)をまとめた zip アーカイブ
本データセットについて
単語の分散表現(単語ベクトル)の性能評価には、JWSAN-1400 を利用することを推奨します。
本データセットの詳細や、JWSAN-1400 を推奨する理由については、
こちらのページ
(別のタブが開きます)をご覧ください。
本データセットの開発は、JSPS科研費基盤(B) 15H02713 の助成を受けています。
本データセットに関するお問い合わせは、jwsan@utm.inf.uec.ac.jp までお願いいたします。
文献
JWSANを利用した研究発表では、以下の文献を引用していただければ幸いです。
Keisuke Inohara & Akira Utsumi:
JWSAN: Japanese word similarity and association norm
.
Language Resources & Evaluation
, Vol.56, pp.109-137 (2022).
猪原 敬介,内海 彰:
日本語類似度・関連度データセットの作成
,言語処理学会第24回年次大会発表論文集,pp.1011-1014 (2018).
Last modified: November 11, 2022 by Akira Utsumi (utsumi@uec.ac.jp)