日本語類似度・関連度データセットの内容

jwsan-2145.csv では，以下のようにデータが配列されています．

----------
pairID,word1,word2,POS,similarity,association,n_sim,n_asso,JWSAN_1400
p0001,うら悲しい,物憂い,3,2.85,3.49,150,150,0
p0002,おっかない,酷い,3,1.56,2.78,170,140,0
...
p2145,麒麟,花瓶,1,0.57,1.24,150,150,0
----------

各列の内容は以下の通りです．

pairID: ペア番号（JWSAN-2145とJWSAN-1400で共通）
word1, word2: ペアを構成する単語
POS: 品詞（1=名詞，2=動詞，3=形容詞）
similarity: 類似度評定値の平均値(0-6)
association: 関連度評定値の平均値(0-6)
n_sim: 類似度の平均値を算出する際のデータ数（評定者数）
n_asso: 関連度の平均値を算出する際のデータ数（評定者数）
JWSAN_1400: 1=JWSAN-1400に収録されているペア，0=収録されていないペア

jwsan-1400.csv は，jwsan-2145.csv のうち，JWSAN_1400の列が 1 のペアだけを取り出して，JWSAN_1400の列を削除したものになっています．（以下の Unix コマンドで生成しています．）

>> egrep '1$|00$' jwsan-2145.csv | cut -f 1-8 -d ',' > jwsan-1400.csv