日本語類似度・関連度データセットの内容 jwsan-2145.csv では,以下のようにデータが配列されています. ---------- pairID,word1,word2,POS,similarity,association,n_sim,n_asso,JWSAN_1400 p0001,うら悲しい,物憂い,3,2.85,3.49,150,150,0 p0002,おっかない,酷い,3,1.56,2.78,170,140,0 ... p2145,麒麟,花瓶,1,0.57,1.24,150,150,0 ---------- 各列の内容は以下の通りです. pairID: ペア番号(JWSAN-2145とJWSAN-1400で共通) word1, word2: ペアを構成する単語 POS: 品詞(1=名詞,2=動詞,3=形容詞) similarity: 類似度評定値の平均値(0-6) association: 関連度評定値の平均値(0-6) n_sim: 類似度の平均値を算出する際のデータ数(評定者数) n_asso: 関連度の平均値を算出する際のデータ数(評定者数) JWSAN_1400: 1=JWSAN-1400に収録されているペア,0=収録されていないペア jwsan-1400.csv は,jwsan-2145.csv のうち,JWSAN_1400の列が 1 のペアだけを取り出して,JWSAN_1400の列を削除したものになっています.(以下の Unix コマンドで生成しています.) >> egrep '1$|00$' jwsan-2145.csv | cut -f 1-8 -d ',' > jwsan-1400.csv