用語辞書はプロジェクトへの導入等に重要なドキュメントだがこれをgawkだけで作成するには荷が重い。
そこで、コアになる形態素解析にはMecabを使う。Mecabに関しては各自ググってくれ。
gawk側ではMecabが通りやすくする為、フロント処理をする事とMecab出力結果から連名詞の使用頻度を取り出す事だ。
そこで、コアになる形態素解析にはMecabを使う。Mecabに関しては各自ググってくれ。
gawk側ではMecabが通りやすくする為、フロント処理をする事とMecab出力結果から連名詞の使用頻度を取り出す事だ。
結果として連名詞の使用頻度一覧が出力される。
使用頻度が高い固有名詞は重要な単語で、低い単語は誤字か誤用の可能性が高い。
AWKのつぼ
特になし。Mecab様々だ。
特になし。Mecab様々だ。
mecabx.bat
ntab.awk
mecab.awk
0 件のコメント:
コメントを投稿