自然言語処理

技術関係

ネパール語の文字化けと表示について

PDFにネパール語で書かれたテキストをローカルのエディタに貼り付けると文字化け?するのでどうにかしたいという話。 まずはFontの話だと考えて、Fontを導入してみる。Wikipediaで調べたところ、ネパール語はデーヴァナーガリーという文...
技術関係

igo-PHPを使って形態素解析をやってみる

形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。 ぼやぼや探していると、igo-PHPというお手軽そうなも...
技術関係

Cabochaのインストール

Mecabは既にインストール済み CRF++ のインストール を参考に 以下からダウンロード $ tar zxvf CRF++-0.54.tar.gz $ cd CRF++-0.54 $ ./configure $ make $ su $ ...
技術関係

Mecabに住所用の辞書を追加する

PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考に ただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。 それに合わせて処理全体が手作業っ...
技術関係

PHPでベイジアンフィルタを使ってみる

主にここを参考に ライブラリはここ 上記のページを参考にして_getToken()をオーバーライドするNaiveBayesianJPを作成する。 ただし、今回はYahoo!の日本語形態素解析サービスを使わずngramで対応するよう修正する ...