技術関係 ネパール語の文字化けと表示について PDFにネパール語で書かれたテキストをローカルのエディタに貼り付けると文字化け?するのでどうにかしたいという話。 まずはFontの話だと考えて、Fontを導入してみる。Wikipediaで調べたところ、ネパール語はデーヴァナーガリーという文... 2017-09-13 技術関係
技術関係 igo-PHPを使って形態素解析をやってみる 形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。 ぼやぼや探していると、igo-PHPというお手軽そうなも... 2017-04-23 技術関係
技術関係 Cabochaのインストール Mecabは既にインストール済み CRF++ のインストール を参考に 以下からダウンロード $ tar zxvf CRF++-0.54.tar.gz $ cd CRF++-0.54 $ ./configure $ make $ su $ ... 2011-10-24 技術関係
技術関係 Mecabに住所用の辞書を追加する PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考に ただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。 それに合わせて処理全体が手作業っ... 2011-07-05 技術関係
技術関係 PHPでベイジアンフィルタを使ってみる 主にここを参考に ライブラリはここ 上記のページを参考にして_getToken()をオーバーライドするNaiveBayesianJPを作成する。 ただし、今回はYahoo!の日本語形態素解析サービスを使わずngramで対応するよう修正する ... 2011-07-04 技術関係