自然言語処理

技術関係

ネパール語の文字化けと表示について

PDFにネパール語で書かれたテキストをローカルのエディタに貼り付けると文字化け?するのでどうにかしたいという話。まずはFontの話だと考えて、Fontを導入してみる。Wikipediaで調べたところ、ネパール語はデーヴァナーガリーという文字...
技術関係

igo-PHPを使って形態素解析をやってみる

形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。ぼやぼや探していると、igo-PHPというお手軽そうなもの...
技術関係

Cabochaのインストール

Mecabは既にインストール済みCRF++ のインストール を参考に以下からダウンロード$ tar zxvf CRF++-0.54.tar.gz$ cd CRF++-0.54$ ./configure$ make$ su$ make i...
技術関係

Mecabで取り扱う名詞と接尾語を連結させる

<?php$mecab = new MeCab_Tagger();$last_posid = false;for ($node = $mecab->parseToNode($str); $node; $node = $node->getNe...
技術関係

Mecabに住所用の辞書を追加する

PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考にただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。それに合わせて処理全体が手作業っぽく...
技術関係

今更A Plan For SPAMの邦訳へのリンク

・スパムへの対策 ---A Plan for Spam・ベイジアンフィルタの改善 --- Better Bayesian Filtering
技術関係

ブログから本文抽出するためにHTML

を参考にインストール $ perl -MCPAN -e shellinstall HTML::ExtractContent<<サンプル 上記参考サイトのものをそのまま流用|perl|use strict;use warnings;use...
技術関係

PHPでベイジアンフィルタを使ってみる

主にここを参考にライブラリはここ上記のページを参考にして_getToken()をオーバーライドするNaiveBayesianJPを作成する。ただし、今回はYahoo!の日本語形態素解析サービスを使わずngramで対応するよう修正する|php...
技術関係

専門用語自動抽出用Perlモジュール TermExtractをインストールする

予めPerlとMecabがインストールされていること$cd /usr/local/src$ wget $ tar zxvf TermExtract-4_08.tar.gz$ cd TermExtract-4_08$ perl Makefil...
技術関係

mecabのユーザ辞書にWikipediaの用語を追加する

を参考に$ wget $ perl conv.pl$ ls$ conv.pl jawiki-latest-all-titles-in-ns0 wikipedia.csv$ /usr/local/libexec/mecab/mecab-...