技術関係ネパール語の文字化けと表示について PDFにネパール語で書かれたテキストをローカルのエディタに貼り付けると文字化け?するのでどうにかしたいという話。まずはFontの話だと考えて、Fontを導入してみる。Wikipediaで調べたところ、ネパール語はデーヴァナーガリーという文字...2017-09-13技術関係
技術関係igo-PHPを使って形態素解析をやってみる 形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。ぼやぼや探していると、igo-PHPというお手軽そうなもの...2017-04-23技術関係
技術関係Cabochaのインストール Mecabは既にインストール済みCRF++ のインストール を参考に以下からダウンロード$ tar zxvf CRF++-0.54.tar.gz$ cd CRF++-0.54$ ./configure$ make$ su$ make i...2011-10-24技術関係
技術関係Mecabで取り扱う名詞と接尾語を連結させる<?php$mecab = new MeCab_Tagger();$last_posid = false;for ($node = $mecab->parseToNode($str); $node; $node = $node->getNe...2011-10-20技術関係
技術関係Mecabに住所用の辞書を追加する PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考にただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。それに合わせて処理全体が手作業っぽく...2011-07-05技術関係
技術関係今更A Plan For SPAMの邦訳へのリンク ・スパムへの対策 ---A Plan for Spam・ベイジアンフィルタの改善 --- Better Bayesian Filtering2011-07-05技術関係
技術関係ブログから本文抽出するためにHTML を参考にインストール $ perl -MCPAN -e shellinstall HTML::ExtractContent<<サンプル 上記参考サイトのものをそのまま流用|perl|use strict;use warnings;use...2011-07-04技術関係
技術関係PHPでベイジアンフィルタを使ってみる 主にここを参考にライブラリはここ上記のページを参考にして_getToken()をオーバーライドするNaiveBayesianJPを作成する。ただし、今回はYahoo!の日本語形態素解析サービスを使わずngramで対応するよう修正する|php...2011-07-04技術関係
技術関係専門用語自動抽出用Perlモジュール TermExtractをインストールする 予めPerlとMecabがインストールされていること$cd /usr/local/src$ wget $ tar zxvf TermExtract-4_08.tar.gz$ cd TermExtract-4_08$ perl Makefil...2011-06-30技術関係
技術関係mecabのユーザ辞書にWikipediaの用語を追加する を参考に$ wget $ perl conv.pl$ ls$ conv.pl jawiki-latest-all-titles-in-ns0 wikipedia.csv$ /usr/local/libexec/mecab/mecab-...2011-06-21技術関係