こんにちは。
RubyでJUMANを使用していたら、UTF8のファイルでエラーが出まくっていたので調べてみたら「ただし,Windows 版は従来と同じく,入出力および辞書の文字コードはSJIS である.」とのことでした。(JUMAN version 7.0 マニュアルより)
なので、UTF8を用いてJUMANでなんかしらの操作をしたい場合はエンコーディングを行ってShift-JISに変更する必要があるみたいです。
という訳で、そこら辺を意識したRubyのプログラムを載せておきます。
好奇心ドリブンな日々の記録
こんにちは。
RubyでJUMANを使用していたら、UTF8のファイルでエラーが出まくっていたので調べてみたら「ただし,Windows 版は従来と同じく,入出力および辞書の文字コードはSJIS である.」とのことでした。(JUMAN version 7.0 マニュアルより)
なので、UTF8を用いてJUMANでなんかしらの操作をしたい場合はエンコーディングを行ってShift-JISに変更する必要があるみたいです。
という訳で、そこら辺を意識したRubyのプログラムを載せておきます。
RubyでJUMANを使う方法です。
JUMANについてはここを確認してください。
RubyでJUMANを使うためにはまずJUMANにPATHが通っていることを確認してください。
先日Tsukuba.rbというイベントがあったので、参加してきました。
これは、Ruby(その他技術的な話)についての勉強会inつくばという感じの集まりです。
どんなことやったかをまとめておきます。
Rubyを用いた自然言語解析をできるWebサービスを簡単に作れる方法はないかということを考えました。
Yahoo!のサービスで自然言語解析のAPIが公開されているようなので、そちらを用いて簡単なプログラムを作ってみました。
今回作ったのは文を入力すると語に分解して分かち書きしてくれるものです。
文末にソースコードを載せておくので参考にしていただけると幸いです。
また作成にあたって、Yahooで形態素解析ができるを参考にさせていただきました。
Continue reading
RubyでCGIを書いていたのですが、どうもエラーが出まくって動かない。
原因を調べてみると、ヒアドキュメント(※)の使い方が悪かったようです。
とりあえず、この記述を使うときはめっぽう注意が必要みたいです。
以下はヒアドキュメントを書く際の注意点を箇条書きにしてまとめたものです。
1.「EOF(終了マーク)」の前後に何も記述しない
「スペース」や「タブ」、「コメントアウト」もダメ
2.ソースコードの終わりに「EOF(終了マーク)」を持ってくるときは改行する
ファイルの中間に来る場合は特に意識しなくても良い
ヒアドキュメントは便利ですが、慣れないと扱いがむずかしいですね。
※下の様に記述するとHTMLをそのまま複数行に渡って出力できるのですが、
調べるまでこの記述のことを「ヒアドキュメント」と呼ぶことすら知りませんでした。
print << EOF # ここにHTMLを記述 EOF