2011/12/08(木)オープンソースの全文検索エンジンSolrについてメモ

2011/12/08 13:19 覚え書き
オープンソースの全文検索エンジンをいろいろ調べてみて、
Solrってのがなんか良さそうだったのでインストールしたりしてみた。

オープンソースの全文検索エンジンにはいろいろあって、有名なのはNAMAZUとかSenna。
NAMAZUは小中規模向けっぽい。
SennaはMySQLを置き換える格好になるのでちょっと使いたくないなと思ってた。
で、Solrは単独で機能する上にかなり大規模までいけるらしい。20億インデクスくらいいけるとどっかに書いてあった。
ちなみにエンジンのコアはLuceneというやつで、それにいろいろくっつけて便利にしたのがSolr。さらにGUIとクローラーまでくっつけたFessというのもあって、これは日本人が作ってたりする。クローラー付きのものにはNutchという海外産のものもある。
でもどれも全体的にドキュメントが少ない。今回試してみたけど、結局よくわからん部分も多く、実戦投入まではいきませんでした。Ceronの全文検索とかまかせられればよかったんだけど。
Nutchは「Googleに代わるオープンな検索エンジン」を標榜してたりするので、サイト内検索とかじゃなくネット全体の検索エンジンも作れそうな気もするけど実際のところ負荷的にどうなんですかね。期待もあるけど気軽に試すレベルでもないしなあ。20億インデクスじゃ足らなそうだけど。

で、以下、Solrをインストールして稼働させるまでに調べたことを備忘録でメモしておきます。ご参考まで。殴り書きですすいません。

・基本、ダウンロードして解凍するだけ。お手軽。

・サーバにサービスとして認識させるために起動シェルを登録。
http://ochien.seesaa.net/article/153105901.html
http://d.hatena.ne.jp/fat47/20110920/1316505461
init.dまわりの説明はこちら http://www.usupi.org/sysad/031.html

・そのままだと日本語対応してないので形態素解析とか入れる。
以前はSenが主流だったけど開発終了。いまは日本語検索にはGoSenを使うらしい。
http://d.hatena.ne.jp/lettas0726/20110711/1310375789
http://d.hatena.ne.jp/hjym_u/20110620/1308578328

・速度的にもSolr優秀。Sennaより成績いい。
http://thinkit.co.jp/book/2008/11/25/211

・PerlインタフェースとしてWebService::Solrがある。
けど、ちょっと巨大すぎ?依存モジュールがやたら多い。自作したほうがよさげ。

・基本マルチコアにする。
各コアにlibディレクトリを作り、それぞれに日本語トークナイザーを入れる。

・Solr自体がWebサーバ(jetty)を持ってて管理画面はその上で動く。Apacheと連携させちゃったほうが管理面で何かと便利そう。
http://www.atmarkit.co.jp/fjava/rensai4/safetomcat_01/safetomcat_01_2.html(理屈はここの中盤のTomcatの場合と同じ)
→でもなんかうまくいかなかった!!!未解決!

以上。

追記(2011/12/9)
ちなみに本は下記を買いました。これ一冊で基本的な部分は困らない。
asin:4774141755
Apache Solr入門

追記(2012/6/17)
ログの出力先の設定がググっても出てこなくて迷ったが、上記起動シェル内で設定していた。これで/var/log/以下にsolr.logが出てくるので、logrotate.dでログローテーションの設定をすればいい感じになる。

2011/12/06(火)レビューとレコメンドの総合サイト「フルチェック」をはじめました。

2011/12/06 11:04 開発日誌
昨日、あたらしいサービスを公開しました。

レビューとレコメンドの総合サイト「フルチェック」
http://flck.jp/

2011120601.gif


ネット上のさまざまなサイトやブログで書かれたレビューを集約したレビューまとめサイトです。また、同様にネット上のさまざまなデータを分析して、商品同士の関連性を計算したレコメンド機能も提供する予定です。

3年ほど前から似たようなコンセプトでブロガーの本棚という書評まとめサイトを運営していますが、これを本だけに限らず拡大、充実させるような形を目指しています。ブロガーの本棚はそれなりに好評価をいただきながらもアクセス数的にはいまいち伸びなかったので仕切り直し、という意味もあります。
データも流用しているので、フルチェックが伸びそうであればブロガーの本棚は終了する方向で考えています。

あと、前述の通りレコメンド機能は充実させる予定です。
どこのショッピングサイトにもついているレコメンド機能ですが、自分の経験上あまり新しい出会いにつながってる感じがしません。もっとディープに掘り下げられるようなレコメンドが可能なんじゃないかと考えてます。
レコメンド単体のサービスにしたほうがエッジが効いてていいかなとも思ったんですが、トラフィック分散させてもモチベーションに関わるので総合サイトとしての扱いになりました。
ちなみにレコメンド系は過去に「この人も好きかも(閉鎖済)」というのを運営してたことがあります。

さらに商品検索結果は画像大きめにしてレビューも一覧できるようにしました。これは今運営中の「一望amazon」を踏襲しています。

というわけで、これまで自分が作ってきたショッピング系サイトのコンセプトをまとめたような格好になってます。いままで自分なりに便利だと思うものを作ってはきたけどあんまりトラフィックが伸びなかったのでリベンジ的な意味合いもあります。以前よりはサイト開発運営のノウハウも深まっていますし。

いろいろ理念だけ先行していて機能的には未成熟な感じですが様子見しながらバージョンアップを重ねていければと思います。
どうぞご利用ください。

レビューとレコメンドの総合サイト「フルチェック」
http://flck.jp/

2011/08/15(月)原寸画像検索をリニューアル

2011/08/15 21:18 開発日誌
原寸画像検索をリニューアルいたしました。

原寸画像検索
http://gensun.org/

20110815.gif


いろいろ変更しているのですが、主な変更ポイントを列記します。

■スマートフォンからの閲覧に対応
スマートフォンからのアクセスがだいぶ増えてきたので対応しました。
画面サイズに応じて横幅を調整することで、スマートフォンのような小さな画面でも快適に見られるようになっています。
ただ、数百枚単位で画像を並べているのでどうしてもスマートフォンではスペックが追いつかないことも...。次のページの読み込みが遅いことがありますが、その点はご容赦ください。

■各APIへのリクエストを削減
今まで、一部APIの利用制限をオーバーしてしまっていたため、検索結果の数が少なめになってしまうことがあったのですが、キャッシュの効率を上げ、なるべくAPIを叩かないよう調整しました。
APIの呼び出しを少なくしたことでレスポンスも向上しています。
ちなみに、米Yahoo!BOSS APIのVer2に対応し、従量制の有料APIを利用しはじめました。有料APIの使用は初めてですが料金を様子見しながらリクエストを調整していきたいと思います。

■検索ワードの解説や関連キーワードを画面下部に
画面下にマウスを持って行くと、検索キーワードについての補足情報が表示されます。誰これ?と思ってもすぐに調べられるのでなかなか便利です。
20110815_02.gif


■画像の隙間が減った
さまざまな大きさの画像をずらっと並べていたので、どうしても画像の間に大きな隙間ができてしまうことがあったのですが、今回のバージョンでは画像の並び順に一手間加えることで隙間を減らすことに成功しています。

■表示できない、または削除済みの画像についてもテキスト表示が可能に
原寸画像検索は基本的に削除された画像については表示しない(というかホットリンクなので表示できない)仕様なのですが、削除されていてもテキスト情報だけは欲しいということもあるので、削除済み画像の情報を表示するオプションを用意しました。詳細設定から選択できます。
このオプションを指定すると、ホットリンク禁止のサイトについても同じようにテキストだけ表示されます。
(↓こんなふうに表示されます。)
20110815_03.gif


■トップページのサムネイルが綺麗な正方形に
トップページや一覧ページに並べる画像をきれいな正方形にトリミングしました。見栄えはかなり良くなったかと。

■FC2の画像も見られる
FC2やYahooブログなど、一部のサイトは画像のホットリンクを禁止しています。そのため原寸画像検索では検索結果に出ることがなかったのですが、一部キャッシュシステムを導入し、これらのサイトの画像もキャッシュという形で表示できるようにしました。特にFC2は画像の量が多いので、検索ワードによっては表示される画像が大幅に増えています。
(ディスクを逼迫しないよう、キャッシュ画像のサイズはやや小さめに、画質も少し落としています。)

■評価制度
画像の下にある★をクリックすることで、画像に投票できます。
現時点では投票数が検索結果に影響することはありませんが、そのうち何かに使うかも…。

以上です。
旧サイト(http://gensun-images.com/)も稼動していますが、しばらくしたらリダイレクトさせて新サイトに統一する予定です。

原寸画像検索
http://gensun.org/

2011/07/25(月)Ceron.jp開発ブログをスタート

2011/07/25 18:07 開発日誌
Ceron.jp専用の開発ブログをスタートさせました。

Ceron.jp開発ブログ

基本的にCeronのことはすべて「Ceron.jp開発ブログ」で書きます。
専用ブログの方では今まで書かなかったような細かい変更や実験的なものも記載していく予定です。

で、今ご覧のブログはこれまで通り、Ceron以外のサービスについての話や、nihonyamoriの個人的な雑記などを書いていくつもりです。

2011/06/26(日)全再生型動画検索visme(ビスミー)を公開しました。

2011/06/27 17:57 開発日誌
新サービス作りました。動画検索サイトです。

全再生型動画検索サイト visme[ビスミー]


検索結果にサムネイルではなくプレイヤーをそのまま並べ、再生させながら検索できます。
20110627.jpg

一画面に収まる9~12個の動画が一挙に再生されます。
すごくノイジーになりそうな気がしますが、意外と普通に見れます。
従来の動画検索のような「検索→クリック→再生→戻る」を繰り返さなくても、なんとなく流し見しながらたくさんの動画の内容を把握できます。
スクロールしていくとどんどん下に検索結果がつながり、次々再生されていきます。ちなみに画面外にスクロールアウトした動画は、負荷の兼ね合いからも一時停止されます。

動画はどうしても一個の内容を把握するのに時間がかかってしまうので、もっと短時間でさくさく把握できる動画検索はできないかという考えで作りました。
他局の番組が一斉に写ってるテレビ局のバックヤードみたいなのを連想してもらえればと思います。

当然といえば当然ですが、ちょっと重たいです。

アクセスするといきなりいろいろ再生されて音が出るので、音量にご注意ください。
全再生型動画検索サイト visme[ビスミー]

OK キャンセル 確認 その他