[与太話]実はあまり賢くないのかも

自分が。。。って自分は馬鹿です。分かりきっていること。

ってそんな話題ではなくて、とある検索エンジンの形態素解析についてだ。

複数の名詞がくっついて一つの名詞を成している複合語の分解がうまくいっていないというよりやっていない?

検索エンジンは既にかなりインテリジェントであり、複合語の分解なんて普通にやっていると思っていたのだが、ほぼ確実に分解していない。カテ○リの内部検索だけだと思っていたが。。。

こんなアホ検索エンジン作るなよ。

辞書さえ揃っていれば和布蕪や茶せんを使ってそこらの駆け出しプログラマでも複合語の処理をできると思うのだが。。。

それともマシンリソースの節約で出来ないのか?

例えば「ふっくんのブログっぽいサイト」を検索しようとするとき「ふっくん ブログ」「ふっくんブログ」「ふっくんのブログ」の三種を候補とすると「ふっくんブログ」ではかなり低い評価で検索される。

検索するときは語句ごとという癖がみんな付いているので三種のうち接続詞を付けた「ふっくんのブログ」で入力する確率は一番低い。

なのでなるべく接続詞は付けないのがy○hoo対策においては必要だ。(と思う)

検証を自サイトでやっただけなので統計データとしては薄い。keywordsの設定についても同じだ。

実は有名な話なのかもしれないが、検索で引っかかってこないのよね。。。

まっ、与太話なので信じるも信じないもあなた次第?(おぃ

ふっくんのブログっぽいサイト: [与太話]実はあまり賢くないのかも
http://web.fpso.jp/article.php/20090412023442774