2011-01-04

Coding Horror: Googleに問題アリ

Coding Horror: Trouble In the House of Google

Coding Horrorで有名なJeff Atwoodが、スパムサイト問題に言及している。

Jeff AtwoodはStack Overflowの管理人である。Stack Overflowは、プログラマーのための質問箱を提供しているサービスである。質問と回答は、サイトのユーザーによって行われる。

2010年度のstackoverflow.comのトラフィック元

88.2%ものトラフィックが、たったひとつのソースからやってくるというとき、そのソース元に感じることは・・・「危険」である。この考えは、プレゼントされた馬の口をその場で確認して馬齢を調べたりするぐらいに(訳注:慣用句、Don't look a gift horse in the mouth)、失礼なことかもしれない。あるいは、取引先の悪口を公然と言うとか。

それにしても、このアクセス解析を見ると、やはり、考え込んでしまうのだ。Googleは独占企業ではないとは、何度も聞かされてきたことだ。とはいえ、明らかにズバ抜けているのだ。もちろん、我々はいつでも、他のあまり役には立たない検索エンジンに切り替えることができる。東西、東西、自由の空気を吸いたまえ。

皮肉はさておき、私はGoogleを尊敬している。私の目標は、決して合併買収されることではない。物事には時間がかかるものだ。しかし、もし仮に、買収される企業を選ぶとするならば、Googleになるだろう。ソーシャルな繋がりより、情報の繋がりを重視する彼らの考えは、他のどの企業よりも、我々の目標と似通っているからだ。とにかく、Googleのもたらすトラフィック量には、大変満足している。しかし去年、なにか妙なことがおこった。パクリサイト(訳注:他のサイトのコンテンツをまるまるコピーして、大量の広告と共に転載するセコいサイト)の影響で、我々のコンテンツの、Googleにおけるランクが下がってきているのだ。

我々のコンテンツをパクること自体は、別に問題ではない。というよりも、むしろ積極的にパクるべきである。だいたい、ユーザーがサイト上に提供してくれているコンテンツの所有権を主張したり、コンテンツ搾取者になるというのは、フェアではない。Stack Overflowに書きこまれたこと、それから、Stack Exchange Networkサイトの書き込みはすべて、クリエイティブ・コモンズ cc-by-saライセンスで、コミュニティに還元されるのだ。コミュニティが成果を所有するのである。世界中の人間が、お互いに教えあい、質問と回答集から学んで欲しいためだ。改変、再利用、共有によって、教育がなされるのだ。それが我々の目標である。私はそのために、毎朝、目を覚ましているのだ。

しかし、この方法は、元ソースであるオリジナルの質問と回答が、一番上にランク付けされるという前提のもとに成り立っている。たとえば、Wikipediaだ。Wikipediaへのリンクをクリックしたら、中身は何もなくて、ただWikipediaの著作権を主張する文章と広告しか載っていなかったということは、あっただろうか。一度もないであろう。しかし、これは、現実にはありうる、ひどく汚いビジネスモデルなのだ。だからこそ、Joel Spolskyと私は、コンテンツにほとんど制限を加えず、コミュニティに還元することこそが正しいと信じているのだ。Googleは、単なるコピペアフィサイトに対し、ペナルティを課している。改変と再利用はいいのだ。しかし、単に丸々コピーしただけのアフィ乞食は、いただけない。

これは、一般常識に属すると思う。Googleのwebmasterコンテンツガイドラインにも、明確に書いてあることだ。

しかし、Web管理者の中には、ページランクを上げて閲覧者を増やそうと、まともなコンテンツがないのに大量の単語を列挙したページを作ったりする。Googleは価値のないパクリや自動生成ページによってランクを上げようと試みるドメインに対し、対抗措置を取る。

例:

パクリコンテンツ。あるWeb管理者は、他社のより価値のあるサイトから、コンテンツを持ってきて、ランダムにWebページのボリュームを増やそうとする。単なるパクリコンテンツは、たとえ価値の高いソースからのものであっても、サイト自体が、何らかの付加価値を提供しない限り、ユーザーには何の価値も与えない。オリジナルのコンテンツを作るのに時間を割いたほうが有益である。これは、閲覧者の再訪問に繋がり、よりよい検索結果をもたらす。

2010年、我々のメールボックスが、ユーザーからの不満で溢れかえった。不満というのは、至って普通のGoogle検索をしているのに、Stack Overflowからコピペして広告を追加しただけのパクリサイトだらけになってしまうということである。さらに悪いことには、オリジナルのStack Overflowの質問は、検索結果に上がらないことすらある始末。これは実に妙なことである。というのも、ライセンスは、質問の元ソースに対し、nofollowを使わずに、リンクし返すことという条件を付けているからである。パクリサイトをインデックス化するGoogleは、元ソースへのリンクを見逃すはずがない。このような自体に対し、コピペサイトからStack Overflowに自動リダイレクトするブラウザープラグインまで作られた。何というあほらしいことだろう。Joelと私は、これをありえないことだと考えた。これは、私の失敗のせいではないだろうかと思った。

Googleのせいだという意見は、私には妥当だとは思われない。GoogleはWebにおける万有引力である。揺るぎない不変定数である。Googleをそしるのは、万有引力を批判するのに等しい。そんなのは選択肢のうちにも入らない。私はまず真っ先に、自分のせいである(訳注:リンク先も同ブログ。プログラムの問題の責任は、まず間違いなくプログラマー本人にあるという法則)という法則に従った。我々は実に多くの微調整をwebmasters.stackexchange.comに対して行った。何かとんでもないアホ臭いことをしていないかどうかを調査した。スーパーハッカーのMatt Cutts(訳注:Google社員、この手のspamサイト問題への対策部署のトップである)も、私のtweetに反応して、検索結果を調査してくれた。両方に問題が見つかり、修正がなされた。成功だ!

結果として、多少の改善を見たものの、私にはふと、ある不安な考えがよぎった。極少数のコピペサイトによって、こんなにも効果的に、トラフィックを我々から奪えるのである。他のWebはどうなっているのだろう。私のGoogleに対する、万有引力定数のような信仰が揺らいだ。極めて根本的に揺らいだ。

この問題の調査中、私は始終、Googleの構築したアルゴリズムによる検索システムには、重大な亀裂が走っているのではないかという疑問を抱えていた。しかし私は、ド素人丸出しのバカ呼ばわりされるのを恐れ、この問題に関する記事を書かずにいた。そのような意見を広く公開するのは、あまり気持ちのいいものではない。なぜなら、問題の責任は我々にあるのかもしれないのだから。これは、我々のやり方である。万有引力が間違っているわけがない。我々のせいなのだ・・・だよね?

この数ヶ月、Googleの検索結果に重大な問題を抱えているのは、独り我々のサイトだけではないことは、無視することができなかった。事実、Googleの検索品質の低下を嘆く声は、ごく最近、頻繁に聞かれるようになったのだ。

個人的な意見では、私のパーソナル検索結果は、最近どんどん悪くなってきている。ワイフへのクリスマスプレゼント購入のため、私はGoogleで、「iPhone 4 ケース」と検索した。私はまったくもって無価値な最初の2ページを読み飛ばした後、Amazonでの検索に切り替えた。

私の信頼している知人も、皆、同様の意見である。Googleは、かつての最重要ツールとしてのGoogleは、次第に切れ味がナマってきているのではないか。スパマー、パクリ、SEO業者が、勝ってきているのだ。

まっとうな人間ならもちろん、この戦いではGoogleを応援するはずである。Googleには、是非ともアルゴリズムを調整してもらい、このブログ記事の内容を単なる杞憂にしてほしい。しかし、2000年よりこのかた、Googleの検索品質に疑問が生じたのは、これが初めてである。この疑問は、さらに飛躍した考えを生む。ひょっとしたら、我々はアルゴリズムによる検索が、戦略として敗北する、最初の兆候を見ているのではないだろうか。では次世代の検索は、アルゴリズム要素を弱め、ソーシャル要素を増やしたものになるのだろうか。

3 comments:

Anonymous said...

次世代は検索ではなくて、Facebookにとって代わられる可能性のほうが高そうです(少なくとも米国では)。

edvakf said...

StackOverflow のコピーサイトは本当に頭に来ますね…。

日本でも↓のような酷い例があったのですが、(これらは全部 OKWave が各社に提供するコンテンツだったのが大きな違いですが)今は本家の OKWave と「教えて!goo」以外は検索結果に現れないみたいです。

http://f.hatena.ne.jp/images/fotolife/e/edvakf/20090924/20090924002418.jpg

Anonymous said...

今後ソーシャル検索でもSPAMが横行するようになる気がします。