オフィス近藤卓

    【SEO】機械が文字を数値化するとは

    SEOではお客さんの利益になる文章が大事というが、、

    SEOでグーグル検索すると、「お客さんがわかりやすく」「お客さんのメリットになる文章にしよう」と書かれています。ただ、その「お客さんのメリット」を検索エンジンは機械によって判断しています。では、その機械がどうやってお客さんにメリットがあると判断しているのでしょうか。

    機械は文章を数値化する

    機械は文字をそのまま解釈できません。メリットがあるかどうかは、数値に変更してから計算します。例えば

    • A. 私はアイスクリームが好きです
    • B. 私はソフトクリームが好きです

    「私 は アイス クリーム が 好き です」と「私 は ソフト クリーム が 好き です」で言葉で分けると、全種類で8つの言葉。それぞれの文章の違いは1つです。もう一つの例を足すと

    • C. 私はアイスクリームが嫌いです

    Cを加えると、全ての言葉の数は「嫌い」が増えて9つ。文章の違いはAとの違いは1つ。Bとの違いは2つです。

    • Aにとって Bは $1/9$ Cは $1/9$
    • Bにとって Aは $1/9$ Cは $2/9$
    • Cにとって Aは $1/9$ Cは $2/9$

    となります。数値化できました。1/9 は 0.1111 で 2/9 は 0.2222 なので

    • Aにとって Bは $0.1111$ Cは $0.1111$
    • Bにとって Aは $0.1111$ Cは $0.2222$
    • Cにとって Aは $0.1111$ Cは $0.2222$

    ここでは数値化する簡単な例を挙げましたが、どんな優秀なエンジニアが設計しても、この基本的な「確率的に数値化する」という方向性は変わりません。一部の例外的手法はありますが、かなり例外です。上記のような数だけではなく、その前後の確率によって数値を変える等の手法もありますが、基本的には同じです。数値化するとは、人と同じように(?)解釈しているわけではないということです。

    数値が低い = 特徴のない = 他と同じような文章 = メリットがない?

    例えば、上記の文章ではAが一番数値が低いです。ウェブページで考えると、他のサイトと同じようなことを書いていて、読む必要がないとも考えられます。
    ただ、これはウェブサイトを評価する一つの要素であり、例えばAを書いた人が権威であり、みんなその人を信用していると仮定した場合、検索エンジンにとっては、それを紹介したくなるかもしれません。つまり、いわゆるバックリンクです。バックリンクとは「他のサイトに存在してる、自分のサイトへのリンク」です。他の人が紹介してるリンクなので価値が高いという素朴な解釈を機械でも使います。

    • A. は $10$ 個のバックリンク
    • B. は $15$ 個のバックリンク
    • C. は $5$ 個のバックリンク

    だった場合、最初に計算した 0.1111 に 10 をかけます。 0.1111 * 10 です。0.111になりますね。つまり、リンク分だけ数値が変化します。

    さらに考えると、上記の数値は、A or B or C にとっての数値です。それでは数値が定まりませんので、一つに強引に纏めます。やり方は単純です。これも数値をかけます。

    • A $ = 0.1111 * 0.1111 * 10$
    • B $ = 0.1111 * 0.2222 * 15$
    • C $ = 0.1111 * 0.2222 * 5$

    上記で AからCまでの文章が数値化されました。これで検索の順位に使えます。例えば、「私は」で検索した場合、3つともヒットし、順位は数値順です。

    ウェブサイト側がコントロールできる数値は設計上、重要視しない。注意して使う

    文章とバックリンクは両方ともウェブサイト側がコントロールできます。数値計算が操作された場合、最終的に検索サービスを利用する人のメリットになりません。なので、これらデータを検索エンジン設計者は注意深く利用します。端的にいうと、違和感がある言葉の使い方や、検索されやすい言葉の濫用をチェックします。これも単純に数を数えて、その特徴を見るというだけです。

    また、不自然な数値がでるサイトは、最終的な検索サービス利用者にとって不利益になる可能性が高いので、掲載順位は下がるはずです。

    ユーザの文脈を考える

    利用していれば分かりますが、検索サービスの検索結果は全文を表示しません。当たり前ですね。著作権的にもダメです。なので基本的にはタイトルとスニペット(description 概要)を表示しています。

    ユーザは、そのタイトルとスニペットを「なんとなく読んで」クリックします。そしてユーザが「このページは期待と違う」と感じれば、再度検索します。普段の僕らの行動そのままです。

    なので、タイトルとスニペットは重要です。例えば、SEOと検索した人は、SEOについて知りたいので、タイトルにSEOという言葉が入っているウェブサイトに反応します。非常に単純ですが、強いです。逆にタイトルにSEOという言葉が入っていないものを検索結果で表示すると、ユーザは「この検索サービスはまともに機能しているのか?」さえ思うはずです。つまり、検索サービス側として考えてもタイトルとスニペットは重要です。かなり不変な要素と考えても良いと思います。


    また、検索サービスを設計している人は、ユーザの文脈を考えて良い結果になるウェブサイトの数値が高くなる設計にしようとするはずです。例えば、専門用語で検索した人は、専門用語を知っているユーザです。つまり内容も専門的なウェブサイトを期待している。人は、ウェブサイトの判断を数秒でします。ウェブサイトの最初の文章は重要です。

    情報理論

    今回はかなり素朴で単純に文字を数値化してみる例を書きましたが、手法は色々あります。こういった変換で基礎的な学問は情報理論(Wikipedia)です。
    そして、その情報理論は、観測範囲を限定した熱力学的で、統計学的です。興味のある方は情報理論で検索してみてください。

    最後に

    検索エンジンの内部の処理は、コードを書いた人しかわかりませんし、コードを書く人も、どういう結果になるか完璧には分かりません。数値を用いて、さらに数値の切り捨てもあるからです。設計したので方向性だけは分かるという感じです。

    では、作った人に聞こう。ということで、GoogleはSEO対策の情報を公開しています。参考にしてみてください。Google 検索 セントラル

    関連記事

    情報の共有で行動が収束する