重複サイトの謎に迫る|SEO女子コラム

世はバレンタインで浮かれていたかも知れませんが私たちは違います!しっかりと勉強をしていました!ということで今回のSEO女子コラムテーマはこちらです。

第8回コラムテーマ「重複サイトの謎に迫る」

重複サイトというのは「wwwの有り無し」「index.htmlの有り無し」サイトです。これって、どうして出来ちゃうんでしょうか?そもそも何のこと…?そんな素朴?な疑問を持った私たちは即調べてみました~。
それでは、コラムスタートです☆

URLの意味を知ろう!

担当者:おかもっさん

前回はHTTPSについて調べました。URLの意味・ネットの仕組みに関してほんの少しづつ意味がわかってきたような気がします。(毎回必死ですが)
そんな今回はWWWについて調べてきました。
最近はWWWのないURLも増えてきていますが昔からインターネットを使用している方はWWWありのURLが馴染み深いのでは?
GoogleさんのURLにもWWWが記述していますね。このWWWには一体、どういう意味があるのでしょうか?

一体WWWってなんですか?
WorldWideWeb

ネットを見ているとWWWありのURLとWWWなしのURL、様々なサイトが存在しています。
「WWW」単体の意味はワールドワイドウェブという意味で、Webとも言われます。
Web=蜘蛛の巣という意味にあるように、世界中へインターネットという名のクモの巣を張り巡らせ、情報を行き来させるシステムです。
詳しく調べたところ、元々はヨーロッバの研究所が作成した情報共有システムだそうです…すごい…
世界中に細かに張り巡らされている蜘蛛の巣(インターネット)は専用のデータを利用することで情報共有が可能になります。
この専用のデータとは以前解説したHTMLの事です。このHTMLを読み取って情報をやり取り出来るシステムとなっています。

WWWにするメリットはあるの?

このWWWあり・なしでメリットがあるのかを調べてみたところ、正直WWWありとWWWなしでもあまり違いはないようです。
メリットを挙げるとすれば…
たとえば昔からインターネットを使用している方がメインユーザーの場合はWWWありのURLの方が覚えやすいと思います。
スマホなどPC以外のデバイスを使用してURLを入力する際にはURLが短くなる為、WWWなしの方が入力しやすいです。
少し年齢層が上のユーザーが多いならWWWあり、年齢層が低め・スマホに対応したサイトならWWW無しを選ぶのがいいかもですね。

注意点
重複サイトの仕組み

もしWWWなしのURL・WWWありのURL両方存在しているサイトは要注意です。
なぜならGoogleはWWWなし・WWWありのURLを別サイトとして認識するからです。
URLにWWWあるかないかで別サイト扱い…ということは重複サイトとして認識される。
とても怖いですね((((;゚Д゚))))ガクブル

そんな事が起こらないように、まずは重複サイトと認識されていないかを確認しましょう。
cache:各URLでキャッシュに取られているURLを確認することが出来ます。

WWWありまたはWWWなしのどちらかのURLで取られている場合は重複サイトと認識されていません。もしくは、Googleが上手く理解をしれてくれています。
WWWあり・WWWなしの各URLがキャッシュに取られている場合は、Googleに重複サイトとして認識されてしまっています。

重複サイトと認識されないようどちらかのURLを記述したcanonicalタグを設置する・301転送をかける事が大切なのではないかと思います。

その修正をする際には内部リンクのURLも統一しておきましょう。
WWWありのサイトなのに内部リンクで一部だけWWWなしのリンクが存在していたら、ユーザーが混乱してしまいますね。
ユーザーに合わせたURLで利用しやすいサイトにしておくことで訪問数もアップするかもしれませんよ。

URLの意味を知ろう!その2

担当者:つじさん

サイトの重複で言えばcanonicalの項目で書いたように、まだサイトの仕様上どうしても出来てしまう重複がwww以外にもあります。それが「index.html(index.php)」です。
自分のサイトが「http://exmple.com/」だった場合、特別な場合を除き必ず「http://exmple.com/index.html」というURLが出来てしまうのです。

なぜindex.htmlは表示されるの?

そもそも同じ内容なのに、なぜURLが違うのでしょうか?原因を探るにはサイトの構造を読み解く必要があります。

通常WEBサイトを作成する時はファイルとフォルダを使用します。内容ごとにファイルをフォルダ分けして名前を付けていく…と言った感じで作成をします。
サイトの作り方から説明するととてもややこしいことになるので省きますが、その時の約束として、フォルダの中に必ず1つ「index.html」という名前をつけたファイルを作成しなければなりません。

それは、wwwサーバーがURLを指定された時に、特にファイルの名前が指定され無かった場合はまず最初に「index.html」という名前をつけたファイルを探しに行く仕様になっているからです。

では次にサイトの表示の仕方です。通常はURLにファイルの名前を入れて指定をすることで、サーバーがその名前の付けられたファイルを表示する仕組みになっています。ですから、main.htmlというファイルを表示させたい時はhttp://exmple.com/main.htmlとURLで指示をしてあげます。
しかし、index.htmlファイルだけは例外で、わざわざURLに記述をしなくてもそのファイルの中身を表示させてくれます。
これが「index.html」有り無しのURLが生まれる原因なんですね。
indexファイルの仕組み

上では作成しなければいけない、というニュアンスを使いましたが、もちろん作らなくてもサイトを表示する方法はあります。また、ファイルは使っているシステムによってhtmlだったりphpだったりします。(これがindex.phpですね。)

Googleのindex.htmlの扱い

こんな感じで作成されてしまったindex.html有り無しのページですが、もちろんGoogleはURLが違えば別のサイトとして判断をするので、重複サイト扱いです。このままでは評価が分散してしまう上に評価が下がってしまうかもしれません…!
それを防ぐのがcanonicalタグであり、リダイレクトなのです。

Googleからの評価として、index.html有り無しのどちらのURLに統一をした方がいい、等といった違いは全くありません。それに、どちらでも内容は同じですし、好きな方で構わないのです。
しかし、一般的に見てサイトTOPのURLは階層がなくスラッシュで終わっているものが殆どでしょうし、短くて済むので楽ですよね。見栄えも綺麗なので、私はindex.html無しを推奨します。

重複サイトを紐解くと、実はWEBの仕組みからサイトの作り方まで調べなければ行けなくてとても大変でした…。WEBサイトって、奥が深いですね…。
ところでバレンタインで浮かれていたのは実は私達も同じで…しっかりとチョコ選びからお渡しまで楽しませてもらいましたよ(笑)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください