如何避免網站的站內搜尋成為垃圾內容索引

2021 年 WordPress 網站出現了大規模的 SEO 垃圾內容攻擊,這些攻擊都針對網站的「站內搜尋 (Internal Site Search)」功能。

大多數情況下,站長們不會發現網站的 SEO 受到影響,但是時間久了,垃圾內容索引與您的網域關聯越多,時間久了也會對網站的信譽造成負面影響。

Google 一直以來都會持續發布新政策處理搜尋結果中出現的垃圾內容,讓使用者能夠獲得更正確 (而非被操弄) 的搜尋結果、真正有益於使用者。2024 年的 3~4 月也推出了新版的垃圾內容政策,希望能夠處理以下垃圾內容濫用行為。

  • 過期的網域濫用
    曾經產出良好內容、信譽好的網域過期之後被人刻意搶下放入垃圾內容。
  • 大規模內容濫用
    常見的內容農場,以及使用 AI 工具大量產製的文章內容。內容的產出不是為了幫助訪客獲取資訊,而是用來操弄搜尋排名。
    不限於是使用工具自動產生、或是人工產生垃圾內容。
  • 網站信譽濫用
    網站提供垃圾內容卻大量地到內容品質良好、信譽好的網站上留言增加反向連結,試圖藉此獲得網域權重、操弄搜尋排名。

垃圾內容發送者 (Spammer) 與 Google 之間的戰鬥持續進行中,時至今日,不時還是會看到站內搜尋成為垃圾內容索引的受害案例發生。

Google Search Console

大家如果有使用 Google Search Console,可以在「產生索引」中的「網頁」頁籤查看網頁索引狀態。

在「已建立索引」與「已檢索 – 目前尚未建立索引」的相關資料中,可以查看這些頁面網址。

internal-site-search-spam-crawled-currently-not-indexed

如上圖,這是外國網友的網站,但被塞入與原網站內容完全不相關的站內搜尋垃圾內容。

這其實就是垃圾內容發送者正在利用網站的站內搜尋來投放廣告。

幸好這些站內搜尋網址尚未在 Google Search Console 中建立索引,一旦索引建立了,不知情的訪客就有可能透過索引網址中的垃圾連結進入第三方網站,久而久之,就會對網站的信譽造成負面影響。

垃圾連結的例子:

  • https://yoursite.com/?s=get cheap hosting from www.spammersite.com

然而,即使這些網址只是出現在「已檢索 – 目前尚未建立索引」的結果中,依然會對網站造成潛在的影響,因為搜尋引擎的檢索預算是有限的!

耗費了資源在不相關、無意義的垃圾內容上,相對而言,就會影響到搜尋引擎分析其他頁面、內容的資源分配。

避免垃圾內容索引、檢索

透過 robots.txt 禁止檢索

如果不希望搜尋引擎檢索網站中的特定頁面,可以在 robots.txt 中指定禁止檢索的頁面規則。

參考資訊 – 告訴 Google「不要」檢索哪些網頁

Google 搜尋中心

然而,這只能防止自己的網站被「遵守規則」的搜尋引擎、爬蟲程式檢索相關頁面,並無法直接避免頁面被索引。

因為垃圾內容的發送者依然有可能從自己操控的網站中大量反向連結到他們製造的垃圾內容搜尋結果頁面,導致這些頁面因此被索引。

使用 SEO 外掛

所幸大多數的 SEO 外掛都提供了功能可以將網站的站內搜尋結果頁面排除在 Google 索引之外,包含 Yoast SEO、RankMath SEO 都可以將相關頁面的 meta robots 標籤設定為 noindex。

以 RankMath SEO 為例,從 WordPress 後台 Rank Math SEO 選單中的「Titles & Meta」>「Misc Pages」頁籤中,可以啟用 Noindex Search Results 功能。

rankmath-noindex-search-results

Cloudflare WAF 自訂規則

更進一步,如果想要避免垃圾內容機器人無端浪費主機資源的話,也可以利用 Cloudflare 的 WAF 自訂規則,訪客需要通過 Cloudflare Turnstile 的查問 (Challenge) 才能使用站內搜尋功能。

restrict-internal-site-search

在設定規則之前,需要先了解網站搜尋功能的網址格式,同時也多分析「已建立索引」與「已檢索 – 目前尚未建立索引」中的搜尋結果網址結構。

舉例來說:

  • 網站的搜尋結果頁面網址格式可能為 ?s=example 或 /search/example。
  • 或是在分頁下的搜尋結果,例如 ?page/4/?s=example 或 /search/page/3/?s=example。
  • 也有可能利用了搜尋結果的 RSS feed,例如 /search/example/feed/rss2/。

知道網址的格式之後,才能夠更全面的制定規則,避免機器人將我們網站的站內搜尋結果變成垃圾內容的目標。

結語

藉由上述說明,希望能協助大家避免網站的站內搜尋成為垃圾內容索引的受害者,花費許多心力架設的網站,我們都不希望被無端地影響了網站信譽、浪費主機資源。

如果有什麼心得、想法或建議,也歡迎大家加入社團一起討論唷!

The-Plugin-With-the-Best-Video-Experience-440X231

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *