Google 向來把自家的搜尋演算法列為公司的最高機密,只會以非常模糊的敘述告知大家搜尋引擎的偏好,但卻沒想到 Google 卻一個不小心把有關搜尋、網站排名機制的 2500 頁內容上傳到了公開平台,讓神秘流量機制被攤在陽光下。
Google 在 3 月 27 日時在知名程式碼開源社群網站 GitHub 上,上傳了一份名為「Google API Content Warehouse」的檔案,裡面的內容全部都是關乎 Google 是如何篩選資料,以及決定那些網頁應該優先曝光等「流量密碼」資訊,並一直到 5 月 27 日受到大家注意才將其刪除。
由於本次流出的資料實在太多,許多專門的顧問都還在研究與分析當中的內容,已知這些文件包含了過去比較久遠的機制,到近期新的設計,這對於從事數位行銷與媒體曝光的行業,可說是極具參考性的資料,能夠從中得知如何讓自己的網頁更受到 Google 搜尋引擎的青睞。
網路顧問 Rand Fishkin 整理出文件中部份提及的機制:
- Google 很早就已經靠蒐集用戶的完整點擊資料來提高搜尋引擎的品質,於是設計了「NavBoost」技術,能夠用以分析用戶的對網頁的點擊、輸入的關鍵字進行統整,分析人們的搜尋趨勢。
- 為了避免有心人是靠大量點擊來欺騙演算法,Google 會利用 cookie 資訊、登入 Chrome 的資料、行為操作等方式,用來對抗手動或自動點擊刷流量的手段。
- 同時 NavBoost 會分析人們點擊特定內容的意圖,例如當我們點擊特定圖片或影片時,NavBoost 會與自身的演算法比對,分析該圖片或影片與演算法的推測結果是否契合。
- Google 演算法會根據搜尋與點擊之間的關聯性來調整搜尋權重,例如如果大量用戶搜尋 Apple 之後,沒有找到 iPhone 相關內容,於是便把關鍵字改為 iPhone,並進行了一系列的網頁點擊操作,此後演算法就會逐漸在搜尋 Apple 的時候,帶出與 iPhone 有關的內容。
- 演算法會刻意排除與品牌無關的網址,像是 mens-luxury-watches.com、milwaukee-homes-for-sale.net 等直接在網址上敘述網頁目的的內容。
- Navboost 相當吃重各國、地區用戶的使用行為,就連是用手機還是電腦進行操作都會對演算法產生影響,因此如果特定關鍵字在當地乏人問津,搜尋結果得出來內容準確性就會大幅下滑。
- Google 依照不同的時期需求,會放寬特定關鍵字的搜尋,例如 Covid-19 期間,就會提升相關網頁的可見度,又或是選舉時接到了,與選舉有關的網頁也會比較容易被找到。
關於這 2500 頁的文件內容,目前 Google 暫時不願多作回應,雖然無法確定這些內容是否完全符合現在的搜尋規則,但多少都可以更加了解 Google 對於關鍵字與網頁內容上的判斷基準。