大數據下「民國潮」

(本報告取樣區間:2011年-2015年)

引 言


  2015年11月7日中華民國總統馬英九先生與大陸領導人習進平在新加坡舉行了會面。無論此次會面的政治效應如何,它勢必會在中國大陸再次掀起一股民國潮。近些年來,無論是網上論壇、QQ群聊、微博、微信,還是主流媒體媒體的報道,一切跡象都讓人們感覺「民國潮」在中國大陸愈來愈熱,但是到底有多熱呢?這股「民國潮」熱度又是呈什麼樣的增長狀態?

  下面我們通過大陸常用搜索工具「百度搜索」提供的搜索指數、新聞指數等大數據來看看近些年來,中華民國在大陸的受關注程度。

一、關注人群的增長數量


  如何確認人群對「民國」的關注程度趨勢呢?我們在百度搜索數據庫中,採用「搜索指數」這個指標來進行趨勢觀察。因為只有人們主動的、自發的、有主觀意願的想去了解「民國」,才會用中國大陸最大的搜索引擎去搜索有關「民國」的信息。我們研究搜索指數,就能完整的反映出整個關注趨勢。


【圖1:2011年-2015年「民國」搜索指數增長趨勢】



  數據來源:百度指數 ©baidu

  作用說明:反映用戶在互聯網上對特定關鍵詞的關註程度及持續變化情況

  算法說明:以網民在百度的搜索量為數據基礎,以關鍵詞為統計對象,科學分析並計算出各個關鍵詞在百度網頁搜索中搜索頻次的加權和。根據數據來源的不同,搜索指數分為PC搜索指數和移動搜索指數。

  我們從上圖可以非常明顯的看到2011年-2015年上半年「民國」搜索指數的增長趨勢。當然,簡單的一個趨勢圖或許太單調,接下來我們從3個方面解讀這組指數增長趨勢。

  1、 增量分析解讀:


【圖2:2011年-2015年「民國」搜索指數分區間分析圖】



  區間1:通過把圖表進行區間劃分后,我們看到2011年-2012年也就是區間1裡面,「民國」關鍵詞在整個區間底部到峰值,均線1可以直觀表現出區間1搜索量的倍增。

  區間2:在2012年-2014年2年間也就是整個區間2里,搜索量呈現平穩,圍繞平均線上下波動,這也反應出在這2年里民國信息搜索量的穩定狀態。這是各類基礎信息在人群中傳播引起的思考,信息消化吸收階段。

  區間3:2014-2015年,以2014年均線為起點,在整個2015年「民國」搜索量迅猛增加,在區間下半段再次呈現了倍增狀態。 小結:整個區間增長趨勢是平穩的、可持續的增長態勢,是非常良性的增長趨勢。

  2、 關鍵詞對比解讀

  如果說上面的搜索指數圖讓大家覺得整個趨勢的增長是良性穩定的,讀者難免還會提出這樣的問題:這個指數的數值是什麼概念呢?其實就算把搜索指數的權重選擇及計算方法擺在讀者面前,大家也不易解讀生澀的公式中計算出來的枯燥指數。因此,我們選擇幾個大陸人平時耳熟能詳的關鍵詞製作出同樣的指數增長量趨勢圖以為對照,這樣各人就能根據自己對中國大陸社會的了解狀況來判斷「民國潮」的熱度了。

  關鍵詞1:改革(這是中國大陸幾乎每天都能聽到看到的詞彙)


【圖3:「改革」搜索量指數圖】



  這裡我們可以看到,在同樣的時間區間內,即2011年-2015年,「改革」的搜索量也呈現一個增長趨勢,但是增長趨勢上下波動較大,最重要的是,整個搜索指數量最高值也才到達2200,區間平均水平線大約在700左右,遠遠低於「民國」的峰值指數3000,平均水平線1700左右。

  關鍵詞2:社會主義(這個詞對於中國大陸的主流意識形態的重要性顯而易見)


【圖4:「社會主義」搜索量指數圖】



  我們仍然選擇同樣的時間區間:2011年-2015年。在這個關鍵詞搜索指數趨勢裡面我們看到的一種極度不穩定的狀態。居然出現了「習慣性波谷」,這個習慣性波谷就是每年過年那幾天,然後隨著工作的開始,搜索量指數又開始增長了。這裡的重點是休假結束后的正式工作日開始后的增長。這是個很幽默的現象。當然,我們也不難看到,整個峰值數據接近1800,平均數值月在1000附近。

  通過「民國」增長趨勢的分析,我們能看到「民國潮」在中國大陸地區呈現長期、穩定、良性的增長。通過和中國大陸「改革」、「社會主義」2個意識形態色彩濃重的詞彙搜索指數的比較,我們發現,「民國」的穩定性、總量、增長性遠遠高於這2個詞。同時值得我們注意的是,由於採用的是「搜索指數」這個指標,我們所看到的搜索都是主動行為,表現了人們想要了解「民國」的意願。

二、文化領域的民國潮


  文化領域的數據增減,直接反應了社會思想意識系統性水平的提高。前面看過了普通網民對「民國」的興趣,接下來我們再看看中國大陸文化領域「民國潮」的發展。 我們分別採集數據樣本如下。樣本1採集:2011年-2015年間在中國知網上發表的論文/期刊/文獻數量。樣本2採集:在中國最大的圖書購買網站當當網上按出版年份查詢2010年-2015年間出版的包含關鍵詞「民國」的圖書。


【圖5:「民國」相關的圖書/期刊/文獻趨勢圖】



  從上圖可以很清晰地看到,2010年-2014年間有關「民國」的學術研究和圖書出版都展現出一致的上漲趨勢,換言之,「民國熱潮」除了受網民熱捧以外,在思想文化學術領域同樣呈現出良好強勁的增長趨勢。

  尤其令人驚訝的是圖書發行的年增長率為:2011年35.7%,2012年27%,2013年40.6%,2015年58.2%。這樣巨大的圖書發行增長率,顯然說明了在思想領域里對「民國」系統化的研究和傳播已經形成。

  由於圖書發行/期刊/文獻從構思到作品出版刊載需要幾個月到幾年的時間,有一個滯後期,這也就解釋了為什麼圖書/期刊增長曲線中在2015年同時突然出現一致性的下滑:因為2014年上半年先是傳出「出版界民國熱要殺一殺」的口頭指示,而後在2014年10月「文藝座談會」閉幕後,大陸官媒如環球時報、新華網、人民網等又開始口徑一致地批判民國熱。數據的檢驗,真是不會錯。

三、「民國潮」经济方面的数据


  中国大陆个人消费行为的数据采集非常困难,好在淘宝指数为我们提供了零售方面的数据。下面我们就透过淘宝数据,来看一下「民國潮」在经济领域的热度。

  1、淘宝搜索指数(PC端數據)


【圖6:「民國」相關的淘寶搜索指數趨勢圖】



  考慮到淘寶指數圖表過於密集,我們在幾個關鍵峰值時點進行了時間標註,從而可以方便地看到「民國」相關產品的熱度從淘寶指數有記錄以來的2011年8月開始至2013年5月呈現整體上漲的趨勢,隨後2013年-2014年開始陡然下降。

  下降的原因並非是人們的購買熱情有所下降,而是因為2013年後淘寶的手機客戶端得到普及應用,但淘寶數據庫現只提供PC端數據,還沒有採用手機端數據進行加權計算。因此在這個數據統計大背景下,我們用淘寶指數統計「服裝」的時候,得到趨勢圖走勢與「民國」是一致的。如下圖:


【圖7:「服裝」相關的淘寶搜索指數趨勢圖】



  另一方面,由於淘寶搜索指數在很大程度上反映的是消費意願,因此也受到宏觀經濟形勢的影響。2015年中國的經濟嚴重下滑,因此綜合宏觀因素的情況下,搜索指數的下降也反映出消費減少。

  2、淘寶消費結構

  將已經形成的消費數據篩選、統計、匯總后,我們得到如下圖表:


【圖8:「民國」相關商品淘寶分類】



  從民國服裝、民國民族服飾、民國旗袍到民國收藏品、錢幣,等等,淘寶提供了非常詳細的消費品類別,其中各種民國風的女裝佔據了一半以上的消費。

  3、 消費人群分布

  下圖是在淘寶最終形成了消費的人群之詳細分佈:


【圖9:「民國」相關商品淘寶消費人群分佈】



  有趣的是女性消費佔比62%、男性38%的性別比例,恰好和後面一節統計的百度搜索比例翻轉,可見,同樣是「民國」,男女關注重點略有不同:關注時政信息者男性居多,關心時尚消費者女性居多,各有貢獻。

四、「民國潮」相關構成


  我們在百度指數數據庫中獲得如下圖表:


【圖10:「民國」搜索相關詞彙分佈圖】



  數據來源:百度指數 ©baidu

  作用說明:反映搜索特定關鍵詞的用戶,還有哪些其他需求。

  算法說明:針對特定關鍵詞的相關詞及用戶瀏覽目標選擇進行聚類分析而得的詞雲分布。

  上圖數據採樣時間段為:2013年9月-2015年11月,該圖反映了在搜索「民國」時,與之相關的詞彙信息權重。越靠近圖表左邊的詞彙,搜索量越大,越靠近圖表右邊的搜索量越小。在圖表中線上方的詞彙搜索增長呈上升趨勢,中間線下方的詞彙搜索量呈現下降趨勢。

  通過這樣一張圖我們很容易讀懂,民國這個概念,是由若干具體的事件、人物、時間、地點等等一切鮮活的東西構成——正如我們看到的:民國四大美女、民國紙幣、民國四大名校、中華民國等等。正是這些鮮活的具像,在中國大陸人民心中逐漸勾勒出了歷史上和現實中的民國形象。

五、「民國潮」在中國大陸的地區、人群構成


  1、地區分佈


【圖11:「民國」搜索量大陸地區分佈】



  以上是通過對2013年-2015年搜索量指數的地區排序,構成「民國」關鍵詞在全國的搜索量的分佈。顏色越深的排名越靠前,顏色越淺的,搜索量越低。通過這樣的圖表,我們大概能看出由東南沿海到內地關注度逐步降低的趨勢。

  2、人群分佈


【圖12:「民國」搜索量大陸人群分佈】



  數據來源:百度指數 ©baidu

  作用說明:描述搜索特定關鍵詞的用戶具有哪些屬性和特征。

  算法說明:關鍵詞的人群屬性,是我們根據百度用戶搜索數據,采用數據挖掘方法,對關鍵詞的人群屬性進行聚類分析,給出性別比例、年齡分布、興趣分布等社會屬性信息。

  人群分佈解讀:

  1、在年齡分段中,20-29歲和30-39歲這兩個階段是對民國搜索量最大的群體。這可能因為(1)在這兩個階段的人群是整個人群年齡分段中上網機會最為方便的,20歲以下還在上學,上網時間相對不多,39歲以上則多數上有老下有小,上網時間少;(2)這兩個年齡段的人群,知識結構沒有固化,能充分的接受新的知識、信息。

  而50歲以上這個階段的人群既有時間也有習慣上網,但他們搜索量最小。原因之一可能是洗腦教育,知識固化、新鮮知識接受能力有限。因此他們在「民國潮」中並非主力軍的地位。

  2、男女比例,男性佔比69%、女性佔比31%,這比較容易理解,因為目下男性上網的活躍程度遠遠高於女性,特別是在有關史政、時政方面的信息更是如此。但通常印象中對史政話題興趣不大的女性在這股「民國潮」竟然佔到1/3的比例,其影響也不可低估。

總 結


  通過上面大數據的視角分析,我們能看出,最近這些年「民國潮」在中國大陸不斷升溫。僅2011年-2105年間,「民國」關鍵詞的搜索量數據已顯示出2次大規模倍增。第一階段倍增出現在2011年,第二階段倍增出現在2015年。

  通過對照「改革」、「社會主義」關鍵詞的搜索數據指數,我們發現在大數據視角下對「民國」滿懷興趣的人群遠遠超過了這兩個看似在中國大陸非常重要的詞彙。這樣的數據,我們是必須正視的。

  「民國潮」在中國大陸的迅猛發展,并非只是搜索量增加那麼簡單。整個學術領域的系統化研究和出版業的大規模出版,顯示出人們對民國的好奇和渴望已經在思想文化領域得到了印證。「民國」相關商品在零售市場的暢銷更是顯現,「民國風」已經席捲和濡染社會生活的方方面面。

  在可預見的未來,隨著歷史的還原、兩岸交流的進一步增進,「民國潮」勢必繼續穩定、持續的增長。


  思未然民國憲政研究院
  2015年11月8日 報告

  注:思未然民國憲政研究院成立於2012年,前身為民國史學會,專事民國憲政路徑研究。

編者按:本刊所發表文章均不代表本刊觀點;本刊鼓勵各種正反意見熱烈爭鳴。

《公民议报》首发,转载请注明出处
5