Eng
首頁 / 人文社會 / 機器學「習」:使用文字探勘探索政治人物語錄

機器學「習」:使用文字探勘探索政治人物語錄

文章資訊
關鍵字

【本報導由東亞學系 邵軒磊教授研究團隊提供】

  隨著中國近年國際影響力提升,已有學者關注其「銳實力」進展。不過對於細節理解,諸如習近平所提出「融通中外」的外宣戰略之解讀,目前學說仍有相當差異,尚待研究。對於研究者而言,因為各種資料的質與量快速成長,使得以個人經驗與智識判斷為主的研究方式受到挑戰。因此,本文作者試圖將數位技術應用至此一研究範圍,比如文字探勘、機器學習、主題分析模型等,在龐大現代政治論述文本中建立主題模型,嘗試尋找政治領袖在演講中所透露之政治訊息以及政治價值,亦即指出習近平時期演講具有「內外有別」現象,並描繪出各領域的「內外有別」差異的概括樣貌。經研究後,初步的解答是:以習近平自身講話做主題分析後,確實發現其對外與對內用語不同,機器能分辨並歸類其用語特色;也能看出在領域上則「外交、經濟、生態」類文本之主題與「黨建、政治、國防」之主題不同。本文蒐集了中國國家主席習近平的發言作為語料庫,並使用數位方法初探中文政治文獻研究,期待藉此關注中共大外宣與銳實力,並發展未來研究旨趣。


  在研究現代中國政治時,往往必須關心領導人言論。以往多以專家長時間的關心與討論為研究方法,但其代價是必須投入大量的人力與時間,尤其在近年資訊社會下,言論報導大量增生,所需要的力量與往年不可同日而語。因此,我們需要尋找新的作法來消化這些資訊。

  為了有效地研究,我們使用「文字探勘」、「自然語言處理」與「機器學習」等技術,分析中國政要的演講言論,這樣的做法,能夠處理大量的資訊。比如說使用「詞頻」可以協助研究者省卻冗長的查對時間,瞭解近期的重要政治宣傳用語;使用「文本相似」(如封面圖),則可以讓我們瞭解到中共用語中「政治/黨建/國防」較為相近,而「外交」相對較遠。從理論意義上,這從另一個層次證明了本學界長期對中共宣傳「內外有別」的猜想,這個猜想往往是研究者累積多年經驗而得之「直覺」,但我們能使用客觀科學方法加以實證。

  藉由應用這些技術,我們甚至能夠指出哪些「詞」代表什麼政治意義。如內外有別的用語中,代表內用語的有「價值」、「方針」、「紀念」、「真理」、「工作者」、「全黨同志」、「強軍」、「實事求是」、「信仰」、「共產主義」…等,代表性的外用語則有「倡議」、「能源」、「對話」、「區域」、「兩國人民」、「模式」、「貧困地區」、「夥伴」、「氣候變化」…等等。經由此類分析從而幫助研究者在解讀中共文本時,更有說明的依據。

  本研究已達到了初期應用實踐,若將這樣的研究方法加以應用,也將可能對於其他人物言論,甚至文史哲文獻加以探勘,可茲期待其他領域合作,達到跨領域的研發。在執行此一專案研究過程中,筆者也確實重新溫習了之前的知識,並發現一些原先被忽略的字眼。從大局來看,本文還帶來一個特殊的旨趣,就是試圖使用數位研究法來解答一個傳統政策研究問題。某些問題是否應該使用這個研究方法去解析,本身是一個哲學或是信念問題,可能不存在最終解答。就如同敲打石頭想要照亮黑暗一樣,火花只能夠晶晶閃爍;但落在適當的地方,就能燃起火把,給人光和熱。

  如欲進一步了解相關資訊,請洽台師大中國大陸研究中心,我們歡迎各種層次的合作與討論。

 

原文出處:

  1. http://mcs.nccu.edu.tw/current.html

邵軒磊 副教授 | 東亞學系

現任臺灣師範大學東亞學系副教授,兼任中國大陸研究中心主任。他涉獵中國大陸研究、日本學、數位人文、法律資料分析與國際關係。