病毒肆虐下、資料集間國名比對的聯想


下面這份國家地區名單,是最近整理數據時用程式比對所列出來的結果:

181 Country/Regions loaded.
Bosnia and Herzegovina
Congo (Brazzaville)
Congo (Kinshasa)
Cote d'Ivoire
Eswatini
Holy See
Korea, South
Moldova
North Macedonia
Taiwan*
Tanzania
United Arab Emirates
United Kingdom
US
Syria
Laos
Libya
West Bank and Gaza
Kosovo
Burma

比對結果來自這兩個數據來源:
  1. NovelCOVID API
    based on https://www.worldometers.info/coronavirus/
    https://github.com/novelcovid/api
  2. 2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE
    https://github.com/CSSEGISandData/COVID-19
這份清單產生的過程是這樣的:程式先從 1. 取得各國數據(共206個),存在資料庫中;接著由 2. 讀取國名(共181個),並與資料庫中206個國名做比對,若找不到完全吻合的,就會被列出來做進一步查核。

由於數據來源不同,想要將兩份數據放在一起比較,必須先比對出標示名稱的差異性。然而這份清單只是初步的單向比對,還未做逆向比對,因為只處理到一半,所以還不是最後的結果。不過因為觀察的過程引發了我的一些感觸,因此就先記下來。

目前清單上有二十個名稱,看起來就已經頗令人玩味,也許是因為自己的國家被打了星號,所以對這種差異特別有感觸吧?

"Taiwan*" vs. "Taipei and environs"

那麼就先從星號寫起吧。可能許多人已經知道,原來JH的網站上標註的是Taiwan,但某一天大家發現突然被改成了 "Taipei and environs"(臺北與週邊地區),引發大家議論;最後雖然改回來了,但是就多了一顆星號,在Johns Hopkins CSSE 網站上有一段這樣的說明:The names of locations included on the Website correspond with the official designations used by the U.S. Department of State.

反面的力道一定有,不然當初就不會被改成那種奇怪的用語;所幸用Taiwan來稱呼已經是美國的國家共識,因此JH校方大可以直接推給國家結案。

其它幾個稱呼上的差異,若一一仔細端詳,也是各有各的故事。

縮寫、全名與Arab

UK和United Kingdom比較沒什麼好說,但US和USA的差異就有點意思,有些美國人傾向稱呼自己國家叫做The United States(刻意略去後面的America),其中一個原因是認為美國並不能代表整個美洲,而在JH的資料集下面有人提出希望把US改成USA,被另一些網友吐槽...

另一類差異比較像是全名與否的問題,例如 [United Republic of] Tanzania、Côte d'Ivoire(科特迪瓦,或稱「象牙海岸」,主要是字母ô上面的變音符號)、Syria [Arab Republic]、United Arab Emirates [UAE] 等等。以前沒注意到有好幾個國家其實全名裡都有Arab這個字,除了Syria、UAE之外,資料庫看得到的還有Saudi Arabia和Libyan Arab Jamahiriya,對中東一帶情勢不了解的話還真是會被搞得昏頭轉向的。

說到Libya vs. Libyan Arab Jamahiriya也有點意思,後者應該是在格達費(Muammar Gaddafi)統治下的名稱,全名Great Socialist People's Libyan Arab Jamahiriya(大阿拉伯利比亞人民社會主義民眾國),不過格達費在2011被殺身亡,現在的國名應該叫做State of Libya,為什麼前者的資料集裡仍稱做Libyan Arab Jamahiriya就不得而知了。

People's - 那些人民的國家們

說到People's(人民的),長久以來一直讓我覺得挺有意思的,這種名稱似乎多半是極權、強人統治的地區,也包括大家熟知的PRC (People's Republic of China)、Laos (寮國,Lao People's Democratic Republic),這些國家明明就不是民主政體,人民也沒什麼參政權,為什麼硬要把「人民的」字眼掛在國名上?總讓人有種此地無銀三百兩的感覺,反而真正的民主國家不太幹這種事。

表中Korea, South和S. Korea其實只是寫法的問題,但不禁讓人聯想到,那北韓到哪兒去了?剛好北韓的全名也叫做Democratic People's Republic of Korea,又是個「人民的」國家,除了三月傳出染病者遭槍斃之外,北韓的數據在兩份來源都是無消無息,是否傳出疫情一直到今天都還是個謎,只希望在病毒肆虐之下,北韓的人們都還安好......

寫到這兒,心裡突然沉了一下。

統獨爭議與同名國家

其它幾個也都各有故事,像是Kosovo(科索沃)目前還是個地位有爭議的地方,雖然於2008年宣布獨立,但塞爾維亞始終不願放棄對這個地區的主權,不斷在國際上施加壓力(似乎和臺灣有那麼點像?不過...),導致一度有超過一百個國家承認,目前只剩下九十幾個國家(什麼?!)。

Congo的名稱在資料庫裡也需要特別留意,兩個都叫做Congo的國家其實就在隔壁,JH資料集裡分別標示為
  • Congo (Brazzaville) [中文叫做「剛果共和國」,面積34.2萬平方公里]、以及
  • Congo (Kinshasa) [中文稱「剛果民主共和國」,面積234.5萬平方公里],
而在另一個資料集裡的對應分別是Congo和DRC (Democratic Republic of the Congo的縮寫,打Congo還查不出來哩)。同樣名字並存國際,一個以民主自稱(面積還大很多),也是挺令人玩味的(所以...一個中國是在哈囉?不過現在還是別去淌這渾水較好)。雖然民主剛果和臺灣邦交較久,但也很早就斷了,還有2.12億美元的貸款訴訟;即使勝訴,許多前邦交國依然賴帳,成為一堆外交呆帳......

非洲碩果僅存的邦交國

West Bank and Gaza([約旦河]西岸與加薩)在另一個資料集裡應該是稱做Occupied Palestinian Territory,從名稱上就知道是個一團混亂的地區,目前疫情看來還好,希望烽火中的人們能得到上天特別的眷顧。

Eswatini(史瓦帝尼)在另一個資料集裡用的是舊稱Swaziland(史瓦濟蘭),是臺灣在非洲最堅強的唯一邦交國,自1968年建交至今沒有中斷,目前的確診數很少,也尚未有死亡案例傳出,希望能繼續維持下去。

還有幾個國家,因為文已長我就先不寫了。在這個疫情蔓延的時刻,透過觀察不同資料集間國家名稱的差異,來重新理解這個星球上的一些地區與處境,也算是小小收獲囉!

留言

這個網誌中的熱門文章

關於「複合形式」(摘錄自作品首演文件)

以圖形資料建構Star Wars星戰宇宙中的行星們