病毒肆虐下、資料集間國名比對的聯想
下面這份國家地區名單,是最近整理數據時用程式比對所列出來的結果: 181 Country/Regions loaded. Bosnia and Herzegovina Congo (Brazzaville) Congo (Kinshasa) Cote d'Ivoire Eswatini Holy See Korea, South Moldova North Macedonia Taiwan* Tanzania United Arab Emirates United Kingdom US Syria Laos Libya West Bank and Gaza Kosovo Burma 比對結果來自這兩個數據來源: NovelCOVID API based on https://www.worldometers.info/coronavirus/ https://github.com/novelcovid/api 2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE https://github.com/CSSEGISandData/COVID-19 這份清單產生的過程是這樣的:程式先從 1. 取得各國數據(共206個),存在資料庫中;接著由 2. 讀取國名(共181個),並與資料庫中206個國名做比對,若找不到完全吻合的,就會被列出來做進一步查核。 由於數據來源不同,想要將兩份數據放在一起比較,必須先比對出標示名稱的差異性。然而這份清單只是初步的單向比對,還未做逆向比對,因為只處理到一半,所以還不是最後的結果。不過因為觀察的過程引發了我的一些感觸,因此就先記下來。 目前清單上有二十個名稱,看起來就已經頗令人玩味,也許是因為自己的國家被打了星號,所以對這種差異特別有感觸吧? "Taiwan*" vs. "Taipei and environs" 那麼就先從星號寫起吧。可能許多人已經知道,原來JH的網站上標註的是Taiwan,但某一天大家發現突然被改成了 "Taipei and environs"(臺北與週邊地區),...