地理位置对饮食习惯的影响分析
电子科技大学 周涛
......我们尝试用“大数据”的办法来分析影响饮食习惯的可能原因 (Zhu, et al., 2013)。我们从美食圈国内知名网站“美食杰”(www.meishij.net)上下载了我国20个菜系共计8498份菜谱,包含了2911种食材,然后将每一个省、自治区、直辖市和特别行政区都唯一归属于一个菜系。注意,一个菜系可能包括多个行政区,例如四川和重庆都属于川菜。
我们根据两个食谱中所包含的食材,就可以通过Pearson关联 (Rodgers and Nicewander, 1988) 或者余弦相似性 (吕琳媛、周涛, 2013) 来计算两个食谱之间的相似性。需要注意的是,因为有一些食材太过流行(例如盐),我们必须要削弱它们对于相似性的影响,一种简便可行的方式是把每一个食材看成一个单词,直接利用自然语言分析中成熟的TF-IDF技术 (Tan, et al., 2005),给出现特别多的食材一个较低的权重。......