最新拟录用

经济学家也要学点网络爬虫技术 钟锃光 (厦门大学)

经济学家也要学点网络爬虫技术

厦门大学经济学院   钟锃光

......爬虫(web crawler)是一种专门的程序,用于在互联网上自动抓取内容。常见的爬虫都来自搜索引擎公司。在互联网刚刚兴起的1994年,yahoo采用了层次归类的方法来索引当时的互联网站点,在站点数目较少的时候,手工还能处理为数不多的数据,但随着互联网的发展,就需要自动化的工具来收集数据、更新内容、根据网站内容的链接来发现新的页面和网站,这时爬虫就变得必不可少了。早期的爬虫主要功能是索引网站中的文本内容,随着技术的发展,爬虫的功能也越来越强,例如对图片、视屏与内容的关联,对各种数据格式(如pdf、doc、xls)的解析等。
 
在经济学研究中,其实并不需要像搜索引擎公司那样开发一种功能特别强大的爬虫,需要的是使用爬虫技术,能方便、大批量的下载网站上的数据,并且能够把数据整理成实证研究所需要的格式。......