祝楼主和所有朋友们新年快乐!
昨日阅读4小时,总计13.5小时
《大数据技术概论-从虚幻走向真实的数据世界》--娄岩---清华Press-2017.1
ch2. 大数据采集和预处理
    系统日志采集方法:Hadoop的Chukwa(Java,针对Apache/Yahoo的日志),Cloudera的Flume(Java实现,可直接使用)、Facebook的Scribe(C/C++实现)
    网络数据采集和处理的整体过程,包含四个主要模块:网络爬虫(Spider)、数据处理(Data  Process)、URL队列(URL Queue)、数据(data,含Site URL---需要抓取数据网站的URL信息、Spider Data--从网页中抽取出来的数据、和Dp Data即经过数据处理之后的数据)
    其他数据采集方法
    预处理:ETL(聚类、距离、分类、关联规则)
    大数据采集及预处理的工具
            1. Flume   
http://flume.apache.org/
            2. Logstash(一个应用程序日志、事件的传输、处理、管理和搜索的平台)提供Web接口用于查询和统计  
http://www.logstash.net/
            3. Kibana(一个为Logstash和ElasticSearch提供的日志分析的Web接口)提供对日志的高效搜索、可视化、分析等操作。一个开源和免费的工具。 
http://kibana.org/
            4. Ceilometer:负责监控数据的采集,是OpenStack的一个子项目,为计费和监控以及其他服务提供数据支持。 
http://docs.openstack.org/
            5. Zipkin (分布式跟踪系统)是Twitter的一个开源项目,允许开发者手机Twitter各个服务上的监控数据,提供查询接口。
http://twitter.github.io/ipkin/
            6. Arachnid一个基于Java的网络爬虫框架,含一个简单的HTML剖析器,能够分析包含HTML的输入流。通过实现Arachnid的子类就能够开发一个简单的网络爬虫。
http://arachnid.sourceforge.net/
            7. Crawlzilla(一个建立搜索引擎的自由软件,有Nutch专案为核心,并整合更多相关套件)除爬取基本的HTML外,还能分析网页上的文件,如Doc、pdf、ppt、ooo、rss等文件格式,使得搜索引擎不只是网页搜索引擎,而是网站的完整资料索引库。(拥有中文分词能力,搜索更精准)是一个易安装的搜索平台。 
https://github.com/shunfa/crawlzilla   下载地址: 
http://sourceforge.net/projects/crawlzilla/
            8. 集搜客GooSeeker,国内一款大数据抓取软件。能抓取语义标签,可以进行多维度整合
            9. 乐思网络信息采集系统  
http://www.knowlesys.cn/index.html
                主要用于大数据基础建设、舆情监测、品牌监测、价格监测、门户网站新闻采集、行业资讯采集、竞争情报获取、商业数据整合、市场研究、数据库营销等领域。
            10. 火车采集器  
http://www.locoy.com/
            11. 狂人采集器 
http://www.kuangren.cc/
            12. 网络矿工:一款集互联网数据采集、清晰、存储、发布为一体的工具软件 
http://www.minerspider.com/
ch3. 大数据分析概述(主要技术)----无什么实质内容
        深度学习
            在语音、图像、自然语言处理等领域取得了一系列重大进展。
        知识计算
        可视化
后面让人有收获的实质内容匮乏,仅泛泛而谈。