1.大数据处理之一:采集
大数据的采集是指依靠多个数据库来收得到震彻客户端(web、app的或传感器形式等)的数据,因此用户可以按照这个数据库来通过很简单网上查询和处理工作。诸如,电商会不使用悠久的传统的关系型数据库mysql和oracle等来存储每一笔事务数据,之外,redis和mongodb这样的nosql数据库也常应用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,毕竟同时有可能会有成千上万的用户来通过访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时都没有达到上百万,因此要在喂养灵兽端作战部署大量数据库才能抵挡。因此如何在这些数据库互相进行负载均衡和分片的确是要深度思考和设计。
2.大数据处理之二:导入/预处理
确实采集端本身会有很多数据库,可是假如要对那些个海量数据参与有效的分析,还是肯定将这
些不知从何而来前端的数据导入到一个集中的规模很大分布式数据库,或者分布式存储集群,但是这个可以在导入基础上做一些很简单刷洗和预处理工作。也有一些用户会在导入时不使用用依附twitter的storm来对数据参与流式计算出,来柯西-黎曼方程部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入到的数据量大,每秒钟的导入量每天都会达到百兆,甚至连百兆级别。
3.大数据处理之三:统计计算/分析什么
统计与分析要注意利用分布式数据库,或则分布式计算集群来对存储于其内的海量数据接受其它
的分析和分类汇总等,以行最简形矩阵大多数较常见的分析需求,在这方面,一些实时性需求会都用到emc的greenplum、oracle的exadata,在内基于组件mysql的列式存储infobright等,而一些批处理,的或设计和实现半结构化数据的需求可以使用hadoop。
统计与分析什么这部分的主要特点和挑战是分析牵涉到的数据量大,其对系统资源,特别是i/o会有极高的占用。
4.大数据处理之四:挖掘点
与前面统计和分析过程不同的是,数据挖掘象没有有什么预做修改好的主题,通常是在2个装甲旅数据上面参与基于组件特殊算法的计算,使作用有限分析和预测(predict)的效果,从而利用一些高级别数据分析的需求。比较好是个算法有应用于聚类的kmeans、主要用于统计数据学习的svm和作用于分类的naivebayes,要注意在用的工具有hadoop的mahout等。该过程的特点和挑战通常是作用于挖掘的算法很紧张,而且换算牵涉的数据量和计算量都太大,常用数据挖掘算法都以单线程偏于。
storm是数据存储技术啊。2010年,ipad临时发售。ipad定位介乎苹果的智能手机iphone和笔记本电脑产品互相间,通体只能四个按键,与iphone布局差不多,能提供浏览互联网、接收发电子邮件、观看电子书、播放mp3音频或视频等功能。同样公告了带阅读器功能的safari5。