-
大数据分析查询引擎Impala
所属栏目:[大数据] 日期:2021-03-06 热度:125
来自标点符的《大数据分析查询引擎Impala》 作者:标点符(钱魏 Way) 链接:http://www.biaodianfu.com/impala.html Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 已有的Hive系统虽然也提[详细]
-
1.大道至简的数据处理工具(Power Query)
所属栏目:[大数据] 日期:2021-03-06 热度:90
? ?如果你不想学复杂的函数,如果不想学更难的VBA。但你想把数据处分分析工作做好。那么,来吧!这套课程将是你最好的选择。远离繁杂,回归简单与智能化。 ? ?先来看看power query 怎么做些什么。先来展示一下效果图。[详细]
-
9个最佳的大数据处理编程语言
所属栏目:[大数据] 日期:2021-03-06 热度:104
大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。 那么,在巨大的数据集中进行筛选[详细]
-
logminer挖掘不同数据库的归档日志,使用redo log数据字典
所属栏目:[大数据] 日期:2021-03-06 热度:147
挖掘要求: 使用测试库挖掘生产库的归档日志,生产库未设置utl_file_dir参数,生产库不能重启,无法抽取出生产库的数据字典 挖掘方法: 将生产区数据库的数据字典抽取到redo log 中,将有数据字典的redo log一块加载入logminer,使用redo log中的数据字典进行[详细]
-
大数定律和中心极限定理的中文叙述
所属栏目:[大数据] 日期:2021-03-06 热度:65
大数定律和中心极限定理的中文叙述 一、大数定律 1.切比雪夫大数定律 叙述:{Xn}随机变量序列,满足①相互独立;②方差D(X)存在并且一致有上界; 那么{Xn}服从大数定律——随机变量的平均值依概率收敛到随机变量的期望,当n很大时; 体现了均值的稳定性。 2.[详细]
-
3只大牛教你从0到1构建大数据分析平台
所属栏目:[大数据] 日期:2021-03-05 热度:76
StuQ?联合三位大数据资深专家桑文锋、曹犟、付力力共同推出《从0到1构建大数据分析平台》精品小班教学,仅有50席位,精品小班课区别于大众在线视频教学,课程设置具有如下特色: 采用在线视频直播授课 以实战为主 在线解答疑问 课后作业review 精品小班课通[详细]
-
大数运算+web服务器
所属栏目:[大数据] 日期:2021-03-05 热度:199
//http.h#pragma?once???????????????????????????????????????????????????????????????????#includestdio.h#includestdlib.h#includestring.h#includesys/types.h#includesys/socket.h#includesys/sendfile.h#includesys/stat.h#includesys/epoll.h#includ[详细]
-
从搭台到唱戏,电商卷皮BI的实践演进和架构体系
所属栏目:[大数据] 日期:2021-03-05 热度:128
本文是6月16日大数据杂谈群分享的内容。 关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。 实习编辑:Melody 大家好,我是卷皮BI团队负责人柴楹,今天在这里给大家分享一下卷皮的BI和大数据的一些东西。 BI大数据是什么? 首先我[详细]
-
NB-MAFIA: 基于N-List 的最长频繁项集挖掘算法
所属栏目:[大数据] 日期:2021-03-05 热度:76
基于N-List,提出一个高效的最长频繁项集挖掘算法NB-MAFIA,发表在《北京大学学报》上,论文可从以下网址免费下载: http://xbna.pku.edu.cn/CN/abstract/abstract2916.shtml[详细]
-
【bzoj4542】【HNOI2016】【大数】【莫队】
所属栏目:[大数据] 日期:2021-03-05 热度:137
Description 小 B 有一个很大的数 S,长度达到了 N 位;这个数可以看成是一个串,它可能有前导 0,例如00009312345 。小B还有一个素数P。现在,小 B 提出了 M 个询问,每个询问求 S 的一个子串中有多少子串是 P 的倍数(0 也 是P 的倍数)。例如 S为0077时,[详细]
-
论如何打造高性能大数据分析平台
所属栏目:[大数据] 日期:2021-03-05 热度:78
本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍)。本文应作为一个通用准则,以确保最终的大数据分析平台能满足性能要求。 1. 大数据是什么?[详细]
-
HPE大数据商业白皮书 | 大数据分析给OEM软件开发商带来巨大发展
所属栏目:[大数据] 日期:2021-03-05 热度:70
我们都知道:大数据的崛起不可逆转;迎接这一趋势才能驾驭未来。 IDC最新的预测表明,大数据技术市场将以26.4%的年复合增长率增长,到2018年将达到415亿美元——大约相当于整体信息技术市场增长率的六倍。此外,IDC相信,到2020年,业务部门采购者会将数据分[详细]
-
Acdream 1420 High Speed Trains(大数 + 容斥原理)
所属栏目:[大数据] 日期:2021-03-05 热度:134
传送门 High Speed Trains Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) Submit Statistic Next Problem Problem Description The kingdom of Flatland has n cities. Recently the king of Flatland visited Japan a[详细]
-
【剑指offer】(扩展)大数相加
所属栏目:[大数据] 日期:2021-03-05 热度:75
问题: 实现一个加法,将两个大数相加,不使用BigInteger。 分析: 使用字符串或者数组,实现每位相加进位,要注意两个数对齐及最终进位的情况。 首先将两个字符串倒置,方便补0将位数对齐及逐位相加。并且使用StringBuffer方便字符串修改。 注意:字符实现[详细]
-
.net中大数处理的一些算法思想
所属栏目:[大数据] 日期:2021-03-05 热度:96
? 在 .NET 开发中,有时会因为处理一些边缘学科的知识内容,如统计,金融,天文等计算,是加密解密算法 都会涉及到大数的运算,就是.net中最大数值类型储存了都会溢出的数,我的一个想法是计算时用数值类型,储 存(暂时)和输出时是字符串 那么储存时就需要BOX[n] n个[详细]
-
构建数据处理“小窗口”、实现渠道掌控“大作为”| 记渠道监控中
所属栏目:[大数据] 日期:2021-03-01 热度:85
点击上方 蓝色字体 关注我们 作者 吴逊 ? ? ?浙江移动业务架构师 肖亮 ? ? ?浙江移动实体渠道运营管理 建设背景 ? 在当下移动互联网高速发展的时代,企业以前的金字塔组织结构,已经不能快速响应市场需求,移动互联网时代,商业流的加速,使得用户需求瞬息万[详细]
-
『Data Science』R语言学习笔记,基础语法
所属栏目:[大数据] 日期:2021-03-01 热度:193
Data Types Data Object Vector x - c(0.5,0.6) ## numericx - c(TRUE,FALSE) ## logicalx - c(T,F) ## logicalx - c("a","b","c") ## characterx - 9:29 ## integerx - c(1+0i,2+4i) ## complexx - vector("numeric",length = 10) ## create a numeric vect[详细]
-
图解机顶盒数据处理流程
所属栏目:[大数据] 日期:2021-03-01 热度:97
1. 前端数据的打包、调制 与 广播 前端系统负责将电视节目的音视频数据,数字电视业务信息的各种表 按照 数字电视业务信息规范,打包成 ts 流,然后进行调制,再通过cable线,卫星,地面直播信号塔这些物理信道进行广播。 两层复用:多个电视节目通过? 时分[详细]
-
深度解析 Twitter Heron 大数据实时分析系统
所属栏目:[大数据] 日期:2021-03-01 热度:67
2015年6月1号, Twitter 对外宣讲了他们的Heron系统, 从ppt和论文中,看起来完爆storm。昨天,抽空把论文,仔细读了一遍, 把个人笔记和心得分享一下: 摘要: Heron更适合超大规模的机器, 超过1000台机器以上的集群。 在稳定性上有更优异的表现, 在性能[详细]
-
81个开源大数据处理工具汇总(下),包括日志收集系统/集群管理/
所属栏目:[大数据] 日期:2021-03-01 热度:194
上一部分:http://my.oschina.net/u/2391658/blog/711016 第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。 ? 日志收集系统 一、Facebook?Scribe 贡献者 :Faceb[详细]
-
81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储
所属栏目:[大数据] 日期:2021-03-01 热度:155
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache H[详细]
-
文本挖掘的基本流程
所属栏目:[大数据] 日期:2021-03-01 热度:142
一、获取文本 ??我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。可以用广度优先和深度优先;根据用户的需求,爬虫可以有垂直爬虫和通用爬虫之分,垂直爬取主要是在[详细]
-
Mondrian 4 测试的简单demo(Saiku简单测试Schema文件)
所属栏目:[大数据] 日期:2021-03-01 热度:117
##?整理此文章方便大家做测试(手写Mondrian?Schema自测),不必每次都向saiku上传文件了 ##?关键文件 *?foodmart4.xml??测试对应的schema文件 *?foodmart-sql.zip????测试对应的数据库脚本 maven项目: pom文件 project?xmlns=" http://maven.apache.org/PO[详细]
-
EMC存储上的大数据 – 大数据分析实施路线
所属栏目:[大数据] 日期:2021-03-01 热度:95
? ? ?企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。本文为系列的第十篇,介绍了发现适当的大数据业务机会并制定利用该机会的全面路线图。 ? ???? 大数据时代,各公司都在努力挖掘有关他们业务的令人信服的见解,以赢得竞争优势。他们在[详细]
-
O2O产品质量保障体系(四)| 基于学习的线下商户质量挖掘
所属栏目:[大数据] 日期:2021-03-01 热度:108
一、 线下商户问题迫在眉睫 糯米不仅仅是团购,它是O2O的生活服务平台,糯米的产品质量可以定义为线上和线下,线上主要是在线商品的售卖情况,所对应的质量问题也就是商品类的badcase,这些会直接影响我们的流水。而线下主要是商家服务的接待质量,会直接影[详细]