tablesample(Hive分桶抽样查询详解「建议收藏」)

发布时间:2025-12-10 19:58:45 浏览次数:2

Hive分桶抽样查询详解「建议收藏」-tablesample抽样

Hive分桶抽样查询(tablesample)详解「建议收藏」名词解释:n:总桶数x:从第几个桶开始抽取y:必须是总桶数的因数或倍数(自定义)z:共需抽取出的桶数(z=n/y)抽样查询代码示例:hive(default)>select*fromstudenttablesample(bucketxoutofyonid);案例分析:总桶数为n=10个,人为设定抽样因子y=2,人为设定从第一个桶开始取则x=1;计算出z=n/y=10/2=5个,则可以确定本次抽样查询需要取出5个桶的数据;代码实现如下:hi

名词解释:

n:总桶数

x:从第几个桶开始抽取

y:必须是总桶数的因数或倍数(自定义)

z:共需抽取出的桶数(z=n/y)

抽样查询代码示例:

hive (default)> select * from student tablesample(bucket x out of y on id);

案例分析:总桶数为n=10个,人为设定抽样因子y=2,人为设定从第一个桶开始取则x=1;计算出z=n/y=10/2=5个,则可以确定本次抽样查询需要取出5个桶的数据;

代码实现如下:

hive (default)> select * from student tablesample(bucket 1 out of 2 on id);

抽样查询结果如下:

z 数据属于第几个桶

1 第1个分桶的数据(1)

2 第3个分桶的数据(1+y)

3 第5个分桶的数据(3+y)

4 第7个分桶的数据(5+y)

5 第9个分桶的数据(7+y)

详细讲解分桶

https://blog.csdn.net/u010003835/article/details/80911215

需要做网站?需要网络推广?欢迎咨询客户经理 13272073477