hive系列(三)基本操作函数大全 有更新!
- 37套精品Java架构师高并发高性能高可用分布式集群电商缓存性能调优设计项目实战视教程 置顶! 有更新!
- Hive基本操作
- 一、hive常用命令
- 创建数据库
- 创建表
- 修改表
- 删除表
- 查看表结构
- 二、函数大全
- (一)关系运算
- (二)数学运算
- (三)逻辑运算
- (四)复合类型构造函数
- (五)复合类型操作符
- (六)数值计算函数
- (七)集合操作函数
- (八)类型转换函数
- (九)日期函数
- (十)条件函数
- (十一)字符串函数
- (十二)混合函数
- (十三)XPath解析XML函数
- (十四)汇总统计函数(UDAF)
- (十五)表格生成函数Table-Generating Functions (UDTF)
37套精品Java架构师高并发高性能高可用分布式集群电商缓存性能调优设计项目实战视教程 置顶! 有更新!
Hive基本操作
一、hive常用命令
创建数据库
hive> create database boomtest > location '/flume/boomtest'; |
指定路径创建数据库。
创建表
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name
[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][ROW FORMAT row_format][STORED AS file_format] |
hive> create table if not exists employee (eid int,name String,salary String) Comment 'employee details' row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile; |
建立外部待分区表例子
1. 创建分区表
CREATE EXTERNAL TABLE `log_node`( `id` int, `json` string ) PARTITIONED BY ( `st` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' |
2. 添加分区
alter table log_node add partition (st ='20170615') location 'hdfs://master:9000/user/hive_mysql/warehouse/boomtest.db/log_node/20170615'
修改表
ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...]) |
hive> alter table employee rename to tb_emp; OK Time taken: 0.188 seconds hive> show tables; OK tb_emp tb_test tb_test2 hive> alter table tb_emp add columns (age int,phone String); OK Time taken: 0.161 seconds hive> desc tb_emp; OK eid int name string salary string age int phone string Time taken: 0.109 seconds, Fetched: 5 row(s) hive> alter table tb_emp change phone telphone String; OK Time taken: 0.136 seconds hive> desc tb_emp; OK eid int name string salary string age int telphone string Time taken: 0.089 seconds, Fetched: 5 row(s) hive> |
删除表
DROP TABLE [IF EXISTS] table_name; |
hive> drop table tb_test2; OK Time taken: 0.614 seconds hive> show tables; OK tb_emp tb_test values__tmp__table__1 |
查看表结构
hive> desc tb_emp; OK eid int name string salary string age int telphone string Time taken: 0.108 seconds, Fetched: 5 row(s) hive> desc formatted tb_emp; OK # col_name data_type comment eid int name string salary string age int telphone string # Detailed Table Information Database: boomtest Owner: root CreateTime: Tue May 02 15:05:48 CST 2017 LastAccessTime: UNKNOWN Protect Mode: None Retention: 0 Location: hdfs://master:9000/user/hive_mysql/warehouse/boomtest.db/tb_emp Table Type: MANAGED_TABLE Table Parameters: COLUMN_STATS_ACCURATE false comment employee details last_modified_by root last_modified_time 1493709139 numFiles 0 numRows -1 rawDataSize -1 totalSize 0 transient_lastDdlTime 1493709139 # Storage Information SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe InputFormat: org.apache.hadoop.mapred.TextInputFormat OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat Compressed: No Num Buckets: -1 Bucket Columns: [] Sort Columns: [] Storage Desc Params: field.delim \t line.delim \n serialization.format \t Time taken: 0.336 seconds, Fetched: 40 row(s) hive> |
分区
http://lxw1234.com/archives/2015/06/286.htm
二、函数大全
具体查阅《hive-all-函数大全.pdf》
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Spark都能整合使用。
如果你是做大数据分析平台和数据仓库相关的,就目前来说,我建议,Hive是必须的。
很早之前整理过Hive的函数,不过是基于0.7版本的,这两天抽时间更新了下,基于Hive0.13,比之前的完整了许多。
Hive函数大全 目录:
(一)关系运算
1. 等值比较: =
2. 等值比较:<=>
3. 不等值比较: <>和!=
4. 小于比较: <
5. 小于等于比较: <=
6. 大于比较: >
7. 大于等于比较: >=
8. 区间比较
9. 空值判断: IS NULL
10. 非空判断: IS NOT NULL
10. LIKE比较: LIKE
11. JAVA的LIKE操作: RLIKE
12. REGEXP操作: REGEXP
(二)数学运算
1. 加法操作: +
2. 减法操作: –
3. 乘法操作: *
4. 除法操作: /
5. 取余操作: %
6. 位与操作: &
7. 位或操作: |
8. 位异或操作: ^
9.位取反操作: ~
(三)逻辑运算
1. 逻辑与操作: AND 、&&
2. 逻辑或操作: OR 、||
3. 逻辑非操作: NOT、!
(四)复合类型构造函数
1. map结构
2. struct结构
3. named_struct结构
4. array结构
5. create_union
(五)复合类型操作符
1. 获取array中的元素
2. 获取map中的元素
3. 获取struct中的元素
(六)数值计算函数
1. 取整函数: round
2. 指定精度取整函数: round
3. 向下取整函数: floor
4. 向上取整函数: ceil
5. 向上取整函数: ceiling
6. 取随机数函数: rand
7. 自然指数函数: exp
8. 以10为底对数函数: log10
9. 以2为底对数函数: log2
10. 对数函数: log
11. 幂运算函数: pow
12. 幂运算函数: power
13. 开平方函数: sqrt
14. 二进制函数: bin
15. 十六进制函数: hex
16. 反转十六进制函数: unhex
17. 进制转换函数: conv
18. 绝对值函数: abs
19. 正取余函数: pmod
20. 正弦函数: sin
21. 反正弦函数: asin
22. 余弦函数: cos
23. 反余弦函数: acos
24. positive函数: positive
25. negative函数: negative
(七)集合操作函数
1. map类型大小:size
2. array类型大小:size
3. 判断元素数组是否包含元素:array_contains
4. 获取map中所有value集合
5. 获取map中所有key集合
6. 数组排序
(八)类型转换函数
1. 二进制转换:binary
2. 基础类型之间强制转换:cast
(九)日期函数
1. UNIX时间戳转日期函数: from_unixtime
2. 获取当前UNIX时间戳函数: unix_timestamp
3. 日期转UNIX时间戳函数: unix_timestamp
4. 指定格式日期转UNIX时间戳函数: unix_timestamp
5. 日期时间转日期函数: to_date
6. 日期转年函数: year
7. 日期转月函数: month
8. 日期转天函数: day
9. 日期转小时函数: hour
10. 日期转分钟函数: minute
11. 日期转秒函数: second
12. 日期转周函数: weekofyear
13. 日期比较函数: datediff
14. 日期增加函数: date_add
15. 日期减少函数: date_sub
(十)条件函数
1. If函数: if
2. 非空查找函数: COALESCE
3. 条件判断函数:CASE
4. 条件判断函数:CASE
(十一)字符串函数
1. 字符ascii码函数:ascii
2. base64字符串
3. 字符串连接函数:concat
4. 带分隔符字符串连接函数:concat_ws
5. 数组转换成字符串的函数:concat_ws
6. 小数位格式化成字符串函数:format_number
7. 字符串截取函数:substr,substring
8. 字符串截取函数:substr,substring
9. 字符串查找函数:instr
10. 字符串长度函数:length
11. 字符串查找函数:locate
12. 字符串格式化函数:printf
13. 字符串转换成map函数:str_to_map
14. base64解码函数:unbase64(string str)
15. 字符串转大写函数:upper,ucase
16. 字符串转小写函数:lower,lcase
17. 去空格函数:trim
18. 左边去空格函数:ltrim
19. 右边去空格函数:rtrim
20. 正则表达式替换函数:regexp_replace
21. 正则表达式解析函数:regexp_extract
22. URL解析函数:parse_url
23. json解析函数:get_json_object
24. 空格字符串函数:space
25. 重复字符串函数:repeat
26. 左补足函数:lpad
27. 右补足函数:rpad
28. 分割字符串函数: split
29. 集合查找函数: find_in_set
30. 分词函数:sentences
31. 分词后统计一起出现频次最高的TOP-K
32. 分词后统计与指定单词一起出现频次最高的TOP-K
(十二)混合函数
1. 调用Java函数:java_method
2. 调用Java函数:reflect
3. 字符串的hash值:hash
(十三)XPath解析XML函数
1. xpath
2. xpath_string
3. xpath_boolean
4. xpath_short, xpath_int, xpath_long
5. xpath_float, xpath_double, xpath_number
(十四)汇总统计函数(UDAF)
1. 个数统计函数: count
2. 总和统计函数: sum
3. 平均值统计函数: avg
4. 最小值统计函数: min
5. 最大值统计函数: max
6. 非空集合总体变量函数: var_pop
7. 非空集合样本变量函数: var_samp
8. 总体标准偏离函数: stddev_pop
9. 样本标准偏离函数: stddev_samp
10.中位数函数: percentile
11. 中位数函数: percentile
12. 近似中位数函数: percentile_approx
13. 近似中位数函数: percentile_approx
14. 直方图: histogram_numeric
15. 集合去重数:collect_set
16. 集合不去重函数:collect_list
(十五)表格生成函数Table-Generating Functions (UDTF)
1. 数组拆分成多行:explode
2. Map拆分成多行:explode