0576-6.1.0-Hive Comment中文乱码补充!

2021年03月04日 06:44:26   [来源:互联网]   [阅读:1818]
字体:【

作者:辉少

1.文档编写目的


Fayson 在前面的文章《Hive表字段Comment中文乱码》中,介绍了在Hive中如何解决表字段中文注释乱码的问题,为了完善上篇文档,本文整理Hive表所有与中文注释相关的属性项,包括表字段、分区、表名、视图中文乱码,同时包括对该问题的分析。

  • 测试环境

1.CM和CDH版本为6.1.0

2.Hive的版本为2.1.1

3.集群已启用Kerberos

4.RedHat7.4

2.问题描述


在Hive中创建有中文注释的表时,默认情况下无论是在beeline还是Hue中该注释显示都会是乱码。使用以下建表和查看语句:

CREATE TABLE test_comment (
s1 string COMMENT "测试字段",
s2 string COMMENT "测试字段2"
) COMMENT "测试表名"
partitioned BY (s3 string COMMENT "测试分区");
SHOW CREATE TABLE test_comment;


在beeline中查看如下:


0576-6.1.0-Hive Comment中文乱码补充



Hue中显示一样,这里省略。

创建视图也是一样会出现乱码问题:

create view testview as select "测试视图" from student;
show create table testview;
select * from testview;



0576-6.1.0-Hive Comment中文乱码补充



3.解决办法


这个问题是因为mysql中的Hive元数据库表默认创建字符编码为latin1,需要修改表中对应字段的字符类型

mysql –u root –p
use metastore;
#修改字段注释字符集
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
#修改表注释字符集
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8;
#修改分区参数,支持分区建用中文表示
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(40000) character set utf8;
#修改表名注释,支持中文表示
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
#修改视图,支持视图中文
ALTER TABLE TBLS modify COLUMN VIEW_EXPANDED_TEXT mediumtext CHARACTER SET utf8;
ALTER TABLE TBLS modify COLUMN VIEW_ORIGINAL_TEXT mediumtext CHARACTER SET utf8;



0576-6.1.0-Hive Comment中文乱码补充



注意Hive元数据这个数据库应使用utf-8创建,如:create database metastore default character set utf8;

回到Hive中重新create一张表和视图,并查看


0576-6.1.0-Hive Comment中文乱码补充



发现中文注释已经显示正常。

再重新创建分区并查看:


0576-6.1.0-Hive Comment中文乱码补充



发现分区的中文也显示正常

注:在还未修改字符编码以前的创建的表,仍然需要重新执行ALTER语句后才能正常显示,所以建议在Hive 表中还没有数据时就将字符集修改过来

4

问题分析


针对该问题,Fayson 分析是由于Hive自动建表时设置了表的字符编码。

在创建Hive元数据库设置的字符集是utf8,查看语句如下:


0576-6.1.0-Hive Comment中文乱码补充



在添加Hive 组件时,建表语句是由CDH自动完成的,任意选择Hive 元数据库metastore 下的两个表查看,发现其默认的字符集编码是latin1,如下

0576-6.1.0-Hive Comment中文乱码补充


0576-6.1.0-Hive Comment中文乱码补充


这也就解释了,虽然创建Hive元数据库的时设置字符编码为utf8,但依旧出现中文乱码的问题。建议在Hive 中还为添加数据时,先去通过上面的方法解决中文乱码问题,避免后期数据多去大量执行ALTER去修改。

推荐阅读:叶紫网


相关新闻
新闻焦点
近年来,随着中国经济快速发展,化妆品市场呈现出一片红火景象,中国已成为全球化妆品消费第二大国。我国化妆品市场前期虽然起步较晚,但潜力不容小觑,许[更多]
近日,新浪与近20家全国头部地面频道、王牌民生节目、优秀的融媒体平台及自媒体平台签订融媒体深度战略合作协议,并宣布正式启动“温暖70城”活动。合[更多]
最近护肤界掀起了一股“国潮风”,最本人也对一款少女杀手面膜动心了,没管住自己的手入了名膜壹号的梦幻面膜。名膜壹号的面膜一直有不少小红书护肤达人的[更多]
【今年平均每人花44元看电影】截至12月14日,据灯塔专业版数据显示,国内累计电影票房已达609.6亿元,超过了去年全年606.88亿元的票房总[更多]
关于我们 | 联系我们 | XML地图 | 网站地图TXT | 版权声明
版权所有:科技杂谈网未经授权禁止复制或建立镜像
相关作品的原创性、文中陈述文字以及内容数据庞杂本站无法一一核实,如果您发现本网站上有侵犯您的合法权益的内容,请联系我们,本网站将立即予以删除!
中国互联网违法和不良信息举报中心 网络警察报警岗亭