0、你至少得知道编码是怎么回事,utf-8、gbk是什么意思
你的文本编辑器能显示一个文件是什么编码,
不然你要处理中文文件,都不知道用什么编码打开
不过一般就是gbk和utf8两种,实在不行两个都试一遍
注意也许你看到的不是gbk,而是gb2312,
这两个使用上实际是一样的,gbk完全包含gb2312
1、让你的脚本文件本身用utf8保存,最好养成写任何脚本都用utf8的习惯
2、脚本开头加上:
use utf8;
use open “:encoding(gbk)”, “:std”;
意思是脚本里的字符串都用utf8处理,但是标准输入输出用gbk(默认的代码页编码)
做到这一步,脚本里就可以直接用中文了,字符串、正则表达式都没问题
如果要打开的文件全部是一种编码,如utf8,则可以加上:
use open “:encoding(utf8)”; #如果文件全是gbk,那么承上编码设置,此行可省略
3.1、打开内有中文的文件前,先要确定它的编码,
最常见是gbk或utf8,台湾来的可能是big5,utf16le的偶有可能,其他较少见
这样打开:
open my $fh, “<:encoding(gbk)”, “file.txt” or die; # 读文件
open my $fh, “>:encoding(utf8)”, “file.txt” or die; # 写文件
# 如果