在C语言中,处理UTF-8编码的字符串需要一些特殊的技巧,因为UTF-8是一种可变长度的编码方式,其中一个字符可能由1到4个字节组成
#include<stdio.h>
#include<string.h>
size_t utf8_strlen(const char *str) {
size_t len = 0;
for (size_t i = 0; str[i] != '\0'; ++i) {
if ((str[i] & 0xC0) != 0x80) {
++len;
}
}
return len;
}
int main() {
const char *str = "你好,世界!";
printf("UTF-8字符串长度: %zu\n", utf8_strlen(str));
return 0;
}
#include<stdio.h>
#include<string.h>
void utf8_print_chars(const char *str) {
for (size_t i = 0; str[i] != '\0'; ++i) {
if ((str[i] & 0xC0) != 0x80) {
int char_len = 1;
if ((str[i] & 0xF0) == 0xF0) {
char_len = 4;
} else if ((str[i] & 0xE0) == 0xE0) {
char_len = 3;
} else if ((str[i] & 0xC0) == 0xC0) {
char_len = 2;
}
printf("Character: ");
for (int j = 0; j< char_len; ++j) {
printf("%02X ", (unsigned char)str[i + j]);
}
printf("\n");
i += char_len - 1;
}
}
}
int main() {
const char *str = "你好,世界!";
utf8_print_chars(str);
return 0;
}
#include<stdio.h>
#include<string.h>
#include <wchar.h>
#include<locale.h>
int main() {
setlocale(LC_ALL, ""); // 设置本地化,以便正确处理宽字符
const char *str = "你好,世界!";
wchar_t wstr[256];
mbstowcs(wstr, str, sizeof(wstr) / sizeof(wstr[0]));
wprintf(L"Wide string: %ls\n", wstr);
return 0;
}
注意:在处理UTF-8编码的字符串时,请确保使用支持UTF-8的库和系统。同时,对于不同平台和编译器,处理方式可能略有不同。在实际开发中,可以考虑使用第三方库,如iconv或者libutf8来处理UTF-8编码。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。