C++如何实现高性能转换大小写算法

发布时间：2021-04-14 11:17:17 阅读：389 作者：小新栏目：编程语言

C++开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章给大家分享的是有关C++如何实现高性能转换大小写算法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

简述

最近工作中遇到一个需求，是需要将URL中的 query 参数的key全部转换为小写或者大写，键值对的数量有点多，但全部都是英文字母，无需考虑非字母的情况。

实现比较快的做法是使用STL或C标准库中的转换接口，如下：

#include <string> 
#include <cctype> 
#include <algorithm>
// 字符串中的大写字符转小写
std::string strtolower(std::string s)
{
 transform(s.begin(), s.end(), s.begin(), ::tolower);
 return s;
}
// 字符串中的小写字符转大写
std::string strtoupper(std::string s)
{
 transform(s.begin(), s.end(), s.begin(), ::toupper);
 return s;
}

这个方法虽然很好，但是效率不是很高。

分析了一下ascii码的码值，发现大小写字母的ascii码之间是有规律的。

原理

英文字母的ASCII码值表示如下

C++如何实现高性能转换大小写算法

对比一下其二进制形式

C++如何实现高性能转换大小写算法

从对比的结果可以看出， 大写字母与小写字母的差别 仅是 一个比特位的不同 。

因为它们的这个规律，可以写出下面的转换函数（如果输入不是字母，转出的结果会有错误）

可以查看数字 0-9 的ascii码值，可以看出它们的第6位都是0，所以转为小写的算法不会影响数字的值。

转小写算法中受到影响的，只有ascii码二进制表示中第六位为0的部分。其中非字母部分如下表

C++如何实现高性能转换大小写算法

#include <iostream>
#include <string>
#include <stdint.h>
// 更优化
std::string strtoupper(std::string s)
{
 if(s.empty()){return s;}
 size_t len = s.size() + 1;
 size_t alignlen = len + 8 - (len % 8);
 s.resize(alignlen);
 size_t ec = alignlen / 8;
 uint64_t* p8 = (uint64_t*)s.data();
 for(size_t i=0;i<ec;++i){
 p8[i] &= 0xDFDFDFDFDFDFDFDF;
 }
 s.resize(len-1);
 return s;
}
// 未做进一步优化
std::string strtolower(std::string s)
{
 size_t len = s.size();
 size_t ec = len /8;
 uint64_t* p8 = (uint64_t*)s.data();
 for(size_t i=0;i<ec;++i){
 p8[i] |= 0x2020202020202020;
 }
 uint8_t* p1 = (uint8_t*)(p8 + ec);
 len %= 8;
 for(size_t i=0;i<len;++i){
 p1[i] |= 0x20;
 }
 return s;
}

性能测试

测试代码如下：

int main()
{
 //std::cout << "Hello, world!\n";
 for(size_t i=0;i<1000000;++i){
 std::string s = strtoupper("qwertyuiopasdfghjklzxcvbnm````````QWERTYUIOPASDFGHJKLZXCVBNM");
 //std::cout<<s<<std::endl;
 s = strtolower("qwertyuiopasdfghjklzxcvbnm\t\t\t\t\t\t\t\tQWERTYUIOPASDFGHJKLZXCVBNM");
 //std::cout<<s<<std::endl;
 }
 return 0;
}

-- 编译时候请勿优化，否则可能被优化掉！ --

测试结果如下：

使用STL算法

STL算法部分主要由头文件<algorithm>,<numeric>,<functional>组成。要使用 STL中的算法函数必须包含头文件<algorithm>，对于数值算法须包含<numeric>，<functional>中则定义了一些模板类，用来声明函数对象。

STL中算法大致分为四类：

1、非可变序列算法：指不直接修改其所操作的容器内容的算法。

2、可变序列算法：指可以修改它们所操作的容器内容的算法。

3、排序算法：包括对序列进行排序和合并的算法、搜索算法以及有序序列上的集合操作。

4、数值算法：对容器内容进行数值计算。

结果如下

time ./teststl
./teststl 7.88s user 0.03s system 100% cpu 7.904 total

自写代码测试结果如下

time ./test
./test 0.93s user 0.00s system 99% cpu 0.928 total

可以看到，其性能有差异。（应用场景有限）

感谢各位的阅读！关于“C++如何实现高性能转换大小写算法”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

C++如何实现高性能转换大小写算法

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签