这篇文章主要介绍python实战之怎么用爬虫修改发布的招聘内容,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
1. 校正发布日期
"time" : "发布于03月31日", "time" : "发布于昨天", "time" : "发布于11:31",
这里拿到的都是这种格式的,所以简单处理下
import datetime from pymongo import MongoClient db = MongoClient('127.0.0.1', 27017).iApp def update(data): return db.jobs_php.update_one({"_id": data['_id']}, {"$set": data}) # 把时间校正过来 def clear_time(): items = db.jobs_php.find({}) for item in items: if not item['time'].find('布于'): continue item['time'] = item['time'].replace("发布于", "2017-") item['time'] = item['time'].replace("月", "-") item['time'] = item['time'].replace("日", "") if item['time'].find("昨天") > 0: item['time'] = str(datetime.date.today() - datetime.timedelta(days=1)) elif item['time'].find(":") > 0: item['time'] = str(datetime.date.today()) update(item) print('ok')
2.校正薪水以数字保存
"salary" : "5K-12K", #处理成下面的格式 "salary" : { "low" : 5000, "high" : 12000, "avg" : 8500.0 }, # 薪水处理成数字,符合 xk-yk 的数据处理,不符合的跳过 def clear_salary(): items = db.jobs_lagou_php.find({}) for item in items: if type(item['salary']) == type({}): continue salary_list = item['salary'].lower().replace("k", "000").split("-") if len(salary_list) != 2: print(salary_list) continue try: salary_list = [int(x) for x in salary_list] except: print(salary_list) continue item['salary'] = { 'low': salary_list[0], 'high': salary_list[1], 'avg': (salary_list[0] + salary_list[1]) / 2 } update(item) print('ok')
这里在处理 Boss直聘的数据时,比较简单正常,但是后续抓到拉勾网的数据,拉勾网的数据有些不太规范。比如有‘20k以上’这种描述
以上是“python实战之怎么用爬虫修改发布的招聘内容”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。