“史上最多毕业生”的就业压力
据教育部统计,2022年预计我国高校毕业生人数首次突破千万大关,预计达1076万人,同比增加167万人,规模和数量均创历史新高,竞争激烈。而在如此庞大的毕业人数面前,最近经常可以听到“裁员”、“降薪”、“工作难找”等热词。疫情的常态化、全球化告诉我们,“保住饭碗”、“找到工作”、“苦练技术内功”是今年职场员工要的最重要的事情了。
所以为方便大家清晰了解当前就业市场,今天我们对招聘网址51job进行了数据爬取,我们将基于爬取的数据,比较了不同岗位的薪资、学历要求,分析比较了不同区域、行业对相关人才的需求情况,分析比较了不同岗位的知识、技能要求等方便大家对就业形势有更好的了解。现在的招聘网站都比较难访问,反爬机制做的比较严,所以早访问过程中加上了爬虫代理IP。文中提供的代码仅供大家参考学习使用。实现代码如下:
// 要访问的目标页面
string targetUrl = "http://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";
// 代理验证信息
string proxyUser = "username";
string proxyPass = "password";
// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);
ServicePointManager.Expect100Continue = false;
var request = WebRequest.Create(targetUrl) as HttpWebRequest;
request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method = "GET";
request.Proxy = proxy;
//request.Proxy.Credentials = CredentialCache.DefaultCredentials;
request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));
//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");
//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);
using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
string htmlStr = sr.ReadToEnd();本文章主要对51job进行爬取,这里分享两点经验,首先:由于爬取页数较多,可以尝试利用多进程、多线程进行爬取,来提高爬取效率;其次:为了更高效的获取数据需要对网站的反爬机制有足够的了解和解决方案,比如封IP时就需要使用到高质量的爬虫代理IP。
“史上最多毕业生”的就业压力
xiaotaomi
会员积分:7320
据教育部统计,2022年预计我国高校毕业生人数首次突破千万大关,预计达1076万人,同比增加167万人,规模和数量均创历史新高,竞争激烈。而在如此庞大的毕业人数面前,最近经常可以听到“裁员”、“降薪”、“工作难找”等热词。疫情的常态化、全球化告诉我们,“保住饭碗”、“找到工作”、“苦练技术内功”是今年职场员工要的最重要的事情了。
所以为方便大家清晰了解当前就业市场,今天我们对招聘网址51job进行了数据爬取,我们将基于爬取的数据,比较了不同岗位的薪资、学历要求,分析比较了不同区域、行业对相关人才的需求情况,分析比较了不同岗位的知识、技能要求等方便大家对就业形势有更好的了解。现在的招聘网站都比较难访问,反爬机制做的比较严,所以早访问过程中加上了爬虫代理IP。文中提供的代码仅供大家参考学习使用。实现代码如下:
// 要访问的目标页面
string targetUrl = "http://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";
// 代理验证信息
string proxyUser = "username";
string proxyPass = "password";
// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);
ServicePointManager.Expect100Continue = false;
var request = WebRequest.Create(targetUrl) as HttpWebRequest;
request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method = "GET";
request.Proxy = proxy;
//request.Proxy.Credentials = CredentialCache.DefaultCredentials;
request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));
//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");
//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);
using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
string htmlStr = sr.ReadToEnd();本文章主要对51job进行爬取,这里分享两点经验,首先:由于爬取页数较多,可以尝试利用多进程、多线程进行爬取,来提高爬取效率;其次:为了更高效的获取数据需要对网站的反爬机制有足够的了解和解决方案,比如封IP时就需要使用到高质量的爬虫代理IP。

22-05-07 16:19

1254

0
回复
暂无评论