《流浪地球2》真的火出圈了
疫情开放后各行各业的经济都在恢复,特别是电影行业,遇上春节假期的加持活跃度又恢复到疫情之前。春节期间上映的几部电影风评都很好,特别是科幻大片《流浪地球2》最斩获近30亿票房后。《流浪地球2》的商业价值正在延伸至其IP周边。仅用8天时间,《流浪地球2》官方周边众筹金额突破一亿元,打破国内影视衍生品众筹金额最高记录。从这些数据可以看出大家对这部电影的喜爱。
今天我们就通过使用python大数据爬取豆瓣上关于《流浪地球2》的影评来做数据分析。关于豆瓣网站的反爬大家都很清楚,在非登录状态下只能爬取少量的数据,为了能更多的获取数据这里我们采取了登录账号加上cookie,并用代理IP来防止封IP行为。加上代理IP的实现方式如下所示:
#! -*- encoding:utf-8 -*-
import requests
import random
import requests.adapters
# 要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}
class HTTPAdapter(requests.adapters.HTTPAdapter):
def proxy_headers(self, proxy):
headers = super(HTTPAdapter, self).proxy_headers(proxy)
if hasattr(self, 'tunnel'):
headers['Proxy-Tunnel'] = self.tunnel
return headers
# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
s = requests.session()
a = HTTPAdapter()
# 设置IP切换头
a.tunnel = tunnel
s.mount('https://', a)
for url in targetUrlList:
r = s.get(url, proxies=proxies)
print r.text通过获取的数据分析可以看出,大家对小球2是真的喜欢,并且根据这次电影周边数据的展现,小编发现在中国电影周边的影视衍生品收入是最低的,通过这次的出圈数据表明随着国产IP的崛起,衍生品售卖业务有望提供更大想象空间。
《流浪地球2》真的火出圈了
xiaotaomi
会员积分:7320
疫情开放后各行各业的经济都在恢复,特别是电影行业,遇上春节假期的加持活跃度又恢复到疫情之前。春节期间上映的几部电影风评都很好,特别是科幻大片《流浪地球2》最斩获近30亿票房后。《流浪地球2》的商业价值正在延伸至其IP周边。仅用8天时间,《流浪地球2》官方周边众筹金额突破一亿元,打破国内影视衍生品众筹金额最高记录。从这些数据可以看出大家对这部电影的喜爱。
今天我们就通过使用python大数据爬取豆瓣上关于《流浪地球2》的影评来做数据分析。关于豆瓣网站的反爬大家都很清楚,在非登录状态下只能爬取少量的数据,为了能更多的获取数据这里我们采取了登录账号加上cookie,并用代理IP来防止封IP行为。加上代理IP的实现方式如下所示:
#! -*- encoding:utf-8 -*-
import requests
import random
import requests.adapters
# 要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}
class HTTPAdapter(requests.adapters.HTTPAdapter):
def proxy_headers(self, proxy):
headers = super(HTTPAdapter, self).proxy_headers(proxy)
if hasattr(self, 'tunnel'):
headers['Proxy-Tunnel'] = self.tunnel
return headers
# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
s = requests.session()
a = HTTPAdapter()
# 设置IP切换头
a.tunnel = tunnel
s.mount('https://', a)
for url in targetUrlList:
r = s.get(url, proxies=proxies)
print r.text通过获取的数据分析可以看出,大家对小球2是真的喜欢,并且根据这次电影周边数据的展现,小编发现在中国电影周边的影视衍生品收入是最低的,通过这次的出圈数据表明随着国产IP的崛起,衍生品售卖业务有望提供更大想象空间。

23-02-01 16:33

2568

0
回复
暂无评论