你知道明星流量造假是怎么被发现的吗?Python来揭秘!

都知道微博上有很多僵尸粉,为明星数据流量造假,作为一名求生欲十分强烈的数据媛,思虑再三不敢去扒流量明星,所以今天我挑中的下手对象是:

”下*****八“

你知道明星流量造假是怎么被发现的吗?Python来揭秘!

你知道明星流量造假是怎么被发现的吗?Python来揭秘!

可以添加QQ源码群1004391443,有飞机大战、颜值打分器、打砖块小游戏、红包提醒神器、小姐姐表白神器等具体的实训项目,有清晰源码,有相应的文件

一、运行环境

Windows,Python3

需要的包在cmd下载好:pip install ***

然后,在代码前面导入:import ***

import requestsfrom html.parser import HTMLParserimport jsonimport timefrom bs4 import BeautifulSoupimport jsonimport pandas as pd

二、获取微博粉丝页面的Cookie源码

首先打开他的微博主页,按F12进入开发模式,选择Network,F5刷新页面,像这样:

你知道明星流量造假是怎么被发现的吗?Python来揭秘!

在选项卡中选择"Doc",勾选页面网址,找到"Request Headers",像这样:

你知道明星流量造假是怎么被发现的吗?Python来揭秘!

通过"Request Headers"就能获取源码啦:

#函数def get_html(Header, the_url): r = requests.get(url=the_url, headers=header) parser = HTMLParser() parser.feed(r.text) html_str = r.text return html_str#函数的第一个参数:将"Request Headers"对应的字段贴过来,换成你想爬取得地址哦Header={ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8" , "Accept-Encoding": "gzip, deflate, br" , "Accept-Language": "zh-CN,zh;q=0.9" , "Connection": "keep-alive" , "Cookie":"SINAGLOBAL=8942290497361.736.1542873594539; UM_distinctid=1684f2253455f-07fefa1f3a5ef8-47e1039-144000-1684f2253463f8; UOR=,,www.duba.com; un=yuzidesky1128@sina.cn; wvr=6; Ugrow-G0=9642b0b34b4c0d569ed7a372f8823a8e; ALF=1587692149; SSOLoginState=1556156149; SCF=AmrcjCjvFI3VTtRcnw5XSEpu50N99C78GjWRXyTgpAiZyfrYPOUKsG3XcpfQFXmoHSYhPc9zkby1VsW0nEGa35o.; SUB=_2A25xxX6lDeRhGedJ7FAX8CnPyz2IHXVSs9dtrDV8PUNbmtAKLU_YkW9NUdIDy4VrqO7uz81FV-aLXHbJc1pOGAyW; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5.xNDWU.nUY18EZ3DRMKKg5JpX5KzhUgL.Fo2NS0zcehM0eh22dJLoIp9jdN9Li--NiK.piKLhi--fi-82iK.7; SUHB=0tKrG81Etv1yct; TC-V5-G0=841d8e04c4761f733a87c822f72195f3; _s_tentry=login.sina.com.cn; Apache=6519093007221.037.1556156193431; wb_view_log_1772607301=1536*8641.125; ULV=1556156193448:33:4:2:6519093007221.037.1556156193431:1556094384932; TC-Page-G0=cdcf495cbaea129529aa606e7629fea7|1556165109|1556164910; webim_unReadCount=%7B%22time%22%3A1556167207612%2C%22dm_pub_total%22%3A2%2C%22chat_group_pc%22%3A0%2C%22allcountNum%22%3A2%2C%22msgbox%22%3A0%7D
未经允许不得转载:新闻 » 你知道明星流量造假是怎么被发现的吗?Python来揭秘!