在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python分析9萬條數據 復仇者聯盟誰才是C位

電子工程師 ? 來源:fqj ? 2019-05-05 09:13 ? 次閱讀

《復聯 4》國內上映第十天,程序員的江湖里開始流傳這樣一個故事,即:

漫威宇宙,其實就講了一件事情。整個宇宙就好比一個項目組。其中有一群叫作美國隊長、鋼鐵俠、驚奇隊長、浩克、索爾等人在維護這個項目,兢兢業業的維護整個項目。

某一天,出現了一個天才程序員,叫滅霸。當他加入到這家公司的時候,他意識到,這個項目已經非常龐大,僅僅是編譯,就要幾個小時。運行起來負重累累。而服務器資源又非常的有限,老板又不給預算買新機器,如果一直繼續這么開發下去,這個項目遲早要出現 P0 事故。于是,他下定決定要把這個項目全面優化,使用用面向對象思想,提取重復代碼,業務拆分,算法優化等手段,徹底優化,目標是代碼量減少 50%。

美國隊長帶領的項目組叫復仇者聯盟,發現了滅霸程序員的想法后,阻止并警告滅霸說:不要輕易去改老代碼!!很容易出 bug 的,代碼能跑就行!!

那么,作為一個寫程序員的電影,我們怎么不能用數據來分析一下,喜歡漫威宇宙的觀眾對《復聯 4》的評價呢?

抓取數據

業界朋友們,在電影分析中,使用貓眼的數據比較多。在本文中,筆者也使用了貓眼的接口來獲取數據,方便處理,數據量也比較多。

Python 中,使用 Request 可以很方便地發送請求,拿到接口返回的 JSON 數據,來看代碼:

defgetMoveinfo(url):session=requests.Session()headers={"User-Agent":"Mozilla/5.0",
"Accept":"text/html,application/xhtml+xml",
"Cookie":"_lxsdk_cuid="}response=session.get(url,headers=headers)ifresponse.status_code==200:
returnresponse.textreturnNone

請求返回的是一個 JSON 數據,拿到我們想要的評論原始數據,并將數據存儲在數據庫中:

defsaveItem(dbName,moveId,id,originalData):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()ins="INSERTORREPLACEINTOcommentsvalues(?,?,?)"v=(id,originalData,moveId)cursor.execute(ins,v)cursor.close()conn.commit()conn.close()

經過大概兩個小時,終于從貓眼爬取了大約 9 萬條數據。數據庫文件已經超過了 100M 了。

數據清洗

因為在上面抓取下來的數據,直接進行了原數據的存儲,沒有進行數據的解析處理。接口中包含了很多數據,有用戶信息、評論信息等。本次分析,只使用了部分數據,所以需要將用到的相關數據清洗出來:

defconvert(dbName):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()cursor.execute("select*fromcomments")data=cursor.fetchall()foritemindata:commentItem=json.loads(item[1])movieId=item[2]insertItem(dbName,movieId,commentItem)cursor.close()conn.commit()conn.close()definsertItem(dbName,movieId,item):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()sql='''INSERTORREPLACEINTOconvertDatavalues(?,?,?,?,?,?,?,?,?)'''values=(getValue(item,"id"),movieId,getValue(item,"userId"),getValue(item,"nickName"),getValue(item,"score"),getValue(item,"content"),getValue(item,"cityName"),getValue(item,"vipType"),getValue(item,"startTime"))cursor.execute(sql,values)cursor.close()conn.commit()conn.close()

通過 JSON 庫將原始數據解析出來,將我們需要的信息存儲到新的數據表中。

數據分析

因為沒有任何一個平臺能夠拿到用戶的購票數據,我們只能從評論的數據中,以小見大,從這些數據中,分析出一些走勢。 在評論數據中,我們能看到評論用戶所在的城市。將數據所在的位置解析,劃分到各對應的行政省,可以看到每個省評論數量,見下圖(顏色越紅,用戶評論數量越多):

城市

從圖中可以看到, 上海、廣州、四川用戶的數量顯然要比其他城市的用戶數量要多得多。再來看一下代碼:

data=pd.read_sql("select*fromconvertData",conn)city=data.groupby(['cityName'])city_com=city['score'].agg(['mean','count'])city_com.reset_index(inplace=True)fo=open("citys.json",'r')citys_info=fo.readlines()citysJson=json.loads(str(citys_info[0]))printcity_comdata_map_all=[(getRealName(city_com['cityName'][i],citysJson),city_com['count']
[i])foriinrange(0,city_com.shape[0])]data_map_list={}foritemindata_map_all:
ifdata_map_list.has_key(item[0]):
value=data_map_list[item[0]]
value+=item[1]
data_map_list[item[0]]=value
else:
data_map_list[item[0]]=item[1]
data_map=[(realKeys(key),data_map_list[key])forkeyindata_map_list.keys()]

漫威電影一直深受中國朋友們喜歡的高分電影。豆瓣評分 8.7 分,那我們的評論用戶中,又是一個什么樣的趨勢呢?見下圖:

Python分析9萬條數據 復仇者聯盟誰才是C位

評分數

從圖中可以看到,評 5 分的數量遠高于其他評分,可見中國的觀眾朋友確實喜歡漫威的科幻電影。

復聯從 1 開始便是漫威宇宙各路超級英雄的集結,到現在的第 4 部,更是全英雄的匯聚。那么,在這之中,哪位英雄人物更受觀眾歡迎?先看代碼:

attr=["滅霸","美國隊長","鋼鐵俠","浩克","奇異博士","蜘蛛俠","索爾","黑寡婦","鷹眼","驚奇隊長","幻視","猩紅女巫","蟻人","古一法師"]alias={"滅霸":["滅霸","Thanos"],"美國隊長":["美國隊長","美隊"],"浩克":["浩克","綠巨人","班納","HULK"],"奇異博士":["奇異博士","醫生"],"鋼鐵俠":["鋼鐵俠","stark","斯塔克","托尼","史塔克"],"蜘蛛俠":["蜘蛛俠","蜘蛛","彼得","荷蘭弟"],"索爾":["索爾","雷神"],"黑寡婦":["黑寡婦","寡姐"],"鷹眼":["鷹眼","克林頓","巴頓","克林特"],"驚奇隊長":["驚奇隊長","卡羅爾","驚奇"],"星云":["星云"],"猩紅女巫":["猩紅女巫","緋紅女巫","旺達"],"蟻人":["蟻人","蟻俠","Ant","AntMan"],"古一法師":["古一","古一法師","法師"]}v1=[getCommentCount(getAlias(alias,attr[i]))foriinrange(0,len(attr))]bar=Bar("Hiro")bar.add("count",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,xaxis_interval=0,is_splitline_show=True)bar.render("html/hiro_count.html")

運行結果如下圖,可以看到鋼鐵俠鋼鐵俠是實至名歸的 C 位,不僅電影在電影中是,在評論區仍然也是實至名歸的 C 位,甚至于遠超美隊、寡姐和雷神:

Python分析9萬條數據 復仇者聯盟誰才是C位

英雄評論次數

從以上觀眾分布和評分的數據可以看到,這一部劇,觀眾朋友還是非常地喜歡。前面,從貓眼拿到了觀眾的評論數據。現在,筆者將通過 Jieba 把評論進行分詞,然后通過 Wordcloud 制作詞云,來看看,觀眾朋友們對《復聯》的整體評價:

詞云分析

可以看到,滅霸和鋼鐵俠出現的詞頻比其他英雄要高很多。這是否表示,這部劇的主角就是他們兩個呢?

細心的朋友應該發現了,鋼鐵俠、滅霸的數量在詞云和評論數量里面不一致。原因在于,評論數量就按評論條數來統計的,而詞云中,使用的是詞頻,同一條評論中,多次出現會多次統計。所以,滅霸出現的次數居然高于了鋼鐵俠。

最后,再來分析一下鋼鐵俠與滅霸的情感分析,先上代碼:

defemotionParser(name):conn=conn=sqlite3.connect("end.db")conn.text_factory=strcursor=conn.cursor()likeStr="like"%"+name+"%""cursor.execute("selectcontentfromconvertDatawherecontent"+likeStr)values=cursor.fetchall()sentimentslist=[]foriteminvalues:
sentimentslist.append(SnowNLP(item[0].decode("utf-8")).sentiments)plt.hist(sentimentslist,bins=np.arange(0,1,0.01),facecolor="#4F8CD6")
plt.xlabel("SentimentsProbability")
plt.ylabel("Quantity")
plt.title("AnalysisofSentimentsfor"+name)
plt.show()cursor.close()conn.close()

此處,使用 SnowNLP 來進行情感分析。

情感分析,又稱為意見挖掘、傾向性分析等。簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。

Python分析9萬條數據 復仇者聯盟誰才是C位

滅霸

鋼鐵俠

從圖中看到, 鋼鐵俠的正向情感要比滅霸的正向情感要高,反派角色就是容易被人抗拒。

最最后,從《銀河護衛隊》時期穿越而來的滅霸在最后分鐘變成了粉末消散而去,這也給我們程序員一個警鐘:

“重構代碼,改善設計,降低系統復雜度,這樣做很好。但是,一定要保證系統的穩定運行,不留安全隱患,不然,早晚會丟掉自己的工作。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7073

    瀏覽量

    89144
  • 代碼
    +關注

    關注

    30

    文章

    4797

    瀏覽量

    68710
  • python
    +關注

    關注

    56

    文章

    4797

    瀏覽量

    84787

原文標題:Python分析9萬條數據告訴你復仇者聯盟誰才是絕對C位

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    科沃斯DK39復仇者聯盟版掃地機器人開箱體驗

    如果你是一個電影愛好,一定不會錯過當前最熱門的電影——復仇者聯盟3,作為漫威宇宙近十年的最強集結,曾經各自為戰的超級英雄們,為了對抗共同的敵人而齊聚復仇者
    的頭像 發表于 05-21 10:35 ?5697次閱讀

    一加6復仇者聯盟版圖賞

    一加6復仇者聯盟版 隨著《復仇者聯盟3:無限戰爭》的熱映,有不少品牌方也選擇在這個時間節點推出復聯版產品,搶跟一波熱潮,一加手機也是其中之一。5月17日,一加6正式發布,除了普通版本外
    的頭像 發表于 05-28 14:35 ?4581次閱讀

    銘瑄正式推出復仇者M3 RGB內存,具有12種燈效的復仇者M3實際表現如何呢?

    復仇者M3燈效方面,預設有絢彩RGB燈效,5個獨立光效區域,支持主板軟件調控,12種燈效模式,和其他支持調控的硬件同步,展現別致的燈光氛圍。
    的頭像 發表于 07-20 15:48 ?4764次閱讀

    復仇者”ER無人機持續飛行了23.4小時,完成模擬偵察任務

    通用原子公司“復仇者”ER無人機創造了新的續航紀錄,該無人機在典型情報、監視與偵察(ISR)任務設置中持續飛行了23.4小時,執行了模擬偵察任務。
    發表于 07-30 14:31 ?4517次閱讀

    復仇者M3用性價比吹響了普及RGB“馬甲”的號角

    3200MHz時銘瑄復仇者M3的讀取、寫入和復制性能分別提升了33.12%、29.14%和21.72%,延遲也降低至83.6ns。
    的頭像 發表于 08-30 10:22 ?3742次閱讀

    臺積電組成復仇者聯盟 重回戰場對抗英特爾

    趁對手放緩腳步,英特爾過去的手下敗將,結合臺積電的先進制程組成復仇者聯盟,一一重回半導體的舞臺發光發熱,這是今年值得注意的投資機會。
    的頭像 發表于 05-27 14:08 ?2514次閱讀

    小米手環4復仇者聯盟系列限量版發布 售價349元

    小米手環4復仇者聯盟系列限量版正式亮相,售價349元
    發表于 06-13 15:59 ?5429次閱讀

    小米手環4復仇者聯盟限量版正式開賣 售價349元

    6月28日消息,小米商城官方微博預告,小米手環4復仇者聯盟限量版將在今天上午10點正式開賣,售價349元。
    發表于 06-28 14:47 ?1511次閱讀

    小米手環4復仇者聯盟限量版高清圖賞

    7月29日消息,小米手環4還帶來了復仇者聯盟限量版,售價349元。包含金屬銘牌、收藏證書、定制腕帶等,其中定制腕帶為美隊、鋼鐵俠、漫威三款,致敬熒幕經典英雄。
    的頭像 發表于 07-30 10:08 ?7477次閱讀

    AMAZFIT智能手表2ECG版和復仇者聯盟系列限量版因工藝復雜無法按時開售

    7月30日晚,華米科技發布公告,由于全陶瓷表身工藝十分復雜、加工難度很高,導致原定于本月上市的AMAZFIT智能手表2 ECG版和復仇者聯盟系列限量版無法按時開售,后續上市日期確定之后,我們將第一時間通知。
    發表于 07-31 14:28 ?1384次閱讀

    94折采購元器件 還能免費看“復仇者聯盟”?

    94折采購元器件,還能免費看“復仇者聯盟”?
    的頭像 發表于 03-01 11:13 ?1642次閱讀

    AMAZFIT智能手表2復仇者聯盟限量版將于10月18日開啟限量預售

    6月11日,華米發布AMAZFIT智能手表2,定位旗艦,支持三網4G通話,標準版定價999元,ECG版售價1299元。此外還有復仇者聯盟限量版,售價1499元。
    發表于 10-15 16:20 ?1777次閱讀

    英特爾宣布《復仇者聯盟》系列酷睿處理器停產

    、i9-10850K 和 i9-10900K 都將停產。 IT之家了解到,今年 8 月底,英特爾在京東上架了復仇者聯盟珍藏版的 i7-10700KA 和 i
    的頭像 發表于 12-19 09:41 ?3479次閱讀

    復仇者聯盟工廠監控裝置

    電子發燒友網站提供《復仇者聯盟工廠監控裝置.zip》資料免費下載
    發表于 11-08 15:18 ?0次下載
    <b class='flag-5'>復仇者</b><b class='flag-5'>聯盟</b>工廠監控裝置

    科技巨頭組建“復仇者聯盟”,挑戰英偉達的NVLink技術

    據報導,包括 AMD、谷歌、微軟、英特爾(Intel)、博通(Broadcom)和思科(Cisco)在內的多家國際科技龍頭聯手,組成“復仇者聯盟”,欲挑戰 NVIDIA 的 NVLink 技術。
    的頭像 發表于 05-31 11:54 ?644次閱讀
    主站蜘蛛池模板: 中文天堂最新版www官网在线| 狠狠色噜噜狠狠狠狠五月婷 | 越南黄色录像| 男人的天堂一区二区视频在线观看| 狠狠色噜噜狠狠狠狠97不卡| 亚州视频一区二区| 91md天美精东蜜桃传媒在线| 天天干天天拍天天射天天添天天爱| 国产精品日韩欧美亚洲另类| 欧美成人aaa大片| 日日噜噜噜夜夜爽爽狠狠图片| 欧美成人在线影院| wwwxx在线| 国产欧美久久久精品影院| 秋霞一级特黄真人毛片| 天堂网在线www最新版在线| 久久久久久午夜精品| 欧美在线激情| 国产偷啪视频一区| 天堂在线bt| 天天舔天天| 午夜手机福利| 亚洲一级色片| www.三级.com| 手机看片欧美日韩| www.射| 久久久久免费| 久久久久国产精品免费免费| 欧美影欧美影院免费观看视频| 国产一级αv片免费观看| sis色中色| 亚洲综合免费| 亚洲天堂视频一区| 怡红院最新网址| 一级片视频播放| 又黄又涩的视频| 伊人久久狼人| 日本在线视频www色| 欧美污视频网站| 看毛片的网站| 久久久精品免费国产四虎|