Python wordcloud库对 华为应用市场最新上架的APP进行分析

4个月前,写了一个爬取华为应用市场最新上架APP的脚本
https://appstore.huawei.com/more/newUp 这个URL下进行不定时爬取
现在已经爬取了78万条APP数据

可在csdn上下载文档: https://download.csdn.net/download/qq_42184699/12321776

列名分别为

APP名字 介绍 上架时间 下载量

正好玩玩python中的wordcloud库,进行简单的分析数据

由于官方pypi的源没有收录wordcloud,所以需要使用清华的pip源,安装wordcloud

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ wordcloud

对数据直接进行分析看看

from wordcloud import WordCloud, STOPWORDS

with open(r'C:\Users\12406\Desktop\Market_data.txt', 'rb') as file:
    content = file.read().decode('utf-8')
    file.close()


remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用的关键词
 for key in remove:
     STOPWORDS.add(key)

wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc', )
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\output.png')
print('#'*20 + 'ok' + '#' * 20)

得到以下图片

可以看到由于疫情的原因,上线或更新了非常多的医疗APP,提供在线开药、视频门诊等功能,推动了互联网医疗行业

股市中互联网医疗概念也应征了这个现象,从恐慌后暴跌,反弹到最高972.89点

还有比较显眼的关键词如:政务服务、幼儿教育

对APP介绍进行词云分析:

这里通过linux文本处理工具,对文本进行过滤,之所以不用python是因为linux可以非常快速的需求关键字

cat Market_data.txt | awk -F' ' '{print $2}' | sort | uniq  |grep -v ' ' > introduce.txt
sz introduce.txt #导出文本

通过Python创建词云

from wordcloud import WordCloud, STOPWORDS

with open(r'C:\Users\12406\Desktop\introduce.txt', 'rb') as file:
    content = file.read().decode('utf-8')
    file.close()

remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用关键字

for key in remove:
    STOPWORDS.add(key)

wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc')
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\introduce.png')
print('#'*20 + 'ok' + '#' * 20)

这张图片里面我比较感兴趣的是,为什么 北京的关键词会怎么高,所以对原数据进行了检查

发现,北京的公司非常喜欢在介绍里面加上“北京”这个关键字增加权重,这可能就是首都的魅力吧

还有其他关键词如:操作简单,娱乐,高效、来吸引用户

对APP上线日期进行统计

cat Market_data.txt  | awk -F' ' '{print $3}' |grep -E 20..-..-.. |sort | uniq -c | sort -n

可以看到日上线最高的基本都在年底,特别是1月17号(星期五)很多’社畜’就是周六这天回家的,看来还是老板催的紧

END

~

可以关注我的知乎或订阅我的RSS

发表评论

电子邮件地址不会被公开。 必填项已用*标注