用Python分析了数千个微信昵称后，我们发现了这些规律...

发布时间：2018-08-28 19:30:28 所属栏目：教程来源：XksA

导读：一、前言这是一篇技术文，但又不是一篇技术文，今天分享的是，当笔者获取了微信小程序英文取名的3500多个微信用户昵称、年龄段后，分析得到下面结果。二、Let's get it 1.基本信息获取访问英文取名的用户基本信息接口，获取英文取名用户微信名(Nick nam

(3)数据分类判断

# 昵称全中文判断 
def is_all_ch(keyword): 
    for c in keyword: 
        # 包含常见中文字符 
        if not ('u4e00' <= c <= 'u9fa5'): 
            return False 
    return True 
 
# 昵称全英文判断 
def is_all_en(keyword): 
    # 不能全部为空格或者首位为空格 
    if all(ord(c) == 32 for c in keyword) or keyword[0] == ' ': 
        return False 
    # 允许空格和英文并存(例如：Xist A) 
    if not all(65 < ord(c) < 128 or ord(c) == 32 for c in keyword): 
        return False 
    return True 
 
# 昵称全数字判断 
def is_all_di(keyword): 
    for uchar in keyword: 
        if not (uchar >= 'u0030' and uchar <= u'u0039'): 
            return False 
    return True 
 
# 昵称包含表情图判断 
def have_img(keyword): 
    # 下面是大部分图片的一个unicode编码集 
    # 详情查看：https://en.wikipedia.org/wiki/Emoji 
    img_re = re.compile(u'[' 
                      u'U0001F300-U0001F64F' 
                      u'U0001F680-U0001F6FF' 
                      u'u2600-u2B55]+', 
                      re.UNICODE) 
    if img_re.findall(keyword) : 
        return True 
    return False 
 
# 中文+数字昵称判断 
def is_ch_di(keyword): 
    for c in keyword: 
        if not ('u4e00' <= c <= 'u9fa5') and not (c >= 'u0030' and c <= u'u0039'): 
            return False 
    return True

(4)数据归类计算各类数量

list_name = get_name() 
 print("总共有："+str(len(list_name))+"个微信名") 
 for i in range(len(list_name)): 
     result = classification_name(list_name[i]) 
     if result == 'ch':  # 中文 
         ch_name_number +=1 
         ch_name.append(list_name[i]) 
     if result == 'en':  # 英文 
         en_name_number +=1 
        en_name.append(list_name[i]) 
    if result == 'di':  # 数字 
        di_name_number +=1 
        di_name.append(list_name[i]) 
    if result == 'img': # 含表情 
        img_name_number +=1 
        img_name.append(list_name[i]) 
    if result == 'ch_di': # 中文和数字 
        ch_di_name_number +=1 
        ch_di_name.append(list_name[i]) 
    if result == 'other': # 其他 
        oth_name_number +=1 
        oth_name.append(list_name[i]) 
 
print("纯中文昵称个数："+ str(ch_name_number)) 
# print(ch_name) 
print("纯英文昵称个数："+ str(en_name_number)) 
#print(en_name) 
print("纯数字昵称个数："+ str(di_name_number)) 
# print(di_name) 
print("包含表情图昵称个数："+ str(img_name_number)) 
# print(img_name) 
print("中文和数字混合昵称个数："+ str(ch_di_name_number)) 
print(ch_di_name) 
print("其他昵称个数："+ str(oth_name_number)) 
# print(oth_name)

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/11

首页

尾页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您