我是怎麼分析一萬篇AO3文章的

2020-03-21 22:07:01 大德奧

寫在前面:

沸沸揚揚的227看來是告一段落了,這件事對我和豆醬的影響就是發現能發聲引起大家的討論和關注還是一件很有意思的事情,所以決定慢慢開始經營自己的號.基本保證每週更新一次.那我就儘量發揮我的優勢,跟大家講講代碼,聊聊技術.首先就把我在227文章和視頻的技術都和大家講個透徹.這裡總共是四大部分:

基於 selenium 的爬蟲,已經寫過一期文章,還會有一篇;
基於詞頻統計的數據分析,就是本文;
基於深度學習的 NLP 文本分類器;
基於OpenCV 的圖像視頻製作.

這就夠一個月了.新手初來乍到,謝謝大家支持.有什麼感興趣的可以評論或私信.我也會根據大家關係的東西寫哦~

對文本進行分析

上一篇文章中已經對相關庫進行簡要介紹,這裡我只列舉文本分析時使用到的庫.

BeautifulSoup: Html 標籤解析器 jieba: 中文分詞工具 wordcloud: 詞雲生成器 matplotlib: 科學繪圖庫 numpy: python數學運算庫 PIL: python圖像處理庫

matplotlib 使用時要注意中文顯示問題,matplotlib默認並不支持中文顯示,需要進行一些配置.

具體步驟是:

通過 matplotlib.matplotlib_fname() 命令找到 matplotlib 路徑;
將字體放在字體文件夾下,並修改配置文件
去掉 font.family , axes.unicode_minus 和 font.sans-serif 前的註釋符#,
在 font.sans-serif 中添加字體名稱(這裡是 simhei),把 axes.unicode_minus 的值改為 False.
刪掉 matplotlib 的緩存目錄

在使用 Jupyter notebook 時,需要注意添加魔法命令 %pylab inline.

<code>import sys
import re
import os
import time
from tqdm import tqdm

import numpy as np
# import pandas as pd
from bs4 import BeautifulSoup
import jieba #分詞
from wordcloud import WordCloud #詞雲
import matplotlib.pyplot as plt
import pylab
pylab.rcParams['font.family'] = 'simhei'
from PIL import Image
import time

%pylab inline/<code>

配置一些函數

然後定義幾個通用函數,包括:

從文件中按行讀取(任意)詞;
在文本中查找是否有敏感詞並返回;
去除常用詞;
創建詞雲.

提示一下大家,讀取詞表和檢查敏感詞的計數部分是有Bug的,如果詞表有重複的詞,則敏感詞會多記一次.這個在未來藉助 NLP 生成句子檢測器的工作中已經修復了.請大家注意一下.相關視頻已經放在 B站和頭條西瓜有興趣的小夥伴可以去看

<code>#讀取詞表
def read_words_list(path):
    with open(path) as f:
        lines = f.readlines()
    
    strlist = []
    for l in lines:
        if '#' != l[0] and '' != l.strip():
            l = l.strip()
            strlist.append(l)
    return strlist

#查找敏感詞
def check_sens_words(text, sens_words):
    ttext = text.strip()
    sw_buf = [] #敏感詞
    for sw in sens_words:
        n = ttext.count(sw) #敏感詞出現次數
        if n>0:
            sw_buf.append([sw,n])
    return sw_buf

#去除常用詞
def remove_stop_words(text, stop_words):
    #保存過濾詞數量的字典
    swords_cnt = {}
        
    while "  " in text: #去掉多餘空格 

        text = text.replace('  ', ' ')
    for key, words in stop_words.items():
        swords_cnt[key] = np.zeros(len(words)) #創建向量
        for i,stpwd in enumerate(words):
            if (stpwd) in text:
                text = text.replace(' '+stpwd+' ', ' ')
#                 swords_cnt[key][i] += text.count(stpwd)
                swords_cnt[key][i] += 1
    return text, swords_cnt

#創建詞雲
def create_word_cloud(text, max_words, img_path=None):
    wc = WordCloud(
        font_path="./simhei.ttf",
        max_words=max_words,
        width=max_words*4,
        height=max_words*4,
    )
    wordcloud = wc.generate(text)
    #寫詞雲圖片
    if img_path is not None:
        wordcloud.to_file(img_path)
    return wordcloud/<code>

讀取過濾詞和敏感詞

設置一些路徑和全局字典.這裡要提醒大家,使用的是jupyter做數據分析這種臨時的項目可以這麼玩.如果是正經的項目或者工程開發.千萬要寫配置文件進參數配置,而不是寫死在代碼裡.否則你會被同事和老闆diss的.

<code>#讀取過濾詞和敏感詞
stop_words_path = 'stop_words.txt'
bodypart_words_path = "stop_words_bodypart.txt"
color_words_path = "stop_words_color.txt"
motion_words_path = "stop_words_motion.txt"
orientation_words_path = "stop_words_orientation.txt"
role_name_words_path = "stop_words_role_name.txt"
site_words_path = "stop_words_site.txt"
thing_words_path = "stop_words_ting.txt"
title_words_path = "stop_words_title.txt"
 

stop_words = {}
stop_words["default"] = read_words_list(stop_words_path)
stop_words["bodypart"] = read_words_list(bodypart_words_path)
stop_words["color"] = read_words_list(color_words_path)
stop_words["motion"] = read_words_list(motion_words_path)
stop_words["orientation"] = read_words_list(orientation_words_path)
stop_words["role_name"] = read_words_list(role_name_words_path)
stop_words["site"] = read_words_list(site_words_path)
stop_words["thing"] = read_words_list(thing_words_path)
stop_words["title"] = read_words_list(title_words_path)

sens_words_path = 'sensitive_words.txt'
sens_words = read_words_list(sens_words_path)/<code>

數據分析函數

主要就是用正則表達式去除特殊標點,另外jieba分詞也是在這裡使用的

<code>#文本分析
def analyze_text(text):
    #去標點符號
    article_str = re.sub(r"[0-9\\s+\\.\\!\\/_,$%^*()?;；:-【】+\"\\']+|[+——！，;:：。？、~@#￥%……&*（）]+", " ", text) 

    #整理詞雲
    article_str = " ".join(jieba.cut(article_str,cut_all=False, HMM=True))
    #記總數
    article_str_cnt = len(article_str.split())
    #檢查敏感詞
    sub_sens_word_buf = check_sens_words(article_str, sens_words)
    
    #去除過濾詞
    article_str, s_cnt = remove_stop_words(article_str, stop_words)
    
    return article_str, article_str_cnt, s_cnt, sub_sens_word_buf/<code>

配置AO3的文章分析

這裡還是使用BeautifulSoup進行分析。我希望通過相應html標籤找到:

分級文本(rating)
點擊量(hits)
發佈日期(published)
正文(article)

本來還想提取主角信息來方面濾掉主角名稱。但是發現主角名似乎是js代碼獲取，並不好獲取，就放棄了。為了方便文章分析，用正則表達式吧有標點都替換成空格，並把正文中的 p 標籤和 br 標籤都替換為空格。後期在做NLP提取句子的時候,這裡有改動.增加了獲取的信息並且用標點預分割出句子.等寫到那裡的時候再跟大家說明,這裡Mark一下.

<code>base_path = "fulltext/"
ao3_pbar = tqdm(os.listdir(base_path))/<code>

<code>#提取ao3文章
def extract_ao3_work(html, stop_words, sens_words):
    soup = BeautifulSoup(html, 'html.parser')
    #提取分級標籤
    rating_dd = soup.find('dd', attrs={'class': 'rating tags'}) #找到分級標籤
    rating_a = rating_dd.find('a', attrs={'class': 'tag'}) #找到對應的a標籤
    rating = rating_a.string #獲得標籤文字
    
    stats_dd = soup.find('dl', attrs={'class': 'stats'})
    #提取點擊量
    hits_dd = stats_dd.find('dd', attrs={'class': 'hits'}) #找到分級標籤
    try:
        hits = int(hits_dd.string)
    except AttributeError:
        hits = 0 

    
    #提取發佈日期
    published_dd = stats_dd.find('dd', attrs={'class': 'published'}) #找到分級標籤
    date_str = published_dd.string

    #提取文章
    article_div = soup.find('div', attrs={'role': 'article'}) #找到文章標籤
    article_userstuff = article_div.find('div', attrs={'class': 'userstuff'})
    article_str = str(article_userstuff)
    article_str = article_str.replace("","")
    article_str = article_str.replace("","")
    article_str = article_str.replace("
","")
    article_str = article_str.replace("
"," ")
    article_str = article_str.replace(""," ")
    article_str = article_str.replace(" "," ")
    article_str = article_str.replace("
"," ")
    
    # print(article_str)
    # time.sleep(3)
    return rating, hits, date_str, article_str/<code>

在運行迭代前還要配置一些全局變量存儲需要分析的信息,還是那句老話,正經項目注意規範,不要這麼幹!

普及一下:首先如果公司或者參與的項目有相關的指導和規範就按照指導規範來.

如果沒有,儘量遵循以下原則:

死數字儘量改為常量或宏(Python 沒有宏)並注意命名區分(通常是全大寫);

常量儘可能通過配置文件傳入;
儘量少用全局變量,使用類(class)把方法和變量封裝在一起;
全局變量命名也需要區分(通常是全大寫);

在 python 語法裡命名前面加"_"才是局部變量,通常創建的都是全局變量,而大家一般沒這個書寫習慣,特別是在使用 Jupyter 時,如果不 Restart 很容易混淆,需要特別注意.

<code>all_article_str = "" #所有文字
all_article_str_cnt = 0
sens_word_str = "" #包含的所有敏感詞
rating_article_dict = {} #按照分級保存的文字
rating_sens_word_dict = {} #按照分級保存的包含敏感詞
stop_cnt = {} #過濾詞的計數
for key, words in stop_words.items():
        stop_cnt[key] = np.zeros(len(words)) #創建向量
date_cnt_dict = {} #發表時間字典，按月統計/<code>

對AO3文章進行拆分處理

這裡開始對文章進行依次處理.獲取後面生成圖表所需要的數據.具體步驟代碼中都有註釋,操作也比較簡單,各位自己看吧.

對於 python 的初學者囉嗦兩句:

認真學習 for 循環的精髓,善用 enumerate zip 等方法, range效率低且low;
善用字典和列表.列表和numpy的切片功能要掌握清楚,如果從C++等語言轉過來,你就知道Python這些功能真的是神方便;
分清軟拷貝和硬拷貝,不論那種語言這個都很重要.

<code>for work in ao3_pbar:
    work_path = os.path.join(base_path,work)
    with open(work_path) as f:
        work_str = f.read() #讀取文章
    rating, hits, date_str, article_str = extract_ao3_work(work_str, stop_words, sens_words)
    article_str, artstr_cnt, sub_stop_cnt, sub_sens_word_buf = analyze_text(article_str)
    all_article_str += article_str #所有文章文字融合
    all_article_str_cnt += artstr_cnt #所有詞語數量加和
    
    #統計日期2020-01-01，按月
    date_elem = date_str.split("-")
    month_date = date_elem[0]+"-"+date_elem[1]
    if not date_cnt_dict.__contains__(month_date): #不存在分級則創建一個
        date_cnt_dict[month_date] = 0
    date_cnt_dict[month_date] += 1
    
    #為每個過濾詞添加計數
    for sc, sub_sc in zip(stop_cnt.values(), sub_stop_cnt.values()):
        sc += sub_sc
        
    #所有敏感詞融合
    for swlist in sub_sens_word_buf:
        for s in range(swlist[1]):
            sens_word_str += swlist[0] + " "

    #按標籤分類文章
    if not rating_article_dict.__contains__(rating): #不存在分級則創建一個
        # 文本，總詞數，文章數，總點擊量，無敏感詞文章數
        rating_article_dict[rating] = ["",0,0,0,0] 

        # 敏感詞集合，總敏感詞數
        rating_sens_word_dict[rating] = ["",0]

    rating_article_dict[rating][0] += article_str + " "
    rating_article_dict[rating][1] += artstr_cnt
    rating_article_dict[rating][2] += 1
    rating_article_dict[rating][3] += hits
    
    sens_word_cnt = 0 #敏感詞計數
    for swlist in sub_sens_word_buf:
        for s in range(swlist[1]): #敏感詞重複也計入
            rating_sens_word_dict[rating][0] += swlist[0] + " "
            rating_sens_word_dict[rating][1] += 1
            sens_word_cnt += 1
    
    #敏感詞小於一定數量
    if sens_word_cnt < 5:
        rating_article_dict[rating][4] += 1/<code>

分級標籤佔比

AO3總體中文文章比例：大眾向2萬8千篇；青少2萬4千篇；成人8萬1千篇；激烈4萬8千篇；未分級6萬3千篇。對比抽取樣本的比例和總體比例，樣本分佈還是基本滿足均勻分佈的。

截止發文時間，AO3有共有中文文章：244595篇，抽取中文文章數量：12066篇

詳細的內容說明大家去看我的頭條文章或者豆醬的知乎文章即可,我就不復述了.

代碼詳解: 在jupyter 中使用 plt 繪製圖片時經常遇到圖太小的問題.可以使用: plt.figure(figsize=(15,15)) 解決.這裡使用餅圖 pie 來繪製,這個圖表比較簡單,就沒有做複雜的標籤.一些複雜操作,後面的圖我會分別和大家介紹.

<code>#分級標籤
tags = [k for k in rating_article_dict.keys()]
#數值：文章數 2
values = [v[2] for v in rating_article_dict.values()]

#繪製餅圖
plt.figure(figsize=(15,15)) 
plt.pie(x=values, labels=tags)
plt.show()

for t,v in zip(tags, values):
    print(t+" "+str(v*100.0/np.sum(values))+"%")/<code>

寫作時間統計

我將中文文章寫作時間按月統計，注意這個曲線是當月發佈的數量，而不是累加值.

這裡在之前的爬蟲實踐中有個風險.由於爬蟲使用了 AO3 的搜索引擎,無法確保AO3是否使用了搜索優化算法來影響結果,造成偏差.如果有,那麼最容易受影響的就是時間統計. 解決這個問題的方法也比較簡單.使用 numpy 的 shuffle 打亂頁碼基本就可以避免這個問題.

首先獲取當前時間的年月,並且去掉,因為本月沒有過完,不能反應全月的數字.因為文章統計使用字典保存的,去除當前月的操作相當簡單.文章的寫作時間是離散的,並且月份是12進制,所以進行統計時,將年份作為整數,月份除以12作為小數部分作為統計即可.最後要注意按照時間順序使用 np.argsort (輸出的是下標順序) 進行排序,否則折線圖是亂的.

<code>#時間標籤處理
#刪掉當前月份發佈的文章以免影響趨勢判斷
mounth_now = time.strftime('%Y-%m',time.localtime(time.time()))
if rating_article_dict.__contains__(mounth_now):
    print("Contain: "+mounth_now)
    rating_article_dict.pop(mounth_now)
else:
    print(mounth_now+" Not Contained ")
times = []
conts = [] 

for k,v in date_cnt_dict.items():
    k_elem = k.split("-")
    times.append(float(k_elem[0])+float(k_elem[1])/12)
    conts.append(v)
    
sorted_times = []
sorted_conts = []
sortindex = np.argsort(times)
for i in range(len(times)):
    sorted_times.append(times[sortindex[i]])
    sorted_conts.append(conts[sortindex[i]])
    
plt.figure(figsize=(15,15))   
plt.plot(sorted_times, sorted_conts)
plt.show()/<code>

無敏感詞文章統計

這張圖繪製的元素是比較多的.可以重點注意一下每個條形圖上的數字標籤是如何生成的. 另外就是圖例函數 plt.legend 中 loc=2 表示左上角. best (0) 會在右上角遮住 Mature 的條形圖.

這裡的小 Tip 是關於字符串的格式化輸出,一般有3種: .format 百分號% 和 str()函數直接加.我一般用第一種和最後一種,看大家的喜好了.

<code>#分級標籤
tags = [k for k in rating_article_dict.keys()]
#數值：文章數 2 無敏感詞文章數 4
values0 = [v[4] for v in rating_article_dict.values()]
values1 = [v[2] for v in rating_article_dict.values()]

#畫條形圖
x = np.arange(len(tags))
bar_width = 0.3

plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
a = plt.bar(x, values0, 0.4, color='dodgerblue', label='無敏感詞文章數', align='center')
b = plt.bar(x + bar_width, values1, 0.4, color='orangered', label='總文章數', align='center')
# 設置標籤
for i,j in zip(a,b):
    ih = i.get_height()
    jh = j.get_height()
    plt.text(i.get_x()+i.get_width()/3, ih, '{}|{:.3}%'.format(int(ih),float(ih)*100/float(jh)), ha='center', va='bottom')
    plt.text(j.get_x()+j.get_width()/2, jh, '{}'.format(int(jh)), ha='center', va='bottom')

plt.xticks(x,tags)
plt.legend(loc=2)
plt.show()/<code>

敏感詞數量的分佈

敏感詞分佈繪圖沒什麼好說的,這裡被大家指出敏感詞庫有一些問題,後來經過我手工挑選做了一個新的敏感詞庫.並且包含了英文敏感詞.已經上傳到Github上,大家可以去下載.不怕瞎的可以閱讀一下.

暴力次品統計也是被大家詬病比較多的一個點.雖然我在文章中也提示了,但是按時引起了爭議.因此後續我改用了深度神經網絡訓練了一個NLP文本分類器專門鑑別

敏感句.並且把句子都摘出來做成了視頻.知乎不能上傳,有興趣的小夥伴可以到 B站或者頭條去看.

<code>#分級標籤
tags = [k for k in rating_article_dict.keys()]
tags.append("All")
#數值：敏感詞數 除以 總詞數
values = [v[1]/s[1] for v,s in zip(rating_sens_word_dict.values(), rating_article_dict.values())]
values.append(len(sens_word_str.split())/all_article_str_cnt)
#畫條形圖
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
plt.bar(tags, values)
for a,b in zip(tags, values):
    plt.text(a, b+0.0001, '{:.3}%'.format(b*100), ha='center', va='bottom')/<code>

創建並顯示詞雲

詞雲顯示這裡比較出彩的就是敏感字替換了,先前我自己寫代碼時,詞雲已經被我替換的面目全非了.但是豆醬提出這樣不能夠對大家造成衝擊,於是直接使用拼音首字母替換了.其中一個有趣的工作就是用 utf8 編碼對很H的字進行替換.大家可以自己看看被 utf8 遮住的是什麼字.

<code>def harm_text(text, ignore=False):
    if ignore:
        return text
    hrmonious = {}
    #不需要請註釋下方
    hrmonious['\\\\\\u5988'.encode('utf-8').decode('unicode_escape')] = 'M' 
    hrmonious['\\\\\\u5c04'.encode('utf-8').decode('unicode_escape')] = 'S'
    hrmonious['\\\\\\u5a4a'.encode('utf-8').decode('unicode_escape')] = 'B'
    hrmonious['\\\\\\u75f4'.encode('utf-8').decode('unicode_escape')] = 'C'
    hrmonious['\\\\\\u4e73'.encode('utf-8').decode('unicode_escape')] = 'R'
    hrmonious['\\\\\\u5978'.encode('utf-8').decode('unicode_escape')] = 'J'
    hrmonious['\\\\\\u6027'.encode('utf-8').decode('unicode_escape')] = 'X'
    hrmonious['\\\\\\u88f8'.encode('utf-8').decode('unicode_escape')] = 'L'
    hrmonious['陰'] = 'Y'
    hrmonious['\\\\\\u7a74'.encode('utf-8').decode('unicode_escape')] = 'X'
    hrmonious['\\\\\\u8361'.encode('utf-8').decode('unicode_escape')] = 'D'
    hrmonious['雞'] = 'J'
    hrmonious['\\\\\\u830e'.encode('utf-8').decode('unicode_escape')] = 'J'
    hrmonious['\\\\\\u6deb'.encode('utf-8').decode('unicode_escape')] = 'Y'
    hrmonious['\\\\\\u6170'.encode('utf-8').decode('unicode_escape')] = 'W'
    hrmonious['高'] = 'H'
    hrmonious['愛'] = 'A'
    hrmonious['頭'] = 'T'
    hrmonious['內'] = 'N'
    hrmonious['插'] = 'C'
    hrmonious['情'] = 'Q'
    hrmonious['春'] = 'C'
    hrmonious['\\\\\\u9f9f'.encode('utf-8').decode('unicode_escape')] = 'G'
    hrmonious['脫'] = 'T'
    hrmonious['教'] = 'J'
    hrmonious['做'] = 'D' 

    hrmonious['陽'] = 'Y'
    hrmonious['潮'] = 'C'
    hrmonious['呻'] = 'S'
    hrmonious['摩'] = 'M'
    hrmonious['交'] = 'J'
    hrmonious['下'] = 'X'
    hrmonious['抽'] = 'C'
    hrmonious['感'] = 'G'
    hrmonious['色'] = 'C'
    hrmonious['液'] = 'Y'
    hrmonious['調'] = 'T'
    hrmonious['水'] = 'S'
    hrmonious['按'] = 'A'
    hrmonious['道'] = 'D'
    hrmonious['叫'] = 'J'
    hrmonious['激'] = 'J'
    hrmonious['\\\\\\u68d2'.encode('utf-8').decode('unicode_escape')] = 'B'
    hrmonious['體'] = 'T'
    hrmonious['嫩'] = 'N'
    hrmonious['肉'] = 'R'
    hrmonious['絲'] = 'S'
    hrmonious['吟'] = 'Y'
    hrmonious['庭'] = 'T'
    hrmonious['奶'] = 'N'
    hrmonious['屁'] = 'P'
    #不需要請註釋上方

    for k,v in hrmonious.items():
        text = text.replace(k,v)
    return text

def code_utf8(dic):
    for key in dic.keys():
        uc = key.encode('unicode_escape').decode('utf-8')
        print(key + " || " + uc + " || " + uc.encode('utf-8').decode('unicode_escape'))

#code_utf8(hrmonious)/<code>

<code>print("#創建文章所有詞雲")
all_wc = create_word_cloud(harm_text(all_article_str), 500) #"wordcloud.jpg"
plt.figure(figsize=(15,15)) 
plt.imshow(all_wc)
plt.axis("off") 

plt.title("文章所有詞語的詞雲")
plt.show()
print("#創建文章所有敏感詞的詞雲")
sens_wc = create_word_cloud(harm_text(sens_word_str),100) #"sens_wordcloud.jpg"
plt.figure(figsize=(15,15)) 
plt.imshow(sens_wc)
plt.axis("off")
plt.title("文章敏感的詞雲")
plt.show()
print("#創建分級文章所有詞雲")
for k, word in rating_article_dict.items():
    r_all_wc = create_word_cloud(harm_text(word[0]), 500) #k+"_wordcloud.jpg"
    plt.figure(figsize=(15,15)) 
    plt.imshow(r_all_wc)
    plt.axis("off")
    plt.title(k+" 的詞雲")
    plt.show()
print("#創建分級文章敏感詞的詞雲")
for k, sens in rating_sens_word_dict.items():
    r_sens_wc = create_word_cloud(harm_text(sens[0]), 100) #k+"_sens_wordcloud.jpg"
    plt.figure(figsize=(15,15)) 
    plt.imshow(r_sens_wc)
    plt.axis("off")
    plt.title(k+" 的敏感詞的詞雲")
    plt.show()/<code>

這裡只放一張圖

點擊率對比

剩下的基本都是重複工作了,我就不再贅述,這裡就貼兩個代碼和圖了事.

<code>#分級標籤
tags = [k for k in rating_article_dict.keys()]
#數值：文章數 2 總點擊量 3
values = [v[3]/v[2] for v in rating_article_dict.values()]

#畫條形圖
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
plt.bar(tags, values)
# for a,b in zip(tags, values):
#     plt.text(a, b+0.0001, '{:.3}%'.format(b*100), ha='center', va='bottom')/<code>

主角統計

平臺喜歡的主角名稱，只取了排名Top30。

<code>#拆分數據
keys = list(stop_words['role_name'])
values = list(stop_cnt['role_name'])

#數據過多取排名靠前的數據
sub_keys = []
sub_values = []
sortindex = np.argsort(values)[::-1][:30]
for i in sortindex:
    sub_keys.append(keys[i])
    sub_values.append(values[i])
    
#畫條形圖
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=13,rotation=-70)
plt.yticks(fontsize=20)
plt.bar(sub_keys, sub_values)/<code>

橫向對比

最後的橫向對比實際就是拿了 《羊脂球》、《百年孤獨》、《紅樓夢》、《金瓶梅》 四篇文章進行一個對照.這裡代碼就是把前面的東西再跑一遍.只是點擊率，日期是無法統計的，分級標籤替換為書名,書的內容不需要html處理。其餘數據分析與上面一致。我就不再說明了.

我主要闡述一下這裡的問題:

4篇文章對比1萬2千多篇文章是沒有太大對比性的.很多小夥伴都提出了這個問題.這個也是文中最大的邏輯Bug.解決方案很簡單.取國內合規網文或同人文的語料,規模大致與這個1萬2千篇規模相當.按照上面的步驟跑一遍即可.我在文章中也有提到過四篇對比就是一個拋磚引玉的工作.

這個事情在當時,不論做不做都對文章結論影響不大所以就沒做大規模對比了.結果沒想到居然還被揪出來diss.再加上後來豆醬又15天不能說話.索性就把.NLP 句子識別做出來了.而且是弄了600篇直接把檢測句子貼出來.因為我們發現真的很少人去仔細看文.就是欺負大家看不到AO3的內容.

視頻在 B站和頭條西瓜上都有.那個數據的代碼和技術分析我也會陸續發出來.(上班周更黨大家理解下)(PS:我上週就把深度學習的代碼push上去了,結果今天寫文檢查代碼庫的時候發現上傳錯了,把珍藏的殺手鐧搞上去了,不過估計也用不上了,我也不會撤掉,是啥大家自己去看吧.視頻相關的代碼我會在明天再整理一下上傳)

寫在最後

實際上我並不是從事數據分析專業工作的,做這些完全是正好想學習+玩,又正好碰上豆醬關注這個事情.不論227對大家有什麼影響,反正對我是受益良多的.

我也希望我能引起小夥伴們的興趣,一起加入學習探索.實際上編程開發的樂趣是一個創造和探索的樂趣.這與這個紛紛擾擾的社交世界是完全不同的體驗.也希望我做的工作除了引發更多口水外也能真正幫助到大家.

分享到:

閱讀更多 大德奧 的文章

關鍵字: 圖像處理 Bilibili 一萬

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"