同盟國(guó)模擬爬蟲(chóng)抓取內(nèi)容定義規(guī)則:我們從大約抓取250萬(wàn)(含未顯示數(shù)據(jù))個(gè)網(wǎng)站,不展現(xiàn)非法內(nèi)容和敏感內(nèi)容,選取內(nèi)容比較健康的網(wǎng)站來(lái)展示,并且我們通過(guò)技術(shù)方法來(lái)過(guò)濾了一些重復(fù)的詞語(yǔ)和屏蔽了一些不適合展示的關(guān)鍵詞。展示的內(nèi)容不包含英文字母和數(shù)字。