国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

首頁(yè) > 化工知識(shí) > 數(shù)據(jù)處理:EditPlus正則表達(dá)式處理文本數(shù)據(jù)

數(shù)據(jù)處理:EditPlus正則表達(dá)式處理文本數(shù)據(jù)

時(shí)間:2020-08-31 來(lái)源:編輯之譚 瀏覽:

科學(xué)研究離不開(kāi)數(shù)據(jù)處理,今天“編輯之譚”信息給大家演示:如何利用EditPlus正則表達(dá)式以及Excel分列功能,對(duì)從淘寶網(wǎng)上抓取的論文“代寫”交易數(shù)據(jù)txt文件進(jìn)行整理,揭示論文代筆代寫學(xué)術(shù)不端亂象。去看看!

這幾天白天陪家人歡度春節(jié),晚上回來(lái)修改在《中國(guó)科技期刊研究》(CSSCI)上投稿的稿件“社交群消息與電商論文代寫交易數(shù)據(jù)的挖掘及學(xué)術(shù)不端誘因的分析”(修改后再審)。其中一位專家提出了文中利用“大數(shù)據(jù)”挖掘,但是只抓取了一個(gè)QQ群的歷史消息,不能稱之為“大數(shù)據(jù)”,也就是數(shù)據(jù)量不大,分析不具有代表性,建議補(bǔ)充大數(shù)據(jù)。于是,我準(zhǔn)備從淘寶網(wǎng)搜索了“代寫”關(guān)鍵詞檢索并挖掘論文代筆代寫類服務(wù)產(chǎn)品的交易情況(咸魚APP上也有類似的交易信息)。

最初打算嘗試Python編寫Spider爬蟲程序,抓取淘寶網(wǎng)上發(fā)布的論文代寫服務(wù)產(chǎn)品的價(jià)格、交易量以及用戶評(píng)價(jià)。但由于淘寶網(wǎng)的反爬蟲策略比較嚴(yán)密,一時(shí)半會(huì)難以突破其反爬蟲壁壘,于是放棄編寫爬蟲,采用手動(dòng)抓取網(wǎng)頁(yè)信息(100頁(yè)搜索結(jié)果,手動(dòng)抓取了1小時(shí)),得到如圖1所示的TXT數(shù)據(jù)文件。

圖1 從淘寶網(wǎng)上抓取的“代寫”產(chǎn)品信息

全選圖1中TXT文件的文本內(nèi)容,復(fù)制,在Excel軟件中粘貼,發(fā)現(xiàn)數(shù)據(jù)錯(cuò)亂(圖2),需要對(duì)TXT文件的內(nèi)容進(jìn)行整理。

圖2 從TXT數(shù)據(jù)文件拷貝到Excel中發(fā)生的數(shù)據(jù)錯(cuò)亂

于是,采用EditPlus對(duì)TXT數(shù)據(jù)文件進(jìn)行整理。首先查找“ ”(空格)替換為“,”,如圖3所示。

圖3 替換空格為逗號(hào)

然后,清除重復(fù)文本,如圖4所示,藍(lán)色部分是重復(fù)信息。方法是采用EditPlus軟件的“替換”對(duì)話框中的正則表達(dá)式(勾選),查找“n,.*n”替換為“,”。這里“n”是換行符;“,”是重復(fù)文字的行首都有一個(gè)逗號(hào);".*”表示通配所有內(nèi)容;后面再跟“n”換行符”。利用“n,.*n”可以將重復(fù)部分以及其上、下一換行符一起替換為“,”,如圖4所示,紅色框中的內(nèi)容是替換一次的效果。

圖4 正則表達(dá)式查找替換重復(fù)文字

再次,采用同樣的方法,查找“n”換行符替換為“,”,如圖5所示。

圖5 查找替換換行符為逗號(hào)

于是,文本內(nèi)容為一行數(shù)據(jù)(無(wú)換行符),這里挖掘的數(shù)據(jù)文本中,有一個(gè)共同特征“人付款,”,它將每一條代寫產(chǎn)品信息區(qū)分開(kāi)來(lái)。因此,將“人付款,”改為“人付款|”,如圖6所示。

圖6 替換特征符號(hào)

有什么用?“|”可以利用Excel的“分列”功能將“|”分列出來(lái)。如圖7所示。

圖7 Excel分列操作

分列后的數(shù)據(jù)占一行的不同表格單元,這并不是我想要的數(shù)據(jù)結(jié)構(gòu)。全選第一行數(shù)據(jù),然后點(diǎn)擊菜單“開(kāi)始→粘貼→置轉(zhuǎn)”,可將橫向數(shù)據(jù)轉(zhuǎn)變?yōu)榭v向數(shù)據(jù),如圖 8所示。

圖8 置轉(zhuǎn)數(shù)據(jù)操作步驟

置轉(zhuǎn)后,選中第一列數(shù)據(jù),然后點(diǎn)擊“數(shù)據(jù)→分列”菜單,勾選“分割符號(hào)”,這里選擇¥符號(hào),可將主題與價(jià)格及付款人數(shù)分列出來(lái)。如圖9所示。

圖9 數(shù)據(jù)的分列

最后,整理出所需要的數(shù)據(jù)表,共抓取了4408個(gè)“代寫”服務(wù)的產(chǎn)品信息。如圖10所示。

 

后記:求助“代寫”論文是一種學(xué)術(shù)不端行為。但目前電商平臺(tái)上仍然充斥著各種“代寫”“代筆”類服務(wù)產(chǎn)品,并且少數(shù)“代筆”產(chǎn)品的月銷量達(dá)到了6000筆以上。近年來(lái)國(guó)家加大了對(duì)抄襲、剽竊、買賣論文的學(xué)術(shù)不端亂象的懲治力度,將與身份證誠(chéng)信記錄關(guān)聯(lián)。因此,不能抱有僥幸心理,我們不能觸碰這條學(xué)術(shù)道德的底線。主動(dòng)聯(lián)系期刊編輯有利于論文創(chuàng)作與發(fā)表。

版權(quán):如無(wú)特殊注明,文章轉(zhuǎn)載自網(wǎng)絡(luò),侵權(quán)請(qǐng)聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學(xué)習(xí)使用,務(wù)必24小時(shí)內(nèi)刪除。
相關(guān)推薦