當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

[AiPie] AI對接CMS發(fā)文的采集標(biāo)題(清洗數(shù)據(jù))方法

 2024-08-21 15:33  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

01.前提概要

之前一直都是在做SEO的有關(guān)工作,所以呢也積累了一些經(jīng)驗(yàn),這次開發(fā)AiPie(一款利用AI生成文章內(nèi)容并發(fā)布到CMS的工具 官網(wǎng)直接百度 AIPIE )也非常榮幸的為百來個(gè)客戶提供技術(shù)和服務(wù),看著大家天天在群里說的一些收錄慢,沒有方向等問題,這里就和大家分享一下,我自己的 SEO優(yōu)化心得,我們從淺到深,盡可能的用大白話的形式,將這個(gè)清洗數(shù)據(jù)的方法告訴大家,希望對大家的后續(xù)發(fā)文工作提供一些方向,我的個(gè)人理念更多的是喜歡和大家一起進(jìn)步和成長,我也是一名站長,能夠感同身受一些問題,在您購買AiPie的同時(shí),我更希望能夠把一些技巧給到大家,讓大家更明白工具的意義和正確使用的方向。大家都知道,采集在AI出來之前一直是網(wǎng)站發(fā)文保持活性的首選方案,但是也滋生了很多問題,常見的有以下的問題:

百度把你K了,原因是文章過于相似,你可能是采集站

作者把你告了,原因是人家文章有版權(quán)

使勁造文章,反而權(quán)重收錄不動(dòng)聲色,原因是爬蟲直接忽略了,干的活兒跟你毛關(guān)系沒有

當(dāng)然還有很多類似的案例,就不舉例說明了,做SEO的人都知道,排名好的基礎(chǔ)就是詞非常重要,那么詞又是什么呢?在TDK中,可以是K(keywords),也就是關(guān)鍵詞,但是這個(gè)索引只能定義你的站點(diǎn)屬性,并不能讓你脫穎而出,人家在搜索中找到你,要想做“出頭鳥”,其實(shí)你更應(yīng)該在意你的文章標(biāo)題,大部分站的詞量,收錄和權(quán)重都是和文章標(biāo)題息息相關(guān)的,這里有興趣可以去延伸下百度的算法,這里就不展開說了,百度和其他搜索引擎說的天花亂墜,其實(shí)多半是從你的頁面的title入手的,也就是文章的關(guān)鍵詞,相信大家現(xiàn)在見到的CMS大部分都會在發(fā)文章的地方單獨(dú)出了一個(gè)關(guān)鍵詞和描述的板塊,可以針對單文章做優(yōu)化SEO的工作,可見它的重要性,因此把我標(biāo)題質(zhì)量是非常關(guān)鍵的!

02.獲得標(biāo)題

如果大家閱讀過AiPie的其他說明文檔,相信你也知道有哪些渠道可以來制作標(biāo)題,這里就介紹幾種比較常見的,也會給大家說推薦的,常用的獲取方案:

通過AI生成,特點(diǎn)是非常綜合全面,缺點(diǎn)是涵蓋不全,標(biāo)題太過于客觀

通過采集人家的標(biāo)題,特點(diǎn)是速度快,得來全不費(fèi)功夫,缺點(diǎn)是可能暗藏比較有標(biāo)志性的標(biāo)題和時(shí)效性標(biāo)題

通過5118等工具抓長尾詞或者百度下拉詞制作標(biāo)題,優(yōu)點(diǎn)是關(guān)鍵詞命中率高,缺點(diǎn)是一般人組合效果不理想和生成效果可能牛頭不對馬嘴,反而可能達(dá)不到理想目標(biāo)

通過混合標(biāo)題,比如雙標(biāo)題等增加關(guān)鍵詞的接觸面,優(yōu)點(diǎn)是關(guān)鍵詞命中率高,缺點(diǎn)是百度已經(jīng)明顯打擊該類作弊手法了

等等其他方法

這里面我們最推崇的是通過AI生成標(biāo)題作為輔助,主要還是采集別人的標(biāo)題為主,前提是做好數(shù)據(jù)清洗,因?yàn)樵谏鲜龅姆绞街校挥胁杉瘶?biāo)題看來能夠比較中和

03.如何高效采集標(biāo)題

這里其實(shí)采集方法非常多,什么火車頭,藍(lán)天采集器或者付費(fèi)插件之類的,非常多,但是都是標(biāo)題文章全部一把抓的情況,我們這里使用AiPie輔助AI生成文案的話,就只需要標(biāo)題即可,因此我這里推薦八爪魚采集器,你能夠非常靈活的配置,可視化抓取標(biāo)題,同時(shí)上手難度低,非常友好,免費(fèi)版也夠用。

說到高效,講究效率的事情的話,我們還是不得不說一些大型的站點(diǎn),比如我的網(wǎng)站 是科技類屬性的,大部分應(yīng)該包含的是科技屬性的文章,標(biāo)題也就隨即為開發(fā)語言,編程類和科技新聞?lì)悞煦^,要說這一類其實(shí)也是非常好做的,大型網(wǎng)站非常之多,比如什么CSDN啊,或者博客園,PHP中文網(wǎng),腳本之家啊都可以,甚至很多小博客也是分享技術(shù)類的文章居多,那么這就是我們的采集方向了,資源確定好了,就可以動(dòng)手了。

04.清洗規(guī)則,做個(gè)優(yōu)雅的“小偷”

說是互聯(lián)網(wǎng)小偷,確實(shí)自嘲,不夠也不為過,能夠?yàn)槲宜?,其?shí)就是合理利用資源,也是一種能力的體現(xiàn),所以做事情優(yōu)雅起來,態(tài)度就要端正,心急吃不了熱豆腐,做站做SEO同樣是這個(gè)道理,你想要擠進(jìn)前面的賽道,你要是沒有啥過人的技巧就好好聽我講后面的,如何禪定的做標(biāo)題清洗,一定程度上對你的SEO提升非常之重要。

其實(shí)我在群里也日常會分享一些心得,因?yàn)榕聛G失,所以才又煞費(fèi)苦心為大家整理成冊,寫到這里,也是激勵(lì)大家,做個(gè)優(yōu)雅的互聯(lián)網(wǎng)“小偷”,偷的是標(biāo)題,洗的也就是標(biāo)題。

做好清洗首先要給大家講明白幾個(gè)概念問題:

首先AiPie目前支持的OpenAI的GPT3/3.5訓(xùn)練數(shù)據(jù)都比較老舊,雖說目前也是AI界頂尖,但是他對2023年的事情可謂一概不知,所以具有時(shí)效性的標(biāo)題不要,比如說什么"2023年6月7日北京天氣預(yù)報(bào)",這種生成的比說多離譜,至少AI是在胡編亂造,更不要去寫什么時(shí)政,敏感新聞,突發(fā)事件作為標(biāo)題去吸引流量,還是勸各位不要把自己害了,這種擦邊,現(xiàn)在讓你過,你也活不久。

其次對于具有特殊性的標(biāo)題,比如“2022年fiime站點(diǎn)運(yùn)行日志記錄”或者是“我的java學(xué)習(xí)筆記(一)”之類的,這種標(biāo)題只針對特定站點(diǎn)有效或者是標(biāo)題含糊不利于生成文章的,建議丟棄,由于AiPie目前還受到token的長度限制,因此一定要注意這種標(biāo)題,過于宏觀,也說不全面的標(biāo)題,文章不會好到哪里去。如果你不在意文章質(zhì)量當(dāng)我沒說。

最后說一種標(biāo)題過長的,比如說:“python抓取網(wǎng)站提示錯(cuò)誤ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate in certificate chain (_ssl.c:1056)”這個(gè)問題確實(shí)看起來非常具體,但是實(shí)際AI生成的文章中,他不一定知道這個(gè)問題,或者生成內(nèi)容根本不相關(guān),這就需要搜索引擎的概念了,雖然說關(guān)鍵詞越多,搜索到的內(nèi)容越具體,但是對于我們來說不是這樣的,標(biāo)題越長,第一個(gè)顯示不美觀,第二個(gè)范圍過于具體,被匹配的概率降低,這種情況建議對標(biāo)題做精簡或者做換行,轉(zhuǎn)換成兩個(gè)標(biāo)題來使用

關(guān)鍵字詞的清洗規(guī)范,這里給大家整理了一些常見的字詞陷阱,不要拔下來就一股腦發(fā) ,有的玩意兒不適合做標(biāo)題 或者根本效果不太好,一般常見的清洗范圍如下:

原創(chuàng) 轉(zhuǎn)載 轉(zhuǎn)發(fā) 轉(zhuǎn) 筆記 翻譯 周報(bào) 年報(bào) 日志 月報(bào) 新聞詞 站點(diǎn)詞 時(shí)效詞 政治詞 頭條詞(非必要不采集) 特殊字符 括號詞 章節(jié)詞 還有一些常見口水話 擦邊詞等

舉個(gè)例子,可以看下,反正根據(jù)實(shí)際情況一定要做好清洗

05.為什么要清洗這些詞

我特意把為什么寫到最后面,也是給大家留一個(gè)思考空間,上述整理了一些典型,包括什么“轉(zhuǎn)載”“譯文”等字眼對于蜘蛛來說你這就此地?zé)o銀三百兩,告訴他我不是原創(chuàng)的,我是轉(zhuǎn)載的,你看著辦吧!不要不重視這些細(xì)節(jié),細(xì)節(jié)決定人家就排在你前面。

第二個(gè)文章標(biāo)題的質(zhì)量決定AI文章的質(zhì)量,標(biāo)題的具體和完整,決定返回文章的精致與嚴(yán)謹(jǐn),AI的一切智能并不是AI才是主人,而是我們要學(xué)會利用AI來做SEO,主導(dǎo)地位從來也沒有變過,所以大家一定不要過于依賴,還是需要有個(gè)人思考能力。踢掉那些非關(guān)鍵,過于口水的,毫無意義的,可能虛假的,擦邊不安全的,具有不確性的東西噶了,留下的才是精華,這才是提升網(wǎng)站收錄的關(guān)鍵。

06.AI文章最近會被K么

大家最近在使用AiPie也在問我這個(gè)問題,“百度現(xiàn)在都在處理算法了,低于2000字的文章不收錄?”“是不是AI文章現(xiàn)在要降權(quán)啊”,針對這個(gè)問題可能和某些資本有關(guān),這里不具體指誰,畢竟我不賣網(wǎng)站,所以我只能告訴大家一個(gè)現(xiàn)實(shí), 之所以有人會散布消息說K你 是因?yàn)槟承┤说恼締蝺r(jià)被你們拉低了 之前賣4k 現(xiàn)在2k都可能賣不出去了 哈哈哈,當(dāng)然你說百度沒有針對AI文章的算法么?真的不管么?那也肯定不是,只能說,文章質(zhì)量上去了,排版美觀了,文案科學(xué)具體,不具有更多AI特征,那不就是原創(chuàng)么?百度奈你何? 總的來說 百度不會平白無故給你漲權(quán)重 你都不發(fā)文章了 人家在偷偷發(fā) 吃虧的只會是你

07.AiPie支持程度

目前AiPie支持了市面上大部分CMS,可以實(shí)現(xiàn)全自動(dòng)24小時(shí)發(fā)布 支持大模型

[1]Openai [2]谷歌bard [3]ollama本地大模型

[4]kimi [5]360智腦 [6]訊飛星火大模型

[7]百度ERNIE [8]百川AI [9]商湯大模型

[10]昆侖天工AI [11]零一萬物 [12]MiniMaxAI

[13]智譜AI [14]紫東太初maasAI [15]阿里云通義千問

[16]DeepseekAI [17]火山引擎豆包 [18]TigerBotAI

[19]騰訊混元大模型 [20]孟子大模型 [21]元象通用大模型

[22]Jan本地AI大模型 [23]LlamaFamily

支持CMS

[1]WellCMS [2]MySQL數(shù)據(jù)庫 [3]Local本地化 [4]DedeCMS

[5]DiscuzX|DiscuzQ [6]WordPress [7]極致CMS [8]ModStar

[9]Emlog [10]Typecho [11]PHPCMS [12]PbootCMS

[13]Zblog [14]EyouCMS [15]迅睿CMS [16]帝國CMS

[17]Halo [18]Ghost [19]接定制

支持插件

[1]dtitle雙標(biāo)題生成器 [2]Longs長尾詞擴(kuò)寫 [3]多平臺發(fā)布(tasks)

[4]ai2word AI偽原創(chuàng) [5]translate AI翻譯 [6]《Nature》風(fēng)格潤色

[7]小紅書語料 [8]titletool標(biāo)題生成 [9]txt_cms轉(zhuǎn)發(fā)插件

[10]百度文本安全AI審核

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦