1. 創(chuàng)業(yè)頭條
  2. 創(chuàng)業(yè)故事
  3. 正文

專訪李進斌:火車頭采集器 站長的伴侶

 2009-03-05 10:14  來源:門戶通  我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領(lǐng)券再下單

本次采訪站長是火車頭采集器網(wǎng)站 ()站長李進斌。 采訪人:一滴水  被采訪人:李進斌 相信大家對火車頭采集器非常的熟悉,它的發(fā)開者就是李進斌,一個80后年輕小伙子,網(wǎng)名火車頭。

      一滴水:你之前是程序員出身嗎?
     
      李進斌:不是。我是學水利的,大學畢業(yè)后還從事了一年的水利設(shè)計工作,辭職后才轉(zhuǎn)行IT發(fā)展的。
     
      一滴水:原來是這樣的。那當時是如何想到轉(zhuǎn)行做 IT的呢?
     
      李進斌:兩方面吧,對電腦及網(wǎng)絡(luò)濃厚的興 趣,以及對枯燥的工程設(shè)計的反感,最終還是放棄了原來的主專業(yè),不過還好。我在大學學了雙專業(yè),辭職前收到了phpcms老大加入團隊的邀請。
     
      一滴水:去phpcms那邊工作了嗎?
     
      李進斌:恩,我在phpcms做了大半年。 參 與開發(fā)了phpcms2007里面的很多功能。當然。這期間對我的提高很大。
     
      一滴水:那火車頭采集器是什么時候開始開發(fā)的,當初開發(fā)這樣的軟件的想法和初衷是什么,開發(fā)過程中有沒有遇到什么困難?
     
      李進斌:火車采集器最早開發(fā)是在05年的11 月份。當時工作之余,業(yè)余維護著自己的一個小網(wǎng)站,有了和多數(shù)站長朋友一樣在在網(wǎng)站添加內(nèi)容及需要頻繁數(shù)據(jù)更新的苦惱,在借鑒了當時dede的采集思想后開始開發(fā)的這一款采集器。
     
      火車采集器的發(fā)展過程中,初期也遇到過一些小的技術(shù)困難,這都在短時間內(nèi)克服了,而最大的問題是在我辭掉原本很穩(wěn)定的工作后, 采集器要繼續(xù)發(fā)展是否開發(fā)收費的版本的問題上猶豫了很長時間。在此要感謝我們的會員的支持,
      沒有他們我們不可能一直堅持而取得今天的成就。 
     
      一滴水:剛才提到辭掉穩(wěn)定的工作指的就是phpcms那邊嗎?
     
      李進斌:不是,原來是在安徽水利廳的設(shè)計院工作。離開phpcms主要還是我個人生活方面的一點原因,西安太遠,然后女朋友習慣在老家這邊。
     
      其實在phpcms的時候就已經(jīng)發(fā)布了免費的火車采集器,前期版本。2007年9月份才開始全職做這個軟件。
     
      一滴水:那phpcms的老大給你過建議嗎?
     
      李進斌:當然是有的。我們現(xiàn)在一直都在聯(lián)系,經(jīng)常一聊就幾個鐘頭,他和我一樣都是技術(shù)出身,很有共同語言。 
     
      一滴水:呵呵,你們是老朋友了。現(xiàn)在越來越多的站長在使用火車頭做網(wǎng)站,我們知道采集很多時候就意味著內(nèi)容的重復導致信息泛濫,你怎么看待這個問題,您對主要靠采集軟件來更新網(wǎng)站的站長們有什么忠告或建議?
     
      李進斌:首先網(wǎng)站需要持續(xù)的更新大家都知道,軟件可以做為人手工的輔助工具,幫助我們做一些非常機械性的操作,采集器就是這樣的一個軟件,可以幫助你實現(xiàn)一個前期數(shù)據(jù)填充,但作為維護網(wǎng)站內(nèi)容工具,不應該覺得越自動化的越好。
     
      靠采集軟件維護更新網(wǎng)站也沒有錯,我們現(xiàn)在還 有一批熟練“司機”也是靠軟件在搜集資料,關(guān)鍵你應該清楚你的網(wǎng)站需要些什么樣的內(nèi)容,你又采集更新了些什么,應該做到心里有數(shù)。 
     
      一滴水:最近發(fā)布的2009正式版有哪些重大的更新 ?
     
      李進斌:對前期采集和后期數(shù)據(jù)處理都進行了不少改進,相比2008版本有很大提高,簡單列幾條:
     
      支持gzip,deflate網(wǎng)頁壓縮,可大幅度提高網(wǎng)頁 下載速度.
      重寫下載模塊,可以斷點下載,大文件下載不再是 問題.
      支持上傳附件.可以發(fā)布帖子時候上傳附件到網(wǎng)站 ,更方便.
      重寫本地數(shù)據(jù)編輯功能,加載更快,處理更方 便.
      支持.net外部編程插件,可以做更為復雜的工作. 例如下載視頻.
      支持對多個標簽進行分詞.準確性更好.
      可以隨機發(fā)布和隨機文件保存目錄.
      支持網(wǎng)址部分post隨機值.那些aspx類型的網(wǎng)站網(wǎng) 址獲取不再難.
      支持列表頁標簽功能,可以在列表頁采集更多的信 息. 
     
      一滴水:功能是越來越強大了啊!
     
      李進斌:恩。哈,按會員的建議一步步提升的,強大功能需要大家自己學習慢慢體驗。
     
      一滴水:目前不少網(wǎng)站加了防采集的功能,新版的火車頭2009解決這個問題了嗎?
       
      李進斌:關(guān)于防采集這一塊。打開一個網(wǎng)頁實際就是瀏覽器發(fā)送一個Http請求。還有其他的搜索引擎蜘蛛,同樣我們的采集器使用的都是一個原理--模擬http請求,我們可以根據(jù)這個原理模擬出瀏覽器、蜘蛛出來。所以絕對的防采集根本不存在,只是難度的高低。如果你認為搜索引擎的搜錄也無所謂了。你可以用一些非常強大的activex,flash,全圖片文字的形式,這個我們無能為力。
     
      2009新版軟件加強了對來源判斷,登錄信息判斷 ,POST方式請求,多頁分頁識別以及循環(huán)內(nèi)容采集等功能,外加 php和.net外部程序接口等,我們并沒有發(fā)現(xiàn)多少做得非常好的防采集網(wǎng)站,只是一個難度高低的問題。  
     
      一滴水:哈哈!看來火車頭做的是越來越完美了。
       
      一滴水:火車采集器還分為免費版本、個人版、標 準版、企業(yè)版。那么這些版本是如何分類的, 他們分別適用于哪些人群呢?
     
      李進斌:主要也是按功能多少來進行劃分的,你需要根據(jù)自己的需求來選擇。高級版本在后期數(shù)據(jù)處理,大文件下載及上傳,自動化操作,分詞翻譯等方面功能有很大增強。
     
      一滴水:對于大多數(shù)站長來說,免費版本的就足夠用了吧!
       
      李進斌:是的。我們沒有限制采集的站點及任務(wù)的數(shù)量,也沒有對在線web發(fā)布做任何限制。對普通用戶來說,已經(jīng)足夠使用了。
     
      一滴水:恩?,F(xiàn)在可能有一些新的站長還不會使用火車頭,你對他們有何建議?
       
      李進斌:首先應該抱著一個學習的心態(tài),我們不是一個一鍵就可以采集發(fā)布的軟件。而是會有很多很多的設(shè)置,這些設(shè)置都需要你手工和操作配置一遍。
     
      當你對軟件的各個功能都有了大致的了解后,你 就會感覺如魚得水,完全按你的意愿操作,網(wǎng)站數(shù)據(jù)更新也同樣是件很快樂,很有挑戰(zhàn)性的事情。
     
      當然在你采集前,有幾個建議:
      1.別人經(jīng)常采的網(wǎng)站不要 去采
      2.太容易采的網(wǎng)站不要去采
      3.不要一次性采集太多,一定要注意后期處理
      4.做好關(guān)鍵詞,tag的采集分析
      5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無 關(guān)的內(nèi)容
      6.采集也要有持續(xù)性,經(jīng)常更新,自動采集功能 我們也有,但還是建議大家人工也參與一些審核,或定時,亂序發(fā)布

      后期處理方面

      1.給標題。內(nèi)容分詞
      2.使用同義詞近義詞替換,排除敏感詞,不同的 標簽之間數(shù)據(jù)融合,指如標題內(nèi)容之間數(shù)據(jù)的相互替換
      3.給文章加上摘要
      4.為文章標題等生成拼音地址
      5.采集一些其他編碼的網(wǎng)站,我們可以做到簡繁 體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng))

      我們也發(fā)現(xiàn),高難度采集的網(wǎng)站一般內(nèi)容質(zhì)量都非常好,采集其實有時也是一件很有樂趣的事情,需要你學習一些采集相關(guān)的知識。
     
      一滴水:非常感謝你分享如此寶貴的經(jīng)驗。謝謝!
     
      一滴水:火車頭現(xiàn)在的開發(fā)和推廣團隊有多少人? 跟大家介紹下你的團隊。
     
      李進斌:前天新搬了一個辦公地點,公司規(guī) 模又稍微擴大了一點?,F(xiàn)在開發(fā)主要是4個人,客服和推廣6個。還有幾個長期活躍在論 壇服務(wù)的版主。
       
      一滴水:規(guī)模慢慢在發(fā)展壯大??!呵呵!
     
      一滴水:在這里也跟大家談?wù)勀銈儓F隊的優(yōu)勢以及你們的服務(wù)好嗎?
     
      李進斌:恩,好的。這里面有我的同學也有從網(wǎng)絡(luò)認識發(fā)展到現(xiàn)實的朋友,都很年輕,為了同樣的興趣在一起拼搏。我們雖然沒有 很深的工作背景,但學歷都還可以幾個是211出來的,干勁足,非常有激情。
     
      除了運營采集器外,也兼在做幾款其他的自動采集搜索軟件,可以為廣大站長提供這些方面的技術(shù)服務(wù)。 
     
      李進斌:自動采集搜索軟件主要是指:數(shù)據(jù) 采集、轉(zhuǎn)移、處理及索引優(yōu)化。可以為廣大站長提供這些方面的技術(shù)服務(wù)。 
     
      一滴水:恩,慢慢拓展出更多更好的技術(shù),站長會越來越喜歡你們。
     
      李進斌:感謝小蘇。
     
      一滴水:太客氣了!你們的盈利模式是什么?
     
      李進斌:商業(yè)軟件的收入。部分技術(shù)服務(wù)支持,以及其他一些定制軟件的開發(fā)。不是太高但足以支撐整個團隊,公司成立還不足一 年,公司的發(fā)展和新的盈利模式還在探索中。 
     
      一滴水:恩,希望你們探索出更有價值的東西,來更好的服務(wù)站長朋友們。最后談一下你們未來的發(fā)展方向。
     
      李進斌:穩(wěn)住采集方面的地位,繼續(xù)提高競爭力,努力轉(zhuǎn)型實現(xiàn)為更多的企業(yè)提供數(shù)據(jù)服務(wù)。 
     
      一滴水:小蘇在這里代表門戶通的所有站長朋友們祝福你們的明天越來越美好!謝謝!
     
      李進斌:恩。感謝門戶通給提供的這次機會 ,謝謝大家。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

  • 中小軟件公司批量倒閉,中年程序員出來能干啥?

    不僅僅是網(wǎng)站行業(yè),軟件業(yè)也如此,夕陽了……飽和了……現(xiàn)在中國的軟件行業(yè)虧得很慘,尤其是中小軟件企業(yè),而且“IT行業(yè)的大基建”基本結(jié)束了,不需要那么多公司和人了,也接到那么多單子了。慢慢的這些小公司老板都跑去拍短視頻、搞帶貨去了,只剩下還在風中凌亂的中年程序員和頭部的軟件公司了,就和現(xiàn)在的互聯(lián)網(wǎng)幾大超

    標簽:
    程序員
  • 偉大的公司總能贏得人心,劉強東讓人相信商業(yè)是有溫度的

    偉大的公司總能贏得人心,劉強東以一己之力改變外賣整個行業(yè),劉強東讓人相信商業(yè)并不是冰冷的,而是有溫度的鏈接。劉強東昨天白天跑單送外賣、晚上請外賣小哥吃飯。視頻畫面中外賣騎手圍坐在一起吃火鍋,吃飯期間劉強東發(fā)表講話,談及送外賣的感受、為騎手繳納五險一金等內(nèi)容。通過騎手發(fā)布的視頻來看,我感覺他是真正經(jīng)歷

  • 小號粉絲破10萬、一篇文章賺9000、短視頻破5000萬

    匯報一下松松2月份做自媒體成績和心得,2月份,學會用AI工具了、也學會拍Vlog了、粉絲也突破了10萬、單篇文章收入9000元、短視頻播放量突破5000萬!(1)學會拍Vlog了確切說是入門了,咱一部手機就能拍,啥設(shè)備也不用,連麥克風都不帶了,拍的就是真實。好處是省事、拿起就拍,壞處是聲音錄入的不好

    標簽:
    自媒體賺錢
  • 暫不要創(chuàng)業(yè),誰創(chuàng)業(yè)誰死

    關(guān)注盧松松,會經(jīng)常給你分享一些我的經(jīng)驗和觀點。盧松松視頻號會員專區(qū)有個會員提問,我感覺挺有代表性的,寫成公眾號文章,分享給大家:松哥,我花了太多時間在思考上,而一直沒有行動,名副其實的想的多做的少,同時感覺對這個世界缺乏了好奇心,不知道怎么去調(diào)整自己目前的這個狀態(tài),能量場太低。目前正值畢業(yè)季,我學的

  • 2024,你是誰?

    某種程度上“不惑”靠的不是年齡和閱歷,而是時代背景下的自我認識和自我定位。

  • 中小微企業(yè)老板,如何講述一個引爆人心的創(chuàng)業(yè)故事?

    有粉絲留言說,我是一個中小微企業(yè)的創(chuàng)業(yè)者。我一直關(guān)注您的公眾號文章,也非常清楚私域用戶的重要性,特別是通過講述自己的創(chuàng)業(yè)故事來吸引他們。但我并不清楚如何開始講述我的創(chuàng)業(yè)故事,希望能得到秦剛老師的一些指導和建議。非常感謝!現(xiàn)在互聯(lián)網(wǎng)平臺上,關(guān)于普通人逆襲的十年體故事點贊和評論一般都是最高的,越來越多的

編輯推薦