最新国产在线不卡AV,国产又爽又黄的视频免费看,精品综合久久久久久97,日韩欧美高清中文字幕免费一区二区

            科普

            采集管理 (二)、增加采集節(jié)點 帝國網站管理系統(tǒng)

            電腦知識小雪供稿
            增加采集節(jié)點
            增加采集節(jié)點:也可以說是新增一個采集任務。
            說明:每個系統(tǒng)模型都有自己的采集,無論是內置的還是用戶自定義的系統(tǒng)模型,新聞系統(tǒng)有新聞系統(tǒng)采集,下載系統(tǒng)有下載系統(tǒng)采集等等。
             
            增加采集基本流程
            1、增加采集節(jié)點;
            2、預覽采集正則是否正確;
            3、預覽無誤后即可開始采集。

            增加采集節(jié)點
            1、登錄后臺,單擊“欄目”菜單,選擇“增加采集節(jié)點”子菜單,進入選擇入庫欄目界面:
            2、進入選擇入庫欄目界面:(也就是選擇采集的信息存放到哪個欄目)
            3、選擇入庫欄目后,進入“增加采集節(jié)點”頁面,如下圖:

             
            基本信息
            節(jié)點名稱 此節(jié)點的名稱
            父節(jié)點 可選擇上級節(jié)點,主要方便管理,比如你可以把所有新聞的采集都歸到一個父節(jié)點里。
            采集頁面地址 要采集的頁面列表,如果是多個列表用回車格開。
              采集頁面為直接內容頁:說明填寫的地址為直接內容頁面地址。
            采集頁面地址方式二 由系統(tǒng)自己生成列表,但必須是有數字規(guī)律的。
            如:“http://www.phome.net/index.php?page=[page]([page]則為頁碼的范圍)
            內容頁地址前綴 信息頁鏈接的地址前綴。如地址前面沒域名的話,系統(tǒng)會加上此前綴。
            如:http://www.phome.net+/news/2006/1.html
            圖片/FLASH地址前綴 新聞內容的圖片/FLASH地址為相對地址時使用。(針對newstext字段,遠程保存時有效)
            入庫欄目 采集的數據要入庫的欄目。如本節(jié)點不是采集節(jié)點,請不選。(只列出屬于此系統(tǒng)模型的欄目)
            入庫專題 采集的數據要入庫的專題。
            節(jié)點生效時間 “開始時間”與“結束時間”這個目前可隨意設置。這主要是以后版本擴展之用。
            備注 備注或說明
            選項
            默認相關關鍵字 截取標題前幾個字符作為相關鏈接的“關鍵字”,推薦設為0,這樣入庫效率更高。
            采集記錄數 可設置只采集前多少條記錄。("0"為不限,系統(tǒng)會從頭采到頁面尾)
            遠程保存圖片到本地 選擇后入庫時系統(tǒng)會遠程保存圖片到本地,還可設置是否加水印。(針對newstext字段)
            遠程保存FLASH到本地 選擇后入庫時系統(tǒng)會遠程保存FLASH到本地。(針對newstext字段)
            標題圖片設置 可設置選擇遠程保存第幾個圖片作為標題圖片及生成縮圖設置。
            每組列表采集個數 采集列表頁每組記錄數,單采集列表頁請?zhí)?。
            每組信息采集個數 采集信息頁數據每組記錄數
            每組入庫數 如果要遠程保存圖片/FLASH則請設小,如設為1。(為防止入庫超時,系統(tǒng)推薦將php的超時設為360以上)
            每組采集時間間隔 針對部分網站限制了頁面刷新時間間隔而設置的項
            附加選項
            頁面編碼轉換 頁面編碼的轉換設置。
            是否重復采集同一鏈接 可設置同一鏈接是否重復采集。
            是否隱藏已導入的信息 推薦選隱藏。否則入庫后的記錄依然會顯示到入庫列表里。
            采集后自動入庫 可設置采集后自動入庫,不需要人工去入庫。但有可能入庫超時中斷。
            入庫后自動刪除已導入的信息:入庫后同時刪除備份的驗證記錄。
            整體頁面過濾正則 格式:“廣告開始[!--pad--]廣告結束”。多個可用“,”格開。
            針對整個頁面代碼進行過濾。
            對整個頁面字符替換 原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統(tǒng)會一一對應進行替換。
            過濾選項
            采集關鍵字 標題包含關鍵字的信息才會采集。如不限制,請留空。多個請用","格開
            替換 原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統(tǒng)會一一對應進行替換。
            (針對標題與內容)
            過濾廣告正則 格式:“廣告開始[!--ad--]廣告結束”,多個請用","格開。(針對newstext字段)
            內容為空不采集 如果newstext內容為空不采集設置項。
            過濾相似 可設置不采集標題相似超過多少個字符的信息。如不限制請?zhí)?quot;0"。
            可設置不采集標題完全相同的信息
            截取內容簡介 如果信息簡介(smalltext)沒有值的話,系統(tǒng)會依此設置截取新聞內容(newstext)多少字符作為簡介。
            列表頁正則
            信息鏈接區(qū)域正則 通常不需要設置。一般是設置只采集頁面某一區(qū)域的鏈接縮小采集范圍才設置的
            在要采集鏈接區(qū)域的代碼地方加上“[!--smallurl--]”
            信息頁鏈接正則 采集“內容頁鏈接”的正則(列表頁里)
            在信息頁鏈接的地方加上“[!--newsurl--]”
            標題圖片正則 采集“標題圖片地址”的正則,可設置遠程保存與地址前綴(列表頁里,如圖片在內容頁,請留空)
            在標題圖片地址的地方加上“[!--titlepic--]”
            內容頁分頁采集設置:(如沒有分頁請留空,針對newstext字段)
            說明:如果是全部列表式,則只需看第一頁的頁面HTML代碼。
            入庫是否保留原分頁 如果選擇“不保留分頁”則入庫后的信息都不分頁。
            分頁形式 有“上下頁導航式”與“全部列出式”兩種形式。(一般全部列出式用的比較多)
            "全部列出"式正則設置 分頁區(qū)域正則([!--smallpageallzz--])
            分頁鏈接正則([!--pageallzz--])
            "上下頁導航"式正則設置 分頁區(qū)域正則([!--smallpagezz--])
            分頁鏈接正則([!--pagezz--])

            采集相關注意事項
            1、按通常設置,同一鏈接不重復采集。
            2、沒有標題的信息不采集。
            3、非固定內容可用“*”代表任意字符。
            4、對于特殊字符請在前面加上“\\”,當然直接將特殊字符改為“*”最合適了。特殊字符如下:
            “ )”、“(”、“{”、“}”、“[”、“]”、“\”、“?”等等。
            5、正則要找出唯一性的開頭字符。有時候空格都會成為識別的依據。
            6、增加節(jié)點后最好先預覽節(jié)點,預覽無誤后才開始采集。(管理采集節(jié)點那可預覽)
            7、"時間正則":為空的話,將為入庫時間

             
              為你推薦