<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

網絡爬蟲英文翻譯范文

2024-02-23

網絡爬蟲英文翻譯范文第1篇

爬蟲是一個網頁自動搜索程序, 根據既定的抓取目標, 有選擇地訪問互聯網上的網頁與相關的鏈接, 獲取所需要的信息, 為搜索引擎重要組成部分。文獻[1]指出, 聚焦爬蟲與通用爬蟲的不同之處在于并不追求大的覆蓋面, 而將目標定為抓取與某一特定主題內容相關的網頁, 為面向主題的用戶查詢, 可實現搜索引擎對Deep Web網頁數據的發現和索引。聚焦爬蟲采用了一定的網頁分析算法過濾與主題無關的鏈接, 保留有用的鏈接并將其放入等待抓取的URL隊列, 然后根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL, 并重復以上過程直到到達程序的某一條件時停止, 可以有效提高Deep Web數據發現的效率。

一個高性能爬蟲需要注重以下幾個方面。

1.1 程序執行效率

能抓取目標的描述和定義是決定網頁分析算法與URL搜索策略如何制訂的基礎。而網頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為、工作有效性、及時性的關鍵所在。這兩個部分的算法又是緊密相關的, 決定了爬蟲程序的執行效率。

1.2 分布式爬行

文獻[2]指出, 集中式的爬蟲已經不能滿足目前互聯網的規模, 因此支持分布式的爬行, 處理和協調好各結點之間的交互, 也是一個重要環節。

1.3 硬件條件

由于網絡環境及硬件資源、IP地址和帶寬等因素造成的爬蟲協同工作問題也是造成爬蟲工作效率低的重要因素。

2 爬行網絡環境

網頁分析算法和URL搜索策略是聚焦爬蟲程序的兩個最重要的組成部分, 一定程度上決定了爬蟲工作效率的高低。但除此之外, 仍有相當一部分工作時間是停留在爬蟲選定了某個URL下載網頁并打開時。這部分工作時間往往比程序內部的算法分析時間要更長, 其重要因素在于URL的無序分配導致網頁數據通信缺少優化、分布式爬蟲無法有效協同工作等問題。

因此, DNS解析也是網絡爬蟲的瓶頸之一, 因為有些域名請求要經過很多層服務器才能解析到, 或者因解析服務器的忙碌而超時。文獻[3]指出, DNS查詢占用整個爬行的時間高達70%。解決的方法有兩種:一是提供DNS緩存, 二是建立異步DNS查詢模塊。在實際應用中一般會綜合這兩種方法。DNS解析子模塊可以單獨拿出來放在一臺Server上做成DNS服務器, 這樣可以采用更大的緩存和更多的查詢線程。

2.1 DNS緩存服務器

IDC可安裝本地DNS緩存服務器, 保存爬蟲抓取的解析網頁的域名與IP映射。default TTL=3600 (1hour) (緩存服務器保存記錄的時間是1h。也就是告訴DNS保存域的解析記錄為1h) ;將DNS緩存服務器地址加入到爬蟲服務器的/etc/resolv.conf中。

2.2 異步DNS查詢

(1) 創建多個DNS查詢線程, 每個查詢線程調用gethostbyname等同步的API, 主線程與查詢線程之間通過MessageQueue連接, MessageQueue基于事件通知機制。該方法缺點是實際的并發受限于查詢線程的個數。

(2) 基于非阻塞socket+事件驅動機制, 自行構造和解析DNS報文。這個跟常規的異步網絡應用思路一致, 但是需要自行編寫DNS協議構造和解析代碼。

3 分布式爬行

普通單處理機系統受限于CPU的處理能力、磁盤存儲的容量, 不可能具備處理海量信息的能力, 這就要求爬蟲支持分布式協同工作。文獻[4]指出, 一般說來, 爬蟲的分布式爬行可分為內部分布式爬行和外部分布式爬行。

3.1 內部分布式爬行。

所有的爬行進程在同一個本地網絡上運行并通過一個高速連接 (如LAN) 進行通信, 從遠程Web站點下載網頁時都利用相同的本地網絡。采用這種方式, 硬件資源擴展方便, 幾臺PC就能增大磁盤容量, 提高I/0吞吐量, 做成一個小機群, 性價比較高。此時, 瓶頸主要是在網絡出口帶寬上。

3.2 外部分布式爬行。

當并行爬行的不同爬行進程在通過Internet相連的地理位置較遠的不同地區運行時, 則這種爬行為外部分布式爬行。它的優勢是網絡帶寬較富裕, 可以就近爬行周圍的Web站點, 速度較快。在這種情況下, 重要的是確定不同地理位置的爬行進程問進行通信的頻率和數量。因為進程間的帶寬存在限制, 有時甚至是擁塞不堪而導致堵塞。分布式爬行的主要問題是當多個爬行節點并行下載網頁時, 不同的節點可能會多次下載同一個網頁。為了避免這種交叉, 并同時提高網頁下載質量, 并行節點之間應該進行充分的通信, 在網頁下載上達成協調, 以便并行、一致、高效率地下載網頁。

4 URL分配策略

URL分配模塊是爬蟲的重要組成部分, 主要考慮兩個問題。

(1) 在節點間劃分URL的策略, 即如何分配下載任務。

(2) 優化性能, 比如負載均衡、協同工作的開銷等。

目前一般有兩種分配模式可以參考:

4.1 靜態分配模式

各節點按事先規定的URL范圍獨立下載。若遇到不屬于本節點的URL, 有3種處理方法: (1) 放棄; (2) 下載; (3) 傳送到URL隸屬的節點。靜態分配模式的優點是配置比較簡單。關鍵在于如何劃分URL范圍, 有效利用各個節點的資源。

4.2 動態分配模式

由一個統一的URL管理器統一調度根據各節點的情況動態地分配URL。該模式的優點是能做到負載均衡, 使各個節點下載最大化。缺點也是很明顯的, 要有一個專門的URL管理器, 增大了成本和配置難度。URL管理器需要與各節點保持高速實時通信, 存在單點故障。由于要存放所有節點需要的URL集合, 當下載規模增大時, 本身也是一個瓶頸。

5 結語

制約爬蟲的外部分布式爬行的客觀及硬件因素較多, 且環境復雜, 一般可通過定義URL分配策略及配置異步DNS查詢實現高性能內部分布式爬行?;赨RL動態分配方式成本高、配置難度大, 使用配置成本低效果明顯的靜態分配方式實現, 爬行效率更高, 如圖1所示。因此, 開發聚焦爬蟲程序時根據硬件條件、網絡環境、帶寬等因素, 合理設計URL分配策略, 配合高效的DNS查詢方法可有效提高分布式爬行的性能。

摘要:爬蟲作為網頁搜索下載程序, 其網絡爬行性能決定了搜索引擎的性能和數據質量。本文通過分析聚焦爬蟲的特點和網絡環境, 總結出三類制約爬行性能的主要問題, 分別是DNS查詢及緩存設置、內外部分布式爬行特點和網頁URL靜態與動態分配策略。結論為聚焦爬蟲使用URL靜態分配策略結合異步DNS查詢及緩存設置, 在內部分布式爬行時可有效提高網絡爬行性能。

關鍵詞:爬蟲,DNS,URL分配,分布式爬行

參考文獻

[1] 周立柱, 林玲.聚焦爬蟲技術研究綜述[J].計算機應用, 2005, 25 (9) .

[2] 周德懋, 李舟軍.高性能網絡爬蟲:研究綜述[J].計算機科學, 2009, 36 (8) .

[3] Heydon A, N~ork M.Mercator:Ascalable, extensible Web crawler[J].WorldWide Web, 1999, 2 (4) :219~229.

網絡爬蟲英文翻譯范文第2篇

一、爬蟲系統架構

一般的爬蟲爬取網頁, 我們可以把需要爬取的網頁鏈接看做是一個樹狀結構, 首先確定一個起始URL節點, 然后和樹的遍歷一樣, 不斷確定新的超鏈接節點進行爬取, 直到最后一個超鏈接, 對于爬取超鏈接的方式, 我們采用的是廣度優先算法。

一般的爬蟲技術系統架構有主從模式, 自治模式和混合模式三大類。本文所采用的就是主從模式架構, 此架構指定一臺主機作為Master節點, 對運行中的從機Slave節點進行管理調度。而每個從機中Slave節點只要獲取任務, 然后返回新生成的任務給控制節點在不和其他Slave節點通信情況下對任務進行處理。而控制節點中用一個地址列表記錄所有爬取信息, 從而達到對Slave節點進行通信并實現管理調度??刂乒濣c在系統中爬蟲數量發生變化時會更新地址列表信息, 這個過程對于系統中所有爬蟲透明。主從架構模式結構簡單, 增加Slave節點快捷方便, 任務分配率高。然而, 架構過于依賴Master節點, 可靠性和效率上可能不能達到特別理想的狀態。

二、分布式模塊系統結構設計

本文所設計的是基于Scrapy框架實現的一種利用主從模式并采用廣度優先遍歷算法進行遍歷URL節點的爬蟲系統, 該系統主要由Client, Master, Slave三個部分組成。Client端負責給Master提供需要爬取的任務并從Master獲取返回的任務結果;Master端和緩存數據庫Redis交互確定待爬取網頁URL, 并將要爬取的URL存儲到Redis數據庫。Slave端依照自己的性能向Master端獲取Redis數據庫存儲的任務, 然后執行, 并且接受Master端對自己的實時監控和調度。

三、分布式模塊系統的優化

(一) 主從模式的優化

從上文的介紹, 我們發現傳統的主從模式還是有一些弊端, 我們采用半分布式拓撲結構優化并簡化主從模式。我們可以選擇多個性能較高的節點作為多個Master節點, 并以每個Master節點為基礎分別建立自己的分布式爬蟲系統, 多個Master節點之間再采用全分布式非結構化拓撲結構連接起來, 從而實現對傳統主從模式的優化。

(二) 任務分配的優化

本文我們采用二級哈希映射算法分配任務來對任務分配進行優化。該算法中, 假設最多可以被用作Slave節點的主機數為a, 系統當前運行的節點數目是node_num。相應的每個節點有兩張表:一張是虛擬節點表;另一張是實際節點表。我們建立一個存儲boolean類型的數組Array_max[a]表示虛擬節點表, 若對應相同編號的元素在虛擬節點表和實際節點表中均存在, 那么該元素的值為true, 否則為false;建立一個int類型的數組Array_node[node_num]儲存實際節點表, 每個元素對應實際Slave節點的ID。使用第二次哈希映射運算進行本次分配。我們將第二次哈希映射算法所計算出來的值直接對應實際節點數組, 其在Array_node數組中對應的元素就是實際Slave節點的ID。假設經過第一次哈希映射算法后剩余的url為second_url, 我們有ID=Array_node[hash (second_url) %node_num]。

四、爬蟲模塊策略優化

(一) 去重與增量爬取

去重與增量爬取, 確保爬蟲爬取不同的信息, 極大的改善了爬蟲的性能。本文所設計的爬蟲具體去重的流程如下圖1所示。

(二) 對防爬蟲網站屏蔽的優化

現如今網站開發者也了解一些爬蟲開發者會在自己的網站爬取數據用作它途, 并且會對網站的正常運作造成影響, 所以大多數網站開發者會設計一些防爬蟲策略以阻止網絡爬蟲對自己的網站進行爬取。一般網站認定爬蟲的標準是同一個ip大量重復訪問此網站, 一旦認定就會剝奪該ip的訪問權限或者對該ip設置驗證。因此, 本文所設計的爬蟲系統必須采取合適的應對措施。

具體的應對措施是設計并開發代理ip池, 從ip池獲取ip步驟具體流程如圖2所示。

五、總結

通過以上介紹, 我們采用的是一種主從結構的基于廣度優先遍歷算法設計的爬蟲, 主機向從機發布指令, 并使用了Redis數據庫進行存儲以及熱更新技術, 大大提高了可擴展性以及存儲速率, 但因此導致爬取效率低, 可靠性低。因此我們使用半分布式拓撲結構優化簡單主從模式, 并且使用二級哈希映射算法進行任務分配, 一定程度上提高了可靠性和效率。

摘要:本文設計優化傳統的分布式爬蟲。系統框架采用C++語言, 使用Redis數據庫進行url存儲與調度分配, 采用去重與增量爬取優化了服務器的資源效率并且運用IP池解決了一些網站部分反爬蟲機制;最終系統運行成功并達到預期的效果。

網絡爬蟲英文翻譯范文第3篇

進入21世紀,人類當之無愧地邁入信息時代。 日新月異的科學技術成果和知識也不斷地充斥著社會,甚至出現了“信息爆炸”的局面。 據統計,2004年至2014年10年間,美國發表了3454354篇論文 , 中國位居 第二位發 表了1369834篇 , 德國90112篇 ,英國805372篇 ,其次是日本 、法國 、加拿大等國 。 我們在21世紀所要處理的知識總量 將要大大 地超過我 們在過去2500年間歷史長河中所積累的全部知識總量 。 在這種形式之下,信息之間、不同文化之間、不同語言之間互相交流也就愈發重要,對于翻譯的需求也就越來越大。 正是基于此種情況,越來越多的電子翻譯工具順勢而生。 目前翻譯實踐中經常使用的電子工具有以下幾類:

1.1計算機輔助翻譯(CAT)

計算機輔助翻譯,英文全稱為computer-assisted translation或者computer-aided translation,簡稱CAT。 與傳統的機器翻譯不同的是,計算機不再作為翻譯的主體,直接將源語言轉化成目標語得到最終的譯文,而是作為譯員的翻譯輔助工具,譯員則是翻譯過程的主導者。 也就是說,翻譯過程中不存在字對字、 詞對詞,按照字面意思生硬翻譯的情況,而是根據譯者的志愿選擇性的進行翻譯過程,最終得到的譯文也更加流暢,大大提供了翻譯效率和翻譯質量。 目前國內外比較常見的四種CAT軟件分別是Trados,Deja Vu,Wordfast和雅信,這四類軟件為譯員們的工作提供了便利。

1.2語料庫

語料庫并不是翻譯學上的專業術語,也不是語言學上的專業術語。 某個領域、某個行業內的術語進行提取與定義后,以識別他類研究所集成的語料合集,就可以叫做一個語料庫。 如傳統紙質詞典出現的人體部位圖上的語料,地理知識的語料都可以稱之為小型的語料庫。 信息時代下的語料庫更是可以被計算機檢索,故而以翻譯為目的收集的雙語語料庫進入到了翻譯人員的視野。 雙語平行語料庫中包括源語言文本,又包括目標語言文本, 因此譯員進行翻譯時可以借助語料庫收集的對照語料,提高翻譯的速度和質量。

1.3電子詞典

電子詞典與傳統紙質詞典相對,可以分成兩類。 一類為電腦在線翻譯詞典,如有道詞典,金山詞霸,靈格斯桌面電子詞典等等此類軟件詞典。 另一類則是電子工具翻譯詞典,如卡西歐電子詞典,好記星電子詞典,步步高電子詞典等等。 這些電子詞典都是將大量的紙質字典電子化后, 如牛津高階英漢雙解詞典, 柯林斯英漢雙解詞典等導入到機器中實現快速查詞的功能。 相比于笨重的紙質詞典,電子詞典小巧便捷,一般附有更新詞典的功能,不必要擔心紙質詞典更新慢的問題,而且節省紙張,既環保又方便。 相比于在線電子詞典,電子詞典的優勢也很明顯:在線詞典給出的詞義單一,而電子詞典中收錄的詞匯、用法較為全面,但在線詞典給出的用法時效性強,這也是電子詞典無法比擬的。 翻譯過程中,活用電子詞典和在線詞典,結合語境選出最佳的翻譯方案,無疑能大大提高翻譯質量。

1.4互聯網絡

21世紀的今天 , 人類的所有活動可以說都離不開互聯網 , 翻譯也是這樣。 互聯網為翻譯教學、翻譯練習、翻譯實踐提供了豐富的資源。 譯者在進行翻譯的過程中,為了達到翻譯出作者本意的目的,僅僅憑借單詞與單詞之間、句子與句子之間的意思是不夠的,了解文字背后所包含的背景、專業知識也同樣重要。 這個時候,互聯網就是譯者最好的助手。 互聯網集大眾智慧于數字空間中,為譯者插上了飛翔的翅膀,使他們可以輕松查閱全球資源,翻譯的精度越發銳利。

2互聯網絡上的語言翻譯資源

要想在互聯網上搜索數據不是件難事, 但是想要搜到適用的信息卻不是件易事。 德國翻譯學者奧特萊斯米勒總結出三種網絡搜索的多級別方法,分別是單位搜索、主題搜索和關鍵詞搜索。

單位搜索即Uniform Resource Locator, 是一種通過訪問特定網站來獲取值得信任的信息的方式, 使用這種搜索方法時需要從當前網站搜索大量相關信息,工作量較大,但是搜索出來的信息較為可靠。 如某華北理工大學研究生想要查看研究生畢業論文答辯相關規定, 應該從華北理工大學主頁www.heut.edu.cn處查找。

主題搜索即Subject Tree,這種方法是把需要搜索的信息歸類, 然后從互聯網特定的主題下尋找。 萬維網上的資源紛繁冗雜,沒有特定的分類方式,將網絡上的資源進行整合分類的一般是萬維網下的各種搜索引擎,如我們所熟悉的谷歌、百度等。 使用這種搜索策略時, 搜索人注意要能夠在某一搜索引擎上找到相符合的主題。 如你想要下載某一大學的?;?你可以從百度圖片的主題下開始搜索。 但是實際使用時, 如果單純使用主題搜索,工作量非常之大,而且還不一定能找到需要的信息,因此,在實際搜索中我們往往將上兩種搜索策略同第三種策略交叉使用,搜索也能事半功倍。

關鍵詞搜索, 顧名詞義這種搜索策略是通過關鍵詞查找相關信息,也是我們經常使用的搜索策略。 如我們在百度上輸入關鍵字Trados,顯示出的相關結果有785000個,在搜狗引擎上同樣輸入Trados,得到43686條結果。 這說明搜索引擎可查找到的信息數量上雖然驚人,但也不可能顯示出所有相關信息。

根據以上三種策略, 可以總結出互聯網中一些語言翻譯資源。

其一為特定網站中的翻譯資源。 如可以訪問聯網的語言數據庫,http://www.itu.int這個網站可以查詢國際通訊聯盟聯機的多語言術語數據庫,http://europa.eu.int/eurodicautom則可以查找歐盟翻譯服務部聯機的術語數據庫。

其二為在線詞典。有道http://youdao.com,金山詞霸http://cb. kingsoft.com等聯網查詢雙語資源 ;Merriam-Webster可以查詢類屬、詞語用法詞典,網址為http://m-w.com

其三為百科全書類。 百度百科http://baike.baidu.com、維基百科http://zh,wikipeida.org等通用百科全書, 以及通過PC Webopedia查詢各領域的專業百科全書 ,網址為http://pcwebopedia. com.

以上這些屬于較為專業、值得信賴的網址,在這些網站上查詢到的資源也比較權威。但是由于現今信息更迭速度空前快速, 很多資源在這些網站也查詢不到。我們在實際應用中,還是多使用搜索引擎,如百度、搜狗、360、谷歌等。 在輸入關鍵字后,搜索引擎會為我們顯示出與關鍵字相關的搜索條目。 相關的范圍十分廣泛,只要網頁中存在與關鍵字相同或相似的內容,搜索引擎就可能呈現該條內容, 當然顯示相關條目的多與少是取決于搜索器本身搜索能力的。

3結語

現今社會日新月異,科學技術成果更新換代速度空前,眾多的電子翻譯工具應運而生。譯員也要緊跟時代步伐,熟練掌握各種電子翻譯工具的使用方法,讓這些電子翻譯工具為我所用,提高自身翻譯的速度和精度。

摘要:信息時代下出現了多種電子翻譯工具,如CAT,語料庫,電子詞典及互聯網絡。這些電子翻譯工具在幫助譯員更快更好地處理翻譯任務方面發揮了重要作用?;ヂ摼W作為21世紀人類生活離不開的工具之一,在翻譯方面具有獨特的優勢。譯員采用單位搜索、主題搜索和關鍵詞搜索能更快、更準地在互聯網絡上查出對自己有用的語言翻譯資源。因此,譯員可以在使用其他翻譯工具的同時,結合互聯網進行高質量的翻譯。

上一篇:網絡游戲開發創業范文下一篇:文明部室主要事跡范文

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火