Semalt詳細介紹URLitor –非常酷的Web爬網和數據提取工具

URLitor是一種新的但有效的Web抓取和數據提取工具。要使用URLitor,您只需要在提供的模板中添加所有URL的列表,這些URL的內容您要在線抓取。然後,您需要指定要從網頁中提取的HTML元素,然後單擊提交按鈕。就是這麼簡單。使用此工具,您不再需要從瀏覽器進行複製或粘貼。

xPath是一種用於在XML文件中搜索信息的語言。它使用某些表達式來選擇XML文件中的節點集或節點。 XPath可以理解的表達式與普通計算機文件或文檔所使用的表達式非常相似。

儘管XPath與多種編程語言一起使用,但該工具是為沒有任何編程知識的用戶而構建的。因此,您無需成為程序員即可使用它。使用此工具,您可以從多個HTML和XML頁面提取數據。

為簡化使用,已在下拉菜單中預定義了一些常用的XPath表達式,因此用戶僅需根據需要選擇其中的任何一個即可。他們的目標。但是,經驗豐富的XPath用戶可以隨意使用自己的自定義表達式。

該工具設計為在單個抓取會話中可容納100個URL,並且一次最多可包含10個表達式。換句話說,它一次最多可以從100個URL中抓取數據。

一些重要的可以修改或添加的XPath自定義表達式已在下面概述:

1。 // div [2] -此表達式按層次選擇第二個div;

2。 // link [@ rel ='canonical']/@ href –此表達式選擇用於將rel屬性設置為canonical的標記的位置(ref);

3。/html/head/meta [@ name ='description']/@ content –此表達式用於選擇內容;

4。 // * [@@ class ='class-name'] –您可以使用此表達式選擇所有以“ class-name”作為CSS類的元素;

5。 // h2 | // title –此表達式可用於選擇第一個H2和頁面標題;

6。 // * [name()='h1'或name()='title'] –此表達式的工作方式與上面的表達式完全相同。但是,上面表示的表達式更好,因為它更短;

7。 // * [contains(@class,'thumb')] –此表達式選擇具有CSS類並且還包含“ thumb”進行提取的每個元素;

8。 // parent :: * [text()='Welcome'] –此表達式選擇具有文本“ Welcome”的任何元素的父級;

此工具是Beta版,仍然可能會出現一些錯誤。但是,對於所有很少或沒有編程知識的用戶來說,它仍然是一個很好的工具,因為所有常用的表達式都已被預定義到菜單中。