DOM履带

编辑该页面

警告:你浏览的文档欧宝官网下载appob娱乐下载Symfony 5.2,不再维护。

这个页面的更新版本Symfob娱乐下载ony 6.2(当前的稳定版本)。

DOM履带

履带实例返回每次与客户请求。它允许您遍历HTML或XML文档:选择节点,发现链接和表单,并检索属性或内容。

遍历

像jQuery,爬虫的方法遍历DOM HTML / XML文档。例如,下面的发现输入(type =提交)页面上的元素,选择最后一个,然后选择它的直接父元素:

1 2 3 4 5
美元newCrawler=美元履带- >过滤器(的输入(type =提交))- >最后一个()- >父母()- >第();

其他方法也可以:

过滤器(“h1.title”)
CSS选择器匹配的节点。
filterXpath (h1)
XPath表达式匹配的节点。
eq (1)
指定索引节点。
第()
第一个节点。
最后一个()
最后一个节点。
兄弟姐妹()
兄弟姐妹。
nextAll ()
所有的兄弟姐妹。
previousAll ()
之前所有的兄弟姐妹。
父母()
返回父节点。
孩子()
返回子节点。
减少(λ)
节点的可调用不返回false。

因为这些方法返回一个新的履带实例,你可以缩小你的链接的节点选择方法调用:

1 2 3 4 5 6 7 8 9
美元履带- >过滤器(“标题”)- >减少(函数(美元节点,美元){如果(!美元节点- >attr (“类”)){返回;}})- >第();

提示

使用count ()函数来获取存储在一个爬虫的节点数量:count($履带)

提取信息

爬虫可以提取的信息节点:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21日22日23日
/ /返回第一个节点的属性值美元履带- >attr (“类”);/ /返回第一个节点的节点值美元履带- >文本();/ /返回默认文本如果节点不存在美元履带- >文本(默认文本内容的);/ /将真正作为第二个参数传递的文本()来删除所有多余的空白,包括/ /内部的(如。“foo巴兹\ n \ n酒吧”是作为“foo酒吧巴兹”)返回美元履带- >文本(,真正的);/ /提取所有节点属性的数组/ / (_text返回的节点值)/ /返回一个数组的每个元素在爬虫,/ /每个值和href美元信息=美元履带- >提取([“_text”,“href”]);/ /执行一个λ为每个节点,并返回结果的数组美元数据=美元履带- >每个(函数(美元节点,美元){返回美元节点- >attr (“href”);});
这项工作,包括代码示例,许可下Creative Commons冲锋队3.0许可证。