外观
Xpath表达式
最常见的XPath表达式就是路径表达式。路径表达式就是从一个节点到另一个节点或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有三个组成成分:轴描述、节点测试、节点名称。
- 简写的XPath表达式
如一个div位于文本中的位置如下:<html><body><div></div><body><html>,那么它的位置使用XPath表示就是/html/body/div。
- 完整的XPath表达式
在XPath语法的每个步骤里,用完整的轴描述,然后使用“::”,它的后面跟着节点测试的内容。
- 轴描述语法
轴描述元素用于表示HTML文档分支的遍历方向。
| 坐标 | 名称 | 缩写语法 |
|---|---|---|
| child | 子节点 | 默认,不需要 |
| attribute | 属性 | @ |
| descendant | 子孙节点 | 不提供 |
| desendant-or-self | 自身引用及子孙节点 | // |
| parent | 父节点 | .. |
| ancestor | 祖先节点 | 不提供 |
| ancestor-or-self | 自身引用及祖先节点 | |
| following | 下文节点 | |
| preceding | 前文节点 | |
| following-sibiling | 下一个同级节点 | |
| preceding-sibiling | 上一个同级节点 | |
| self | 自己 | |
| namespace | 名称空间 |
attribute坐标简写语法的一个范例就是//a/@href,在HTML文档书里,选择所有a元素的href属性。self坐标通常和术语同用,以参考当前的选定节点。如h3[.='See also']在当前节点选中了h3的元素,该元素的内容为See also。