言成言成啊 | Kit Chen's Blog

XML可扩展标记语言

发布于2020-05-28 11:40:47,更新于2021-01-14 02:16:55,标签:xml  文章会持续修订,转载请注明来源地址:https://meethigher.top/blog

一、了解XML

1.1 概念

概念:Extensible Markup Language 可扩展标记语言

可扩展:标签都是自定义的,只要符合命名规则

功能:存储数据

  • 配置文件
  • 在网络上中传输数据。纯文本,跨平台。

XML与HTML区别

  1. XML标签是自定义;HTML标签是预定义
  2. XML语法严格;HTML语法松散
  3. XML存储数据;HTML展示数据

W3C(World Wide Web Consortium):万维网联盟

由于各种浏览器的恶性竞争,有的浏览器不用写属性的引号,有的浏览器甚至不用写html根标签。这样的竞争导致HTML不够规范,W3C为此出了严格规范的XML,打算代替HTML。事实却不是这样。因为太过规范,开发人员并不接受。

由此,XML改变了方向,向存储数据的方向发展。

properties只能存储简单的数据;复杂的数据,还需要用XML

1.2 语法

快速入门

1
2
3
4
5
6
7
8
9
10
11
12
13
<?xml version="1.0" encoding="UTF-8"?>
<users>
<user>
<name>邪月</name>
<age>23</age>
<gender></gender>
</user>
<user>
<name>胡列娜</name>
<age>22</age>
<gender></gender>
</user>
</users>

基本语法

  1. 文档的后缀名.xml
  2. xml第一行必须为文档声明
  3. xml有且仅有一个根标签
  4. 属性值必须使用引号,单双都可
  5. 标签必须正确关闭,必须有结束标签。自闭合标签也可
  6. 标签区分大小写

组成部分

  1. 文档声明
  2. 指令
  3. 标签
  4. 属性
  5. 文本内容

文档声明

1
<?xml 属性列表 ?>

属性列表

  1. version:版本号,必须的属性。版本还有个1.1,但是还有很多问题。所以1.0依然是最常用的xml版本
  2. encoding:编码方式。告知解析引擎,当前的文档使用的字符集,默认值iso-8859-1
  3. standalone:是否独立,不依赖与其他文件。yes或者no

指令

可以结合css修改样式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/css" href="a.css"?>
<users>
<user>
<name>邪月</name>
<age>23</age>
<gender></gender>
</user>
<user>
<name>胡列娜</name>
<age>22</age>
<gender></gender>
</user>
</users>

标签

xml元素必须包含以下命名规则:

  • 名称可以包含字母、数字以及其他的字符
  • 名称不能以数字或者标点符号开始
  • 名称不能以字母 xml(或者 XML、Xml 等等)开始
  • 名称不能包含空格

属性:id属性值唯一

文本内容

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<?xml version="1.0" encoding="UTF-8"?>
<!-- <?xml-stylesheet type="text/css" href="a.css"?> -->
<users>
<user>
<name>邪月</name>
<age>23</age>
<gender></gender>
</user>
<user>
<name>胡列娜</name>
<age>22</age>
<gender></gender>
<code1>if(a&lt;b&amp;&amp;b&gt;c){}</code1>
<code2><![CDATA[
if(a<b&&b>c){}
]]></code2>
</user>
</users>

二、XML约束

2.1 概念

软件使用者编写XML

软件框架解析XML

其中,规定XML文档的书写规则的叫做说明文档,也叫约束文档。由框架开发人员开发约束文档。软件使用者阅读约束文档

约束:规定XML文档的书写规则。

对框架使用者的要求:

  1. 能够在XML中引入约束文档
  2. 能够读懂约束文档

2.2 分类

  1. DTD:一种简单的约束技术
  2. Schema:一种复杂的约束技术

DTD

引入dtd文档到xml文档中

  • 内部dtd:将约束规则在xml文档中
  • 外部dtd:将约束规则定义在外部的dtd文件中
    1. 本地dtd
    2. 网络dtd

内部dtd

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE students [
<!ELEMENT students (student+) >
<!ELEMENT student (name,age,sex)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex (#PCDATA)>
<!ATTLIST student number ID #REQUIRED>
]>
<students>
<student number="s001">
<name>胡列娜</name>
<age>22</age>
<sex></sex>
</student>
<student number="s002">
<name>水冰儿</name>
<age>17</age>
<sex></sex>
</student>
</students>

外部dtd

如果是本地dtd,这样引用

1
<!DOCTYPE 根标签名 SYSTEM "dtd文件位置">

如果是网络dtd,这样引用

1
<!DOCTYPE 根标签名 PUBLIC "dtd文件名字" "dtd文件位置的完整URL">

student.dtd

1
2
3
4
5
6
<!ELEMENT students (student+) >
<!ELEMENT student (name,age,sex)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex (#PCDATA)>
<!ATTLIST student number ID #REQUIRED>

相应的xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE students SYSTEM "student.dtd">
<students>
<student number="s001">
<name>胡列娜</name>
<age>22</age>
<sex></sex>
</student>
<student number="s002">
<name>水冰儿</name>
<age>17</age>
<sex></sex>
</student>
</students>

Schema

student.xsd

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
<?xml version="1.0"?>
<xsd:schema xmlns="http://www.itcast.cn/xml"
xmlns:xsd="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://www.itcast.cn/xml" elementFormDefault="qualified">
<xsd:element name="students" type="studentsType"/>
<xsd:complexType name="studentsType">
<xsd:sequence>
<xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/>
</xsd:sequence>
</xsd:complexType>
<xsd:complexType name="studentType">
<xsd:sequence>
<xsd:element name="name" type="xsd:string"/>
<xsd:element name="age" type="ageType" />
<xsd:element name="sex" type="sexType" />
</xsd:sequence>
<xsd:attribute name="number" type="numberType" use="required"/>
</xsd:complexType>
<xsd:simpleType name="sexType">
<xsd:restriction base="xsd:string">
<xsd:enumeration value="male"/>
<xsd:enumeration value="female"/>
</xsd:restriction>
</xsd:simpleType>
<xsd:simpleType name="ageType">
<xsd:restriction base="xsd:integer">
<xsd:minInclusive value="0"/>
<xsd:maxInclusive value="256"/>
</xsd:restriction>
</xsd:simpleType>
<xsd:simpleType name="numberType">
<xsd:restriction base="xsd:string">
<xsd:pattern value="douluo_\d{4}"/>
</xsd:restriction>
</xsd:simpleType>
</xsd:schema>

相应的xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<?xml version="1.0" encoding="UTF-8" ?>
<!--
1.填写xml文档的根元素
2.引入xsi前缀. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
3.引入xsd文件命名空间. xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"
4.为每一个xsd约束声明一个前缀,作为标识 xmlns="http://www.itcast.cn/xml"


-->
<students xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns="http://www.itcast.cn/xml"
xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"
>
<student number="douluo_0001">
<name>胡列娜</name>
<age>22</age>
<sex>female</sex>
</student>
<student number="douluo_0002">
<name>水冰儿</name>
<age>17</age>
<sex>female</sex>
</student>
</students>

以后会碰到的高级一点的写法,先举个例子。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:context="http://www.springframework.org/schema/context"
xmlns:mvc="http://www.springframework.org/schema/mvc"
xsi:schemaLocation="
http://www.springframework.org/schema/beans
http://www.springframework.org/schema/beans/spring-beans.xsd
http://www.springframework.org/schema/context
http://www.springframework.org/schema/context/spring-context.xsd
http://www.springframework.org/schema/mvc
http://www.springframework.org/schema/mvc/spring-mvc.xsd">


<context:annotation-config />


<context:component-scan base-package="cn.cisol.mvcdemo">
<context:include-filter type="annotation"
expression="org.springframework.stereotype.Controller" />
</context:component-scan>


<mvc:annotation-driven />


<mvc:resources mapping="/resources/**" location="/resources/" />



<bean
class="org.springframework.web.servlet.view.ContentNegotiatingViewResolver">
<property name="order" value="1" />
<property name="mediaTypes">
<map>
<entry key="json" value="application/json" />
<entry key="xml" value="application/xml" />
<entry key="htm" value="text/html" />
</map>
</property>

<property name="defaultViews">
<list>

<bean
class="org.springframework.web.servlet.view.json.MappingJackson2JsonView">
</bean>
</list>
</property>
<property name="ignoreAcceptHeader" value="true" />
</bean>

<bean
class="org.springframework.web.servlet.view.InternalResourceViewResolver">
<property name="viewClass"
value="org.springframework.web.servlet.view.JstlView" />
<property name="prefix" value="/WEB-INF/jsps/" />
<property name="suffix" value=".jsp" />
</bean>



<bean id="multipartResolver"
class="org.springframework.web.multipart.commons.CommonsMultipartResolver">
<property name="maxUploadSize" value="209715200" />
<property name="defaultEncoding" value="UTF-8" />
<property name="resolveLazily" value="true" />
</bean>

</beans>

三、XML解析

解析:操作xml文档,将文档中的数据读取到内存中

操作xml文档

  • 解析(读取):将文档中的数据读取到内存中
  • 写入:将内存中的数据保存到xml文档中,持久化地存储

3.1 解析xml的思想

  1. DOM:将标记语言文档一次性加载进内存,在内存中形成一个DOM树
    • 优点:操作方便,可以对文档进行CRUD的所有操作
    • 缺点:占内存
  2. SAX:逐行读取,然后释放。基于事件驱动
    • 优点:不占内存。像现在手机中,大多使用SAX思想
    • 思想:只能读取,不能增删改

在服务器端,一般使用dom思想。在移动端,一般使用sax思想

3.2 xml的常见的解析器

  1. JAXP:sun公司提供的解析器,支持dom和sax两种思想。效率很低
  2. DOM4J:一款非常优秀的解析器
  3. Jsoup:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
  4. PULL:Android操作系统内置的解析器,sax思想

3.3 Jsoup的使用

步骤

  1. 导入jar包
  2. 获取Document对象
  3. 获取对应的标签Element对象
  4. 获取数据

快速上手

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
public class Demo01Jsoup {
public static void main(String[] args) throws IOException {
//获取Document对象
//根据xml文档来获取
String path=Demo01Jsoup.class.getClassLoader().getResource("student.xml").getPath();
//解析xml文档
Document dom=Jsoup.parse(new File(path),"utf-8");
//获取元素对象
Elements ele=dom.getElementsByTag("name");
System.out.println(ele.size());
//获取第一个Element对象
Element e=ele.get(0);
//获取数据
System.out.println(e.text());
}
}

对象的使用

  1. Jsoup:工具类,可以解析html和xml文档,返回document

    • parse(File in, String charsetName):解析xml或者html
    • parse(String html):解析xml或者html的字符串
    • parse(URL url, int timeoutMillis):通过网络路径获取指定的html或xml的文档对象
  2. Document:文档对象。代表内存中的dom树

    • getElementById(String id):根据id属性值获取唯一的Element对象

    • getElementsByTag(String tagName):根据标签名称获取元素对象集合

    • getElementsByAttribute(String skey):根据属性名称获取元素对象集合

    • getElementsByAttributeValue(String skey,String value):根据属性和属性值获取元素对象集合

  3. Elements:元素Element对象的集合。可以当做ArrayList<Element>来使用

  4. Element:元素对象

    • getElementById(String id):根据id属性值获取唯一的Element对象

    • getElementsByTag(String tagName):根据标签名称获取元素对象集合

    • getElementsByAttribute(String skey):根据属性名称获取元素对象集合

    • getElementsByAttributeValue(String skey,String value):根据属性和属性值获取元素对象集合

    • attr(String skey):根据属性名称获取属性值

    • text():获取文本内容

    • html():获取标签体的所有内容,包括字标签的字符串内容

  5. Node:节点对象。内容太多了,自己看文档

快捷方式使用

  1. selector:选择器
  2. XPath:XPath 是一门在 XML 文档中查找信息的语言。需要JsoupXpath.jar

以上内容,下载doc.jar,都能找到详细使用说明,不赘述。

提到jsoup,老是下意识的想到json,jsoup是java的html解析器。

下面列举几个常见的json的java解析器

  • jsonlib:官方出品
  • gson:谷歌
  • fastjson:阿里巴巴
  • jackson:springMVC框架内置的json解析器
发布:2020-05-28 11:40:47
修改:2021-01-14 02:16:55
链接:https://meethigher.top/blog/2020/xml/
标签:xml 
付款码 打赏 分享
若无法评论请科学上网
Shift+Ctrl+1 可控制工具栏