无重复字符的最长子串

题目链接：leetcode 3

题目描述

给定一个字符串，请你找出其中不含有重复字符的 最长子串 的长度。

示例 1：

1
2
3

输入: s = "abcabcbb"
输出: 3 
解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。

示例 2：

1
2
3

输入: s = "bbbbb"
输出: 1
解释: 因为无重复字符的最长子串是 "b"，所以其长度为 1。

示例 3：

输入: s = "pwwkew"
输出: 3
解释: 因为无重复字符的最长子串是 "wke"，所以其长度为 3。
     请注意，你的答案必须是 子串 的长度，"pwke" 是一个子序列，不是子串。

示例 4：

1 2	输入: s = "" 输出: 0

提示：

$0 <= s.length <= 5 * 10^4$
s 由英文字母、数字、符号和空格组成

题解

法一：手动模拟

先上一下我随手写的暴力代码吧，提交能够通过，击败25%左右的人：

class Solution {
    public int lengthOfLongestSubstring(String s) {
        int max_res = 0, n = s.length(), res = 0;
        LinkedList<Character> list = new LinkedList<>();
        for (int i = 0; i < n; i++) {
            if (list.contains(s.charAt(i))) {
                Iterator<Character> it = list.iterator();
                while (it.hasNext()) {
                    char c = it.next();
                    it.remove();
                    if (c == s.charAt(i))
                        break;
                }
            }
            list.add(s.charAt(i));
            res = list.size();
            max_res = Integer.max(res, max_res);
        }
        return max_res;
    }
}

具体思路很简单，就是模仿我自己去找的一个过程：从头开始遍历，每读到一个字符就先判断它是不是在之前出现过。

如果没出现过，就把它加入到待定序列中
如果出现过，就把待定序列从头开始一直到这个字符全部删掉，再把它加入到待定序列中

在这个过程中记录待定序列的长度并计算最大值即可。

所以我采用的是链表，这样便于从链表的头部进行删除。另外，注意一下边遍历边删除的处理，切不可写成下面的代码：

for (int i = 0; i < n; i++) {
    if(list.contains(s.charAt(i))){
        for(char c : list){
            list.remove(c);
            if(c == s.charAt(i))
                break;
        }
    }
    //...
}

复杂度分析：

时间复杂度：$O(n^2)$，因为 $list.contains()$ 函数本质上也是一层遍历，所以和外层的 $for$ 循环构成了双层的遍历
空间复杂度：$O(n)$，链表的最大长度即为字符串的长度

法二：滑动窗口

我们使用两个指针表示字符串中的某个子串（或窗口）的左右边界。
在每一步的操作中，我们会将左指针向右移动一格，表示我们开始枚举下一个字符作为起始位置，然后我们可以不断地向右移动右指针，但需要保证这两个指针对应的子串中没有重复的字符。在移动结束后，这个子串就对应着以左指针开始的，不包含重复字符的最长子串。我们记录下这个子串的长度；
在枚举结束后，我们找到的最长的子串的长度即为答案。

在上面的流程中，我们还需要使用一种数据结构来判断是否有重复的字符，常用的数据结构为哈希集合（即 C++ 中的 $std::unordered_set$，Java 中的 $HashSet$，Python 中的 $set$, JavaScript 中的 $Set$）。在左指针向右移动的时候，我们从哈希集合中移除一个字符，在右指针向右移动的时候，我们往哈希集合中添加一个字符。

代码：

class Solution {
    public int lengthOfLongestSubstring(String s) {
        // 哈希集合，记录每个字符是否出现过
        Set<Character> occ = new HashSet<Character>();
        int n = s.length();
        // 右指针，初始值为 -1，相当于我们在字符串的左边界的左侧，还没有开始移动
        int rk = -1, ans = 0;
        for (int i = 0; i < n; ++i) {
            if (i != 0) {
                // 左指针向右移动一格，移除一个字符
                occ.remove(s.charAt(i - 1));
            }
            while (rk + 1 < n && !occ.contains(s.charAt(rk + 1))) {
                // 不断地移动右指针
                occ.add(s.charAt(rk + 1));
                ++rk;
            }
            // 第 i 到 rk 个字符是一个极长的无重复字符子串
            ans = Math.max(ans, rk - i + 1);
        }
        return ans;
    }
}

另外，由于本题的数据集最多是所有的 ASCII 码（在 $[0,128)$ 的范围内），我们可以用数组来代替 $Set$

代码：

class Solution {
    public int lengthOfLongestSubstring(String s) {
        int[] ascii = new int[128];	// 记录对应的ASCII字符在子串中出现的次数
        int max_res = 0, n = s.length(), right = -1;
        for (int i = 0; i < n; i++) {
            if (i != 0) {
                ascii[s.charAt(i - 1)]--;
            }
            while (right + 1 < n && ascii[s.charAt(right + 1)] == 0) {
                ascii[s.charAt(right + 1)]++;
                right++;
            }
            max_res = Math.max(max_res, right - i + 1);
        }
        return max_res;
    }
}

进一步优化代码，我们可以看到，当出现重复字符时，左指针并不需要依次递增（$i++$），即多了很多无谓的循环。发现有重复字符时，可以直接把左指针移动到第一个重复字符的下一个位置即可。

优化后的代码：

class Solution {
    public int lengthOfLongestSubstring(String s) {
        int[] ascii = new int[128];	//记录对应的ASCII字符在 s 中的位置
        int res = 0, n = s.length();
        for (int i = 0, j = 0; j < n; j++) {
            i = Math.max(ascii[s.charAt(j)], i);
            res = Math.max(res, j - i + 1);
            ascii[s.charAt(j)] = j + 1;
        }
        return res;
    }
}

参考

LeetCode-Solution

ikaruga