UDN-企业互联网技术人气社区

板块导航

浏览  : 2030
回复  : 1

关于65279

[复制链接]
蜡笔小新的头像 楼主
发表于 2014-5-7 17:45:55 | 显示全部楼层 |阅读模式
本帖最后由 蜡笔小新 于 2014-5-7 17:47 编辑

    今天在过滤停用词时,使用word = bufferedReader.readLine();来获取词语(每一行是一个词语),但是当我读取第一行后使用word.equals("蜡笔小新");(文件的第一行是"蜡笔小新"),却输出了false。这也太诡异了,当排除了不是空格的影响后,觉得应该是编码的问题了,然后输出(int)word.charAt(0)发现为65279。
    搜了一下65279,维基百科解释为:

然后,我把编码设为 UTF-8 无 BOM格式 就行了。











发表于 2014-5-9 07:42:44 | 显示全部楼层



微软自作聪明了。utf-8本就不需要bom

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部