作成日 2015.06.26
最終更新日 2015.07.13
概要
R言語で使用される文字コードは、シフトjisからUTF-8に変わっています。それほど、古くない書籍でも、Windowsでは、シフトjisとの記述があるので、
古い資産を利用する際は、注意する必要があるかもしれません。
RStudioでの、文字コードの確認の方法

Tools→Project Option

Project Option→Code Editing
UTF-8が使用されていることがわかります。
使用環境は、Windows8.1 pro 64bitです。
実際に文字コードを確認して見る

では実際に、「あ」の文字コードをcharToRaw()関数で確認してみます。
すると、CP932(シフトJISのマイクロソフト拡張版)の文字コードである、「82 a0」が得られます。ちなみにUTF-8であれば、「e3 81 82」になるはずです。
RStudioの表示では、UTF-8ですが、実際には、CP932のようです。移行期にと思われるので、いつどのように変わるかわかりません。注意しましょう。
必要がない限り、かかわらない。必要な時は、調べたうえで、確認しながら使用する必要があるようです。
RStudioでは、日本語の扱いが考慮されていないようです。コマンドの入力支援が動作すると、IMEが無効にされます。無効になったり、有効にできたりする条件はよくわかりません。 そのため、テキストエディタなどから、コピーする必要があります。それが、今回の結果に影響しているかもしれません。
参考サイト
文字コード表(Unicode UTF-8 UTF-16) [7000/21420](外部サイト)
charToRaw, rawToChar(外部サイト)
小技メモ(Rで日本語の扱い)(外部サイト)
Convert to or from Raw Vectors(外部サイト)
参考書籍
